首页 > 推荐 > 如果用R语言读《笑傲江湖》……

如果用R语言读《笑傲江湖》……

上周末,闲着没事就试了一个新的R中文文本分词包——jiebaR,支持Windows,支持简体及繁体中文,速度也很快,大家可以根据该包文档去学习,很容易上手!下面用R及该包对《笑傲江湖(金庸)》txt文件做一个简单的文本分析,纯属为了兴趣,作者学习R语言文本挖掘的初始练习语料都是从笑傲江湖下手的!


闲话少说,书归正传!以下是代码及结果截图:


1
小试牛刀:读取《笑傲江湖》txt文件,随机选取内容


代码截图(1):




结果截图<1>:




金庸-笑傲江湖.txt文件是一个1.94M大小的文件,在R中按行读入,结果呈现如上图。


2
进入正题:查看文中前50个出现频率最高的词;出现25个高频词汇(长度介于2-6)



代码截图(2):




结果截图<2>:




上面没有深入研究,如果你是想研究一下金庸老先生的写作风格、文笔之类的,那就想个思路仔细去写代码咯~


最后,根据出现频率最高的前25个词我做了一个词云图,wordcloud包还算好用,简单易学,不过有时候也比较坑,比如词频重叠问题,需要在使用时注意!下面贴出上面命令绘制的词云图(令狐冲和盈盈的红色连线是我自己画的):



出现频率最高的前25个词的词云图


如上,男主出镜率当仁不让了……



3
重点来了:抓取20个令狐冲和任盈盈的对话;抽取出与风清扬相关的所有内容



代码截图(3):




结果截图<3>:




像我这样资深级的伪笑傲迷,电视剧看了N遍,想看原小说却一直没行动的人,冲盈之间的打情骂俏及风清扬这种神级人物的所言所行是值得保存下来细细品味的。


两个txt文件输出至工作目录文件夹中,如下:






不过在这里,有个问题需要请教笑傲迷们,令狐冲跟任盈盈相互称呼中除了上面有的还有哪些?


作者:吕鸿福


点击左下角【阅读原文】查看作图方法


征稿启事


「校苑数模」公众号欢迎赐稿

稿件涉及数学、算法、计算机、编程、考研数学等相关领域

稿件一经采用,我们将奉上稿酬

投稿微信号:xiaoyuanshumo


友情链接