首页 > 推荐 > 如果用R语言读《笑傲江湖》……

如果用R语言读《笑傲江湖》……



论坛君
这是一篇很接地气的数据分析,作者闲得无聊(并不是)用R语言对《笑傲江湖》做了一个简单分析,抽取出当中出现频率高的词汇、以及男女主角的对话等等。(在“双十一”光棍节来临之际,秀恩爱真的没问题吗?)


上周末,闲着没事就试了一个新的R中文文本分词包——jiebaR,支持Windows,支持简体及繁体中文,速度也很快,大家可以根据该包文档去学习,很容易上手!下面用R及该包对《笑傲江湖(金庸)》txt文件做一个简单的文本分析,纯属为了兴趣,作者学习R语言文本挖掘的初始练习语料都是从笑傲江湖下手的!


闲话少说,书归正传!以下是代码及结果截图:


1
小试牛刀:读取《笑傲江湖》txt文件,随机选取内容


代码截图(1):




结果截图<1>:




金庸-笑傲江湖.txt文件是一个1.94M大小的文件,在R中按行读入,结果呈现如上图。


2
进入正题:查看文中前50个出现频率最高的词;出现25个高频词汇(长度介于2-6)


代码截图(2):




结果截图<2>:




上面没有深入研究,如果你是想研究一下金庸老先生的写作风格、文笔之类的,那就想个思路仔细去写代码咯~


最后,根据出现频率最高的前25个词我做了一个词云图,wordcloud包还算好用,简单易学,不过有时候也比较坑,比如词频重叠问题,需要在使用时注意!下面贴出上面命令绘制的词云图(令狐冲和盈盈的红色连线是我自己画的):



出现频率最高的前25个词的词云图


如上,男主出镜率当仁不让了……


3
重点来了:抓取20个令狐冲和任盈盈的对话;抽取出与风清扬相关的所有内容


代码截图(3):




结果截图<3>:




像我这样资深级的伪笑傲迷,电视剧看了N遍,想看原小说却一直没行动的人,冲盈之间的打情骂俏及风清扬这种神级人物的所言所行是值得保存下来细细品味的。


两个txt文件输出至工作目录文件夹中,如下:






不过在这里,有个问题需要请教笑傲迷们,令狐冲跟任盈盈相互称呼中除了上面有的还有哪些?


最后,祝各位学习愉快!


End


作者:吕鸿福


有疑问或者感兴趣的童鞋可以添加微信群交流哦~~



数据之美微信群



友情链接