如果用R语言读《笑傲江湖》……
文 | Henry
CDA原创文章 转载请注明出处
上周末,闲着没事就试了一个新的R中文文本分词包——jiebaR,支持Windows,支持简体及繁体中文,速度也很快,大家可以根据该包文档去学习,很容易上手!下面用R及该包对《笑傲江湖(金庸)》txt文件做一个简单的文本分析,纯属为了兴趣,作者学习R语言文本挖掘的初始练习语料都是从笑傲江湖下手的!
闲话少说,书归正传!以下是代码及结果截图。
一、
代码截图(1):
结果截图<1>:
金庸-笑傲江湖.txt文件是一个1.94M大小的文件,在R中按行读入,结果呈现如上图。
二、
代码截图(2):
结果截图<2>:
上面没有深入研究,如果你是想研究一下金庸老先生的写作风格、文笔之类的,那就想个思路仔细去写代码咯
上面最后,根据出现频率最高的前25个词做了一个词云图,wordcloud包还算好用,简单易学,不过有时候也比较坑,比如词频重叠问题,需要在使用时注意!下面贴出上面命令绘制的词云图(里面,令狐冲和盈盈的红色连线是我自己画的):
如上,男主出镜率当仁不让了……
三、
代码截图(3):
结果截图<3>:
像我这样资深级的伪笑傲迷,电视剧看了N遍,想看原小说却一直没行动的人,冲盈之间的打情骂俏及风清扬这种神级人物的所言所行是值得保存下来细细品味的。
两个txt文件输出至工作目录文件夹中,如下:
不过在这里,有个问题需要请教笑傲迷们,令狐冲跟任盈盈相互称呼中除了上面有的还有哪些?
最后,祝各位学习愉快!
点击文章底部“阅读原文”,或者进入公众号回复关键词“白皮书”,获取《中国数据分析职业发展白皮书》。
回复关键字 看往期精彩~
1001 ☛ 一分钟读懂2015中国数据分析师行业峰会!
1002 ☛ 吴喜之:数据分析和数据挖掘是最大的求职法宝
1003 ☛ 33道Hadoop面试题,看看你能答对多少?(答案在后面)
1004 ☛ 成为首席数据官是一种什么样的体验?
1005 ☛ 超能教程 十分钟学会 Python!