400 050 6600

我的课程

手机号

验证码

30天自动登录
我们将通过您的注册手机号码联系您(非必填)

微信扫码登录

手机号码登录

手机号

验证码

不要把数据分析中的词频统计当作一个难题

来源:CPDA中国数据分析学习网 / 作者:数据君 / 时间:2020-02-03

其实我们每天都享受着自然语言给我们带来的便利,比如搜索引擎给我们带来的关键词搜索,输入法中的自动纠错功能,以及购物网站上面的购物名称联想等等。

今天小编要为大家介绍的就是自然语言处理领域常用的算法之一,我们这次主要是在Datahoop平台来演示词频统计的方法。 

首先我们要进入Datahoop专业版分析工作平台

1、  选取工作模块

2、  选取自己所要用的文件

3、  从算法库中选择词频统计算法

4、  拖拽出结果展示的模块进行结果接收点击查看。  

这里就能看到展示结果,展示结果一般分为两个部分

1、  词云图可以对文章的内容进行可视化

字体越大说明此关键词在本篇文章里出现的频率也高

数据分析词频统计


2、词频统计:需要注意的是在词频统记中出现的(的、在、得、了)等我们称之为停用词,所谓的停用词指的是,这些词在文章中并不能对文章的内容产生任何的影响,所以在实际操作的时候我们会把这些停用词都删掉,我们会在结果中找到出现频率的前几个词,从而知道本篇文章到底说的那几个词是重点。


更多开班信息:http://www.chinacpda.com/openclass/

各省培训授权机构:http://www.chinacpda.com/train/

2020年考核时间:http://www.cpda.cn/examine/


商业联合会数据分析专业委员会



Prev article

数据分析师对词频统记的算法以及用法

Next article

一个以算法取胜的数据分析平台