黑客24小时在线服务

(24小时免费黑客)

用平板可以看到qq聊天记录吗(用ipad登能不能看之前的聊天记录)

承接上一篇文章,在上一篇中主要对群活跃情况,和成员情况进行了分析,这一篇则主要是对聊天记录做一些浅显的文本分析。文本挖掘是一个博大精深的领域,我们通常叫做自然语言处理NLP,它涉及到很多统计学,数学,信息论,语言学的东西,当然也是目前前沿科技之一,这里,仅对文本做一些简单的分析,以期抛砖引玉.虽然如此,但是,其分析的结果仍然能给我们提供许多有用的信息。这里便做一些展示: 数据来源:PPV课QQ群,PPV课是国内最活跃的几个大数据社区之一。 样本数 : 聊天记录文件不大,但是数据却非常多,因为是全文本数据,R处理起来很慢,所以这里分每个群进行,大约5万字符。 由于中文语言的特点,我们在做文本挖掘时,首先做的第一个事情就是–分词.因为中文一句话没有天然间隔,不像英文一个词一个词用空格隔开,我们在理解中文一句话时,非常简单,但是机器却很难知道哪几个字能组成词,所以分词虽是第一步,却也相当的难,好在,具体的算法我们不必研究R中已经有很多分词工具.分完词后,比较初步的就是进行词频统计.词频统计在QQ群讨论的最多的是数据分析的学习.和职业.并且对其认可度高.

词频就是简单统计词语在文档中出现的次数,当然,这里会过滤一些词,像"了","啊"等等这些停止词和无意义的词,通常来说一篇文档中词汇出现频次很多,基本上就代表文档跟这个词有关.这里,分为了名词,动词,和形容词的词频统计,目的是让我们更加的了解文档的大致情况,我们可以从图中看到名词(数据,老师,课程)最多,动词(学习,谢谢,分析)最多,形容词(直接,不同,重要)最多,我们按照一句话来模糊理解一下,基本上就是学习课程,并且形容词还带有一些情感的倾向,重要,不错,等等说明了.大家对于学习的认可。

展开全文

画成云图就是如下:

关键词提取这真的是一个关于数据分析学习和职业的群

用平板可以看到qq聊天记录吗(用ipad登能不能看之前的聊天记录)

词频仅是对一个文本基于最基础的统计性分析,但是一篇文本的关键意思不能简单的按照词语出现次数最多的词来表示.我们需要提取其中的关键词,这里关键词提取使用逆文档频率TFIDF的方法,一个词在其他文档出现得少,在被分析的文档出现的多,说明它更具代表性.也即文档的特征所在。

用平板可以看到qq聊天记录吗(用ipad登能不能看之前的聊天记录)

实体识别看到群里涉及的真实人物,及各地方实体

这一部分在第一篇已经分析出来,这里再摆出来是为了说明,即使在非结构化的数据中,仍然可以提取出地区,和人名的实体,第一篇实际上是一个半结构化的数据,所以提取一些信息比较简单,而这里使用的文本,是非结构化的,对于实体的提取,与其有很大的不同.

文本归类对文本的内容进行大的归类.在新闻分类中比较有用.这里分为了经济,这个大类,基本上说对于我们可用信息不高,太宽泛了,之所以如此,是我们在分析这个群时,并没有事先给其定义各种标签,如果我们想分的更细,需要我们提前在定义标签,然后再分类,比方,我们先定义一些 生活,教育,职业,运动,交友,学习,等等标签,然后根据文档的特征来匹配分类,这里由于资源和技术的限制没有做分类。

情感倾向群里的伙伴对自身的领域发展持积极向上的态度.

情感倾向是通过词的情感来的,这里的结果对于直观的来说可能没有太大的意义,但是,我们如果换个角度来看,从大家对于这个领域的认可度来说,如果聊天的内容都是正向的,说明大家对于这个职业领域的认可的也说明了这个职业领域比较火,正在发展向上阶段.另外,如果是新闻事件,我们可以认为舆情的传播是有益的。

综合那么根据上面的几个方面的综合,可以看到,这是一个专注学习数据分析知识的群.来自各个城市的成员在上面讨论一些学习课程.而且对于自己所学课程的认可度高,以及职业领域的前景和发展看好.文章写得很粗糙,有许多点也没有表述清楚.由于文本分析的原理相对来说是比较复杂的,这里并没有写出其实现的原理,主要是担心自己学的不够好,所以也不瞎写,在接下来的时间,我会将实现原理及过程好好整理一遍之后,再贴出来,欢迎拍砖,也顺便请教高手的指点,感激不尽.第三篇也会很快的分享,感兴趣的欢迎继续阅读。PPV课原创文章,未经允许严禁转载

发表评论:

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。

«    2024年11月    »
123
45678910
11121314151617
18192021222324
252627282930
文章归档
标签列表

Powered By Z-BlogPHP 1.7.3

Copyright Your WebSite.Some Rights Reserved.