1000字范文,内容丰富有趣,学习的好帮手!
1000字范文 > 拓端tecdat|R语言文本挖掘tf-idf 主题建模 情感分析 n-gram建模研究

拓端tecdat|R语言文本挖掘tf-idf 主题建模 情感分析 n-gram建模研究

时间:2021-10-14 11:46:03

相关推荐

拓端tecdat|R语言文本挖掘tf-idf 主题建模 情感分析 n-gram建模研究

原文链接:/?p=6864

原文出处:拓端数据部落公众号

我们对20个Usenet公告板的20,000条消息进行分析。此数据集中的Usenet公告板包括新汽车,体育和密码学等主题。

相关视频:文本挖掘:主题模型(LDA)及R语言实现分析游记数据

文本挖掘:主题模型(LDA)及R语言实现分析游记数据

时长12:59

预处理

我们首先阅读20news-bydate文件夹中的所有消息,这些消息组织在子文件夹中,每个消息都有一个文件。

raw_text

## # A tibble: 511,655 x 3## newsgroup id text ## <chr> <chr> <chr> ## 1 alt.atheism 49960 From: mathew <mathew@mantis.co.uk> ## 2 alt.atheism 49960 Subject: Alt.Atheism FAQ: Atheist Resources ## 3 alt.atheism 49960 Summary: Books, addresses, music -- anything related to atheism ## 4 alt.atheism 49960 Keywords: FAQ, atheism, books, music, fiction, addres

## # … with 511,645 more rows

请注意该newsgroup列描述了每条消息来自哪20个新闻组,以及id列,用于标识该新闻组中的消息。

tf-idf

TF是词频(Term Frequency),IDF是逆文本频率指数(Inverse Document Frequency)。我们希望新闻组在主题和内容方面有所不同,因此,它们之间的词语频率也不同。

newsgroup_cors

## # A tibble: 380 x 3## item1item2correlation## <chr><chr><dbl>## 1 talk.religion.misc soc.religion.christian 0.835## 2 soc.religion.christian talk.religion.misc 0.835## 3 alt.atheism talk.religion.misc 0.779## 4 talk.religion.misc alt.atheism0.779## 5 alt.atheism soc.religion.christian 0.751## 6 soc.religion.christian alt.atheism0.751## 7 comp.sys.mac.hardware comp.sys.ibm.pc.hardware 0.680## 8 comp.sys.ibm.pc.hardware comp.sys.mac.hardware0.680## 9 rec.sport.baseball rec.sport.hockey0.577## 10 rec.sport.hockey rec.sport.baseball 0.577## # … with 370 more rows

主题建模

LDA可以整理来自不同新闻组的Usenet消息吗?

主题1当然代表sci.space新闻组(因此最常见的词是“空间”),主题2可能来自密码学,使用诸如“密钥”和“加密”之类的术语。

情绪分析

我们可以使用我们探讨的情绪分析技术来检查这些Usenet帖子中出现的正面和负面词的频率。哪些新闻组总体上最积极或最消极?

在这个例子中,我们将使用AFINN情感词典,它为每个单词提供积极性分数,并用条形图可视化

用语言分析情绪

值得深入了解为什么有些新闻组比其他新闻组更积极或更消极。为此,我们可以检查每个单词的总积极和消极贡献度。

N-gram分析

Usenet数据集是一个现代文本语料库,因此我们会对本文中的情绪分析感兴趣.

最受欢迎的见解

1.探析大数据期刊文章研究热点

2.618网购数据盘点-剁手族在关注什么

3.r语言文本挖掘tf-idf主题建模,情感分析n-gram建模研究

4.python主题建模可视化lda和t-sne交互式可视化

5.疫情下的新闻数据观察

6.python主题lda建模和t-sne可视化

7.r语言中对文本数据进行主题模型topic-modeling分析

8.主题模型:数据聆听人民网留言板的那些“网事”

9.python爬虫进行web抓取lda主题语义数据分析

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。