网站颜色:

【正版包邮】文本挖掘基于R语言的整洁工具R语言基础R语言理论程序设计编程计算机书网络抓取和文本挖掘实用指南文本挖掘技术应用.

  • 产品名称:文本挖掘基于R语言的整洁工...
  • 是否是套装:否
  • 书名:文本挖掘基于R语言的整洁工具
  • 定价:59.00元
  • 出版社名称:机械工业出版社
  • 出版时间:2018年1月
  • 作者:(美)茱莉亚·斯拉格(JuliaSilge)
  • 作者地区:美国
  • 译者:刘波
  • 书名:文本挖掘基于R语言的整洁工具

59    文本挖掘:基于R语言的整洁工具    59    (美)茱莉亚·斯拉格(Julia Silge)    全书共9章,主要介绍如何使用基于R的整洁工具来进行文本分析。首先介绍了整洁文本的格尸以及如何获取整洁文本数据集;并通过tidytext中的情感数据集来进行情绪分析;接着介绍了如何根据tf-idf统计量来识别特定文档中的重要单词,以及如何利用n-gram来分析文本中的文字网络;之后介绍了如何将整洁文本转换为文档词项矩阵和Corpus对象格尸并给出了主题建模的概念;后通过整合多种已知的整洁文本挖掘方法,给出了一些研究案例,这些案例涉及Twitter归档文件、NASA数据集以及来自新闻组的即时通信信息。    "目录

前言1

第1章 整洁文本格式7

比较整洁文本结构与其他数据结构8

unnest_tokens函数8

整理Jane Austen的作品10

gutenbergr包13

词频13

总结17

第2章 基于整洁数据的情感分析18

情感数据集18

内连接的情感分析21

比较三个情感词典24

最常见的正面单词和负面单词26

Wordclouds模块 28

除单词外的其他文本单30

总结32

第3章 分析词和文件频率:tf-idf33

Jane Austen小说中的词项频率34

Zipf定律35

bind_tf_idf函数38

物理学语料库41

总结45

第4章 词之间的关系:n-gram及相关性46

n-gram词条化46

用widyr包对单词对计数并计算相关性60

总结66

第5章 非整洁格式转换67

使文档–词项矩阵整洁67

将整洁文本数据转换为矩阵74

总结84

第6章 主题建模85

LDA 86

示例:博大的图书馆馆藏91

LDA方法的替代实现 101

总结102

第7章 案例研究:Twitter归档文件比较103

单词使用情况的比较107

单词使用情况的变化109

收藏和转发113

总结 117

第8章 案例研究:NASA数据挖掘118

NASA如何组织数据118

共现单词与相关单词123

计算描述字段的tf-idf129

总结142

第9章 案例研究:分析Usenet文本143

预处理143

新闻组中的单词146

情感分析151

总结159

参考文献160"

热门设计服务