海量文本数据的多维挖掘
作者 : [美]张超(Chao Zhang) 韩家炜(Jiawei Han) 著
译者 : 黄琰 陈健 译
出版日期 : 2020-07-21
ISBN : 978-7-111-65990-7
定价 : 79.00元
教辅资源下载
扩展信息
语种 : 简体中文
页数 : 180
开本 : 16
原书名 : Multidimensional Mining of Massive Text Data
原出版社: Morgan & Claypool Publishers, Inc.
属性分类: 教材
包含CD : 无CD
绝版 :
图书简介

本书由国际数据挖掘领域泰斗、UIUC韩家玮教授和其学生张超博士(现为佐治亚理工学院助理教授)合著。介绍了将非结构化文本数据转换为多维知识的数据挖掘技术,并讲解了他们开发的文本多维数据集框架的原理和使用方法。

图书特色

海量文本数据
的多维挖掘
[美]  张超(Chao Zhang) 佐治亚理工学院        韩家炜(Jiawei Han) 伊利诺伊大学厄巴纳-香槟分校     著 
     黄琰 陈健  译
Multidimensional Mining of Massive Text Data

上架指导

计算机\数据挖掘

封底文字

作为一种重要的数据形式,非结构化文本在社交网络、信息检索、科学研究和医疗信息学等领域的数据驱动决策中发挥着至关重要的作用。在许多新兴的应用中,人们对文本数据的信息需求正向多维化转变——他们需要从文本语料库的多个方面来获取有用的见解。但是,从海量文本数据中获取这种多维知识仍然是一项具有挑战性的任务。
本书介绍将非结构化文本数据转化为多维知识的数据挖掘技术,针对以下两个核心问题进行了调查研究:如何使用多维度的声明性查询来识别与任务相关的文本数据?如何从多维空间的文本数据中提取知识?为了解决这两个问题,我们开发了一个文本立方体框架。首先,开发一个立方体构造模块,该模块从非结构化文本语料库中发现潜在的多维和多粒度结构,并将文档分配到这个结构中,以此将非结构化数据组织成一个立方体结构。其次,开发一个立方体开发模块,该模块对立方体空间中的多个维度进行建模,以此提取出用户所选数据中的多维知识。这两个模块共同构成一个整体流程:利用立方体结构,用户可以使用声明性查询执行多维、多粒度的数据选择;利用立方体开发算法,用户可以从所选数据中提取多维模式,以帮助进行决策。
本书所提出的框架在将文本数据转化为多维知识的过程中具有两个明显的优势:灵活性和标签效率。首先,它可以灵活地获取多维知识,因为立方体结构可以让用户轻松地在不同粒度下沿多个维度识别与任务相关的数据,并进一步提炼出多维知识。其次,立方体构造和开发的算法几乎不需要监督,从而使得这个框架对许多获取标记数据成本很高的应用都极具吸引力。

译者序

现实世界中源源不断产生的数据在很大程度上是非结构化、互联和动态的,且以自然语言文本的形式出现。目前普遍应用的数据处理技术多数都是采用先标记数据再提取知识的劳动密集型方式,难以进行扩展。本书作者认为,大量的文本数据本身就隐含了大量的隐式结构和知识,想要将非结构化的大数据变成有用的知识,首先要做的就是将数据结构化。韩家炜教授提出了两种结构化数据形式,即异质网络和多维文本立方体。将结构化数据转化为知识的技术已被证明是非常强大的,但是将非结构化数据转化为结构化数据则是非常困难的。韩家炜教授的团队一直沿着“从真实的数据到结构化数据,再到有用的知识”这条路进行研究,并且已经在这条路上突破了几个可以继续研究的方向。
本书介绍了将非结构化文本数据转化为多维知识的数据挖掘技术,针对两个核心问题“如何使用多维度的声明性查询来识别与任务相关的文本数据”和“如何从多维空间的文本数据中提取知识”提出了一个文本立方体框架,该框架包含文本立方体构造和文本立方体开发两个部分,以少量的监督将文本数据转化为多维知识。同时,给出了一些应用场景以及未来的研究方向。本书适用于对数据挖掘、机器学习感兴趣的学生和研究人员。教师也可以在任何相关领域的课程中根据需要自行使用本书。
本书的两位作者韩家炜和张超都是数据挖掘领域的优秀学者。韩家炜教授是伊利诺伊大学厄巴纳-香槟分校计算机科学系的杰出教授,其研究方向包括数据挖掘、信息网络分析、数据库系统和数据仓库。他在相关领域的顶级会议和期刊上发表过大量优秀的文章,曾在许多数据挖掘和数据库国际会议上担任委员会主席或其他职务。张超是佐治亚理工学院计算科学与工程学院的助理教授,并且在2018年获得了伊利诺伊大学厄巴纳-香槟分校计算机科学博士学位。他的研究领域包括数据挖掘和机器学习。此外,他在顶级会议和期刊上发表了40多篇文章。
本书的翻译工作由华南理工大学软件学院研究生黄琰和陈健教授完成。同时,华南理工大学软件学院的王佳纯和谢方圆同学为本书的翻译工作提供了大量的帮助。在此也对机械工业出版社为本书翻译工作提供大量帮助的编辑表示感谢。
由于中文与英文之间存在句式与语法的差异,且译者水平有限,译文中难免存在疏漏和错误,欢迎大家批评指正!

黄琰 陈健
广州华南理工大学
2020年1月15日

图书目录

译者序
作者简介
译者简介
第1章 引言 1
1.1 概述 1
1.2 主要部分 3
1.2.1 第一部分:立方体构造 3
1.2.2 第二部分:立方体开发 5
1.2.3 示例应用 5
1.3 技术路线 6
1.3.1 任务1:分类器生成 7
1.3.2 任务2:文档分配 8
1.3.3 任务3:多维摘要 8
1.3.4 任务4:跨维度预测 9
1.3.5 任务5:异常事件检测 9
1.3.6 小结 9
1.4 本书大纲 10
第一部分 立方体构造算法
第2章 主题级分类器生成 12
2.1 概述 12
2.2 相关工作 15
2.2.1 监督分类器学习 15
2.2.2 基于模式的提取 15
2.2.3 基于聚类的分类器构建 16
2.3 准备工作 17
2.3.1 问题定义 17
2.3.2 方法概述 17
2.4 自适应词聚类 18
2.4.1 划分主题的球形聚类 18
2.4.2 识别代表性词语 20
2.5 自适应词嵌入 21
2.5.1 分布式词语表示 21
2.5.2 学习局部词嵌入 21
2.6 实验评估 22
2.6.1 实验设计 22
2.6.2 定性结果 24
2.6.3 定量分析 27
2.7 小结 29
第3章 词语级分类器生成 30
3.1 概述 30
3.2 相关工作 32
3.3 问题定义 33
3.4 HiExpan框架 33
3.4.1 框架概述 33
3.4.2 关键词提取 34
3.4.3 层次树扩展 34
3.4.4 分类器全局优化 41
3.5 实验 42
3.5.1 实验设计 42
3.5.2 定性结果 43
3.5.3 定量结果 44
3.6 小结 47
第4章 弱监督文本分类 48
4.1 概述 48
4.2 相关工作 51
4.2.1 潜在变量模型 51
4.2.2 基于嵌入的模型 51
4.3 准备工作 52
4.3.1 问题定义 52
4.3.2 方法概述 53
4.4 伪文档生成 53
4.4.1 建模类分布 53
4.4.2 生成伪文档 55
4.5 自训练的神经模型 56
4.5.1 神经模型预训练 56
4.5.2 神经模型自训练 57
4.5.3 基于CNN和RNN的实例化 58
4.6 实验 59
4.6.1 数据集 59
4.6.2 基线 59
4.6.3 实验设计 60
4.6.4 实验结果 61
4.6.5 参数研究 65
4.6.6 案例研究 67
4.7 小结 68
第5章 弱监督层次文本分类 69
5.1 概述 69
5.2 相关工作 71
5.2.1 弱监督文本分类 71
5.2.2 层次文本分类 71
5.3 问题定义 72
5.4 伪文档生成 72
5.5 层次分类模型 74
5.5.1 局部分类器预训练 75
5.5.2 全局分类器自训练 75
5.5.3 阻断机制 77
5.5.4 推导 77
5.5.5 算法概述 77
5.6 实验 78
5.6.1 实验设计 78
5.6.2 定量比较 80
5.6.3 组件评估 82
5.7 小结 84
第二部分 立方体开发算法
第6章 多维摘要 86
6.1 概述 86
6.2 相关工作 89
6.3 准备工作 90
6.3.1 文本立方体准备 90
6.3.2 问题定义 91
6.4 排名度量 91
6.4.1 普遍性和完整性 92
6.4.2 邻域敏感的独特性 92
6.5 RepPhrase方法 96
6.5.1 简介 96
6.5.2 混合离线物化 97
6.5.3 最优在线处理 100
6.6 实验 101
6.6.1 实验设计 101
6.6.2 有效性评估 103
6.6.3 效率评估 107
6.7 小结 111
第7章 立方体空间中的跨维度预测 112
7.1 概述 112
7.2 相关工作 114
7.3 准备工作 115
7.3.1 问题描述 115
7.3.2 方法概述 115
7.4 半监督多模态嵌入 117
7.4.1 无监督重构任务 117
7.4.2 监督分类任务 119
7.4.3 优化程序 119
7.5 多模态嵌入的在线更新 120
7.5.1 生命衰减学习 120
7.5.2 基于约束的学习 121
7.5.3 复杂度分析 124
7.6 实验 124
7.6.1 实验设计 124
7.6.2 定量比较 127
7.6.3 案例研究 129
7.6.4 参数影响 132
7.6.5 下游应用 134
7.7 小结 135
第8章 立方体空间中的事件检测 136
8.1 概述 136
8.2 相关工作 138
8.2.1 突发事件检测 138
8.2.2 时空事件检测 139
8.3 准备工作 140
8.3.1 问题定义 140
8.3.2 方法概述 140
8.3.3 多模态嵌入 142
8.4 候选生成 143
8.4.1 贝叶斯混合聚类模型 144
8.4.2 参数评估 145
8.5 候选分类 146
8.5.1 多模态嵌入的特征推导 146
8.5.2 分类过程 147
8.6 支持持续的事件检测 147
8.7 复杂度分析 148
8.8 实验 148
8.8.1 实验设计 148
8.8.2 定性结果 150
8.8.3 定量结果 153
8.8.4 可扩展性研究 154
8.8.5 特征的重要性 155
8.9 小结 156
第9章 结论 157
9.1 总结 157
9.2 未来工作 158
参考文献 160

教学资源推荐
作者: (英)David Hand,Heikki Mannila,Padhraic Smyth
作者: K.P.Soman;Shyam Diwakar;V.Ajay
作者: (美)Ramon A.Mata-Tloedo,Pauline K.Cushman
作者: 朱翠娥 曹彩凤 刘兴林 主编 董超俊 何国辉 主审 李敬民 全萍 司徒伟俊 张胜利 编著
参考读物推荐
作者: (美)Claudia Imhoff, Nicholas Galemmo, Jonathan G.Geiger