首页>参考读物>计算机科学与技术>人工智能

Java机器学习
作者 : (美)乌黛·卡马特(Uday Kamath)克里希纳·肖佩拉(Krishna Choppella)著
译者 : 陈瑶 陈峰 刘江一 等译
出版日期 : 2018-09-19
ISBN : 978-7-111-60919-3
定价 : 89.00元
扩展资源下载
扩展信息
语种 : 简体中文
页数 : 337
开本 : 16
原书名 : Mastering Java Machine Learning
原出版社: Packt Publishing Ltd.
属性分类: 店面
包含CD : 无CD
绝版 : 未绝版
图书简介

本书涵盖了机器学习中的经典技术,如分类、聚类、降维、异常检测、半监督学习和主动学习。同时介绍了近期高深的主题,包括流数据学习、深度学习,以及大数据学习的挑战。每一章指定一个主题,包括对于实例研究,介绍前沿的基于Java的工具和软件,以及完整的知识发现周期:数据采集、实验设计、建模、结果及评估。每一章都是独立的,提供了很大的使用灵活性。附带的网站提供了源码和数据。对于学生和数据分析从业员来说,可以直接用刚学到的方法进行实验,或者通过将这些方法应用到真实环境中,加深对它们的理解。

图书特色

图书前言

关于机器学习有许多著名的书籍,有的是从数据中学习的理论教材;有的是某个特定领域的标准参考书,例如聚类、离群值检测或概率图建模;有的是操作指导,提供使用某种编程语言及相应的工具和库函数进行实践的示例。其中那些对理论涵盖面比较广的书,对细节的阐述有所欠缺,而那些专注于某个课题或工具的书也有短板,例如,可能解释了很多在流环境和在批处理环境中的方法有什么不同之处。另外,对于一些有机器学习方面的经验,而且喜欢用Java工具的读者,若他们希望通过某本书来拓展他们的知识,从本质上获得提升,那么合适的书籍尤其凤毛麟角。
在一本书中,他们希望找到:
●各种不同技术之间的差别,对于不同场景中的数据——有标签数据和无标签数据、数据流或批处理、本地数据或者分布式存储的数据、结构化的或非结构化的数据,每种技术有哪些长处和短处。
●应用某种机器学习理论的成熟的方法示例,使用最合适的技术,包括该理论最重要的数学表达式,以及这些技术如何能够最大限度地发挥该理论的优势。
●对成熟的基于Java的框架、库、可视化工具的描述性的介绍,以及如何把这些技术应用到实践中。
据我们所知,目前为止,这样的书一本也没有。
鉴于以上情况,本书的核心思想就是要填补这个空白,力图在理论和实践中取得平衡:一方面使用概率论、统计学、基础线性代数、初等微积分等解释机器学习的理论;另一方面强调方法论、实例研究、工具和代码示例,作为实践的支撑。
根据KDnuggets 2016年的软件调查报告显示,在机器学习使用的编程语言中,有16.8%的人投了Java一票,它是第二受欢迎的语言,仅次于Python。更重要的是,比起2015年,Java的受欢迎程度提高了19%!显然,在建立和部署与机器学习相关的系统方面,Java仍然是一种重要且高效的工具,偶尔的支持率下降也不影响大局。在本书中,我们的目标是让有一定Java编程经验和机器学习基础知识的读者,成为该领域中既专业又热情的爱好者。本书的目的就是铺一条阳光大道,以便读者向成为资深的数据科学工作者这个方向迈进。为使读者的进阶之路更加顺利,本书囊括了一个名副其实的机器学习技术弹药仓库,包括数据分析方法、学习算法、模型性能评估以及更多的监督学习和无监督学习、聚类和异常检测、半监督学习和主动学习等相关的内容。读者可能对其中一些已十分熟悉,对另一些没那么熟悉,而只是粗略地了解。本书还讲述了一些特别的话题,例如概率图模型、文本挖掘和深度学习。鉴于如今企业级别的系统越来越受重视,本书也涵盖了这方面的独特挑战,包括从数据流中学习、可应用于实时系统的工具和技术,以及大数据世界的必要架构:
●机器学习如何在大规模分布式环境下工作?
●在上述条件下有哪些必要的权衡?
●算法需要做哪些必要的调整?
●上述这类系统如何与强大的Hadoop生态系统的其他技术交互操作?
本书将会解释如何把机器学习应用到真实世界的数据和相关领域中,并提供了正确的方法论、流程、应用软件以及分析。每一章都包含了案例研究,介绍如何使用最合适的开源Java工具来应用本章所学的技术。本书介绍了超过15种开源Java工具,广泛支持各种技术,既有代码示例,也有使用实践。所有的代码、数据和配置,读者都可以下载并进行实验。我们还展示了超过10个真实世界的机器学习案例,演示了数据科学家的工作流程。每个案例都有以下实验步骤的细节:数据提取、数据分析、数据清理、特征降维/选择、映射到机器学习、模型训练、模型选择、模型进化以及结果分析。读者可以将此作为实践指导,学习如何将各章介绍的工具和方法论用于解决手头的业务问题。
主要内容
第1章介绍了机器学习的基本概念和技术。读者在Packt的其他类似书籍中也可以看到这些内容,例如《Learning Machine Learning in Java》等。本章涉及的概念有:数据、数据转换、采样和偏移、特征及其重要性、监督学习、无监督学习、大数据学习、数据流和实时学习、概率图模型,以及半监督学习。
第2章单刀直入地展示了监督学习的广泛场景及其相关技术的全景,还涵盖了特征选择和降维、线性建模、逻辑模型、非线性模型、SVM和核函数、集成学习技术(例如装袋算法和提升算法)、验证技术和评价指标,还有模型选择。本章的案例研究使用了Weka和RapidMiner,包括从数据分析到模型性能分析的所有步骤。和其他各章一样,案例研究是作为示例来帮助读者理解本章介绍的技术是如何应用到真实生活中的。这个案例研究所使用的数据集来自UCI Horse Colic。
第3章展示了多种先进的聚类和离群值技术及其应用。本章涵盖的主题包括无监督数据的特征选择和降维、聚类算法、聚类的模型评估,以及使用统计学方法、距离和分布式技术做异常检测。在本章末尾,我们展示了一个案例研究,使用一组真实世界的图像数据集MNIST进行聚类和离群值检测。另外,使用Smile API完成特征降维,使用ELKI进行学习。
第4章讲述了当只有少量的标签数据可以使用时,学习的算法和技术的细节。本章涵盖的主题包括自训练、生成模型、转导SVM算法、协同训练、主动学习和多视角学习。案例研究使用了两种学习系统,基于UCI威斯康星乳腺癌数据集来展开。本章介绍的工具有JKernelMachines、KEEL和JCLAL。
第5章涵盖了对实时呈现的独特环境下的数据流进行数据学习的问题。本章涉及的内容有:流机器学习和应用、监督的流学习、无监督聚类流学习、无监督离群值学习、流学习的评估技术以及评估使用的指标。本章末尾的详细案例研究说明了如何使用MOA框架。使用的数据集是Electricity(ELEC)。
第6章展示了对多维空间中的复合关联概率分布进行编码,可以有效地表示许多现实问题。概率图模型提供了一个框架来表示、绘制推断,并在这种情况下有效地学习。本章大体上涵盖概率概念、PGM、贝叶斯网络、马尔可夫网络、图结构学习、隐马尔可夫模型和推断。本章末尾会使用真实的数据集进行详细的案例研究。案例研究中使用的工具有OpenMarkov和Weka的贝叶斯网络。数据集是UCI Adult(Census Income)。
第7章介绍深度学习。如果今天在大家的想象中有一个机器学习的超级明星,那一定是深度学习,它已经在解决最复杂的AI问题的技术中占据了主导地位。本章的主题广泛地涵盖了神经网络、神经网络中的问题、深度信念网络、受限玻耳兹曼机、卷积网络、长短期记忆单元、降噪自动编码器、循环网络等。我们提供了一个详细的案例研究来展示如何实现深度学习网络、调整参数和执行学习。本章使用了DeepLearning4J和MNIST图像数据集。
第8章详细地介绍了在文本挖掘领域执行各种分析的技术、算法和工具。广泛地涵盖了文本挖掘、文本挖掘所需的组件、文本数据的表示、降维技术、主题建模、文本聚类、命名实体识别和深度学习等领域的主题。案例研究使用真实的非结构化文本数据(Reuters-21578数据集)突出主题建模和文本分类,使用的工具是Mallet和KNIME。
第9章讨论了当今最重要的挑战。当数据很大或者以非常高的速率增加时,可以使用哪些学习方案?如何处理可扩展性?主题涵盖了大数据集群部署框架、大数据存储选项、批数据处理、批数据机器学习、实时机器学习框架和实时流学习。在批量和实时大数据的案例研究中,我们选择了UCI Covertype数据集和机器学习库H2O、Spark MLlib和SAMOA。
附录A涵盖了线性代数的概念,作为一个简单的复习。它的覆盖范围一定不是完整的,但是它粗略地包含了一些与本书所述的机器学习技术相关的重要概念。包括向量、矩阵、基本矩阵运算和属性、线性变换、矩阵逆、特征分解、正定矩阵和奇异值分解。
附录B提供了一个概率论的简要介绍。包括概率公理、贝叶斯定理、概率密度估计、平均值、方差、标准差、高斯标准差、协方差、相关系数、二项分布、泊松分布、高斯分布、中心极限定理和误差传播。
必备知识
本书假设你有一些Java编程经验,并对机器学习概念有基本的了解。如果你既没有经验也不太了解机器学习,但是你很好奇并且是一个自我激励的人,那么不要担心,继续阅读吧!对于那些有一定相关背景的人来说,意味着熟悉简单的数据统计分析以及监督和无监督学习所涉及的概念。那些可能没有所需的必要数学技能或者必须唤醒他们遥远的记忆来重新记起那些奇怪的公式或有趣的符号的人,请不要沮丧。如果你是一个喜欢挑战的人,附录中的入门知识可能就是你启动引擎所需要的一切。一点点忍耐就能让你坚持下去!对于那些从未接触过机器学习的人来说,第1章就是为你和需要复习的人写的。这就是你的初学者工具包,先跳进去,然后找出它的全部内容。你可以尽可能地使用在线资源来扩充你的基础知识。最后,对于那些对Java没有感觉的人,有一个秘密是:本书中描述的许多工具都有强大的GUI(图形用户界面)。有一些包括类似向导的界面,使得它们可以非常易于使用,并且不需要任何Java知识。所以如果你是Java新手,只需跳过需要编码的例子,学习使用基于GUI的工具!
读者对象
本书的主要读者对象是负责处理数据的专业人士,其职责可能包括数据分析、数据可视化或转换、机器学习模型的训练、验证、测试和评估。大体是使用Java或基于Java的工具执行预测、描述或规范分析。Java的选择可能意味着个人偏好,也可能意味着以前有Java编程经验。另一方面,工作环境或公司政策也许限制了第三方工具的使用,所以只能使用Java和其他几种语言编写的工具。在第二种情况下,预期的读者可能没有Java编程经验。本书对待这类读者就像对待他们的同事——Java专家(最先提出策略的人)一样公平。
第二类读者可以通过具有两个属性的一类形象来定义:对机器学习具有求知欲的读者和对概念、实践技术和工具综合有期望的读者。这类读者可以选择略过数学和工具介绍,专注于学习最常见的监督和无监督机器学习算法。另一个可行建议是略读第1章、第2章、第3章和第7章,跳过所有其他的部分,然后直接阅读工具部分。如果你想快速分析客户所说的随时会出现的数据集,并给客户一个令人满意的分析,这是一种非常有建设性的办法。重要的是,通过重现本书中的实验所得到的一些实践经验,会让你提出只有大师才会问的正确问题!或者,你也许希望使用本书作为参考,以快速查找有关AP聚类算法(仿射传播)的详细信息(第3章),或者通过简要回顾原理图来回忆LSTM架构(第7章),或者要标记在基于流学习的异常值检测中基于距离的聚类方法的优缺点列表(第5章)。本书适用于所有读者,并且每个人都会发现很多可供学习的内容。
用户支持
本书的示例源码可以从http://www.packtpub.com通过个人账号下载,也可以访问华章图书官网http://www.hzbook.com,通过注册并登录个人账号下载。
GitHub上也提供了本书的代码,网址是https://github.com/PacktPublishing/Practical-Predictive-Analytics。

上架指导

计算机/人工智能/机器学习

封底文字

Java是行业内数据科学家使用的主要语言之一。大部分Hadoop生态系统是基于Java的,并且大部分的数据科学类产品级系统也多是使用Java语言来实现的。如果你知道Java,那么本书将助你成为数据科学界的高级实践者。
本书详细讲解机器学习中的高级技术,包括分类、聚类、离群值检测、流学习、主动学习、半监督学习、概率图建模、文本挖掘、深度学习以及大数据批处理与流机器学习。相应地,每一章的示例及现实世界的案例研究展示了如何使用完整的方法论以及目前可用的基于Java的最佳工具,来应用刚刚学习的技术。
对于解决各个领域中数据科学方面的问题,以及构建强大的机器学习模型所需要的工具和技术,读完本书之后,你都会有所了解。
通过阅读本书,你将:
掌握关键的Java机器学习库,通过理论和实践指导,发掘可以解决的每一类问题。
在机器学习的每一个大类中探索强大的技术,如分类、聚类、离群值检测、图建模和文本挖掘。
通过方法论、过程、应用和分析,将机器学习应用到真实的数据。
探索机器学习中有关新近专业化方面的技术和实验,如深度学习、流数据挖掘以及主动和半监督学习 。
使用最新的工具和方法,建立基于批量和基于流的大数据学习的高性能、实时、自适应预测模型。
对可应用于安全、金融犯罪、物联网和社交网络等领域方面的更强大的AI技术,获得更深入的理解。

作者简介

(美)乌黛·卡马特(Uday Kamath)克里希纳·肖佩拉(Krishna Choppella)著:Uday Kamath博士是BAE系统应用智能公司的首席数据科学家,专门研究可扩展机器学习,并在反洗钱(AML)、金融犯罪欺诈检验、网络空间安全和生物信息学领域拥有20年的研究经验。Kamath博士负责BAE系统应用智能公司AI部门核心产品的研究分析,这些产品涉及的领域有行为科学、社交网络和大数据机器学习方面。在Kenneth De Jong博士的指导下,他获得了乔治梅森大学的博士学位,他的论文研究聚焦于大数据和自动化序列挖掘的机器学习领域。

Krishna Choppella在BAE系统应用智能公司的角色是作为解决方案架构师,构建工具和客户解决方案。他有20年的Java编程经验,主要兴趣是数据科学、函数编程和分布式计算。

译者序

本书由陈瑶、陈峰、刘江一、刘旭斌、李勤5位译者共同翻译,其中3位已经在机器学习领域应用了本书所探讨的相关知识体系。英文版原书有500多页,其中介绍了大量的实例。每一章的结构基本相同,首先是基础理论介绍,而后是案例学习,所以对于初学者或者机器学习领域的同行,本书既可以作为查询机器学习现有理论的“字典”类手册,又可以作为想要通过阅读一些实例加深知识理解的工具书。如果想要了解某一个细分领域问题,有深入阅读需求的读者还可以查询在各类国际会议上发表的论文。在翻译过程中,我们对原书中的错误也进行了校阅。如果各位读者发现了中文版中的错误,欢迎大家积极指正。
在机器学习领域,新的理论和研究成果层出不穷,然而这些研究和应用领域之间存在着共识的差距,每一个在机器学习类书籍上贡献出宝贵时间的译者,都有一个共同的愿望,即希望通过知识的扩大化传播,能让更多的人加入这个还需要前仆后继的行业,构建行业间的桥梁,帮助人们生活得越来越好,提高研究成果的可应用率,最后真正实现产业化。

推荐序

Uday Kamath博士是一个拥有奇思妙想的人。每一次他到我的办公室,我们都会展开很多有意义和富有成效的讨论。我已经在乔治梅森大学(GMU)作为计算机科学的副教授任教了15年,主要研究方向是机器学习和数据挖掘。认识Uday 5年,第一次见面是在我的数据挖掘课上,他那时还是个学生,然后我们成了同事,以及大规模机器学习的项目和论文的共同作者。当Uday作为BAE系统应用智能公司(BAE Systems Applied Intelligence) BAE系统应用智能公司是全球最大的军品公司之一,曾在2011年位居第一。——译者注的首席数据科学家时,他获得了进化计算和机器学习方向的博士学位。对Uday来说,似乎拥有两个高要求的工作还不够,他的经历异常丰富,在GMU任职期间,他分别和计算机学院的四个人合作发表了多篇论文,这是不常见的。鉴于Uday的这种特质,不到四年他就博士毕业,对此我并不感到惊讶,现在我正为他的这本使用Java语言掌握高级机器学习技术的书写推荐序。Uday对于新的富有刺激性的挑战的渴望再次出现,所以你才会看到手中这本超棒的书。
这本书是Uday浓厚的兴趣和全面的、夯实的理论知识的产物,同时也是他对书中所推荐的方法的实际可行性的敏锐领会。虽然已经有一些关于机器学习和数据分析的书,但Uday的书填补了理论和实际之间大量的空白。它提供了对于经典又高级的机器学习技术全面的、系统的分析,将重点放在技术的优点和局限性,以及技术的实际使用和实现上。对于从事数据科学和分析的人,以及热衷于想要掌握机器学习技术实用、有效实现的本科生和研究生来说,本书都是一份不可多得的好书、好资料。
这本书涵盖了机器学习中的经典技术,如分类、聚类、降维、异常检测、半监督学习和主动学习。同时介绍了新的高级主题,包括流数据学习、深度学习以及大数据学习的挑战。每一章指定一个主题,通过案例研究,介绍最前沿的基于Java的工具和软件,以及完整的知识发现周期——数据采集、实验设计、建模、结果及评估。每一章都是独立的,提供了很大的使用灵活性。附带的网站提供了源码和数据。对于学生和数据分析从业员来说,这确实很难得,大家可以直接用刚学到的方法进行实验,或者通过将这些方法应用到真实环境中加深对它们的理解。
当阅读这本书的各个章节时,我想起了Uday对于学习和知识的热情。他在本书中描述的概念依旧清晰又饱含热情。我确信,作为读者,你也会感同身受。我一定会将这本书作为我所教课程的推荐资源,强烈推荐给学生。

Carlotta Domeniconi博士
乔治梅森大学计算机科学副教授

图书目录

推荐序
译者序
前言
作者简介
审校者简介
第1章 机器学习回顾1
 1.1 机器学习历史和定义2
 1.2 哪些不属于机器学习3
 1.3 机器学习概念和术语4
 1.4 机器学习类型及其子类6
 1.5 用于机器学习的数据集8
 1.6 机器学习的应用10
 1.7 机器学习中的实际问题10
 1.8 机器学习角色与过程11
1.8.1 角色12
1.8.2 过程12
 1.9 机器学习工具和数据集14
 1.10 小结16
第2章 监督学习在现实世界中的实践方法18
 2.1 正式描述和符号19
2.1.1 数据质量分析20
2.1.2 描述性数据分析20
2.1.3 可视化分析20
 2.2 数据转换与预处理21
2.2.1 特征构造22
2.2.2 处理缺失值22
2.2.3 离群值23
2.2.4 离散化24
2.2.5 数据采样24
2.2.6 训练集、验证集和测试集26
 2.3 特征关联分析与降维28
2.3.1 特征搜索技术29
2.3.2 特征评估技术29
 2.4 模型建立32
2.4.1 线性模型32
2.4.2 非线性模型35
2.4.3 集成学习和元学习器40
 2.5 模型评价、评估和比较42
2.5.1 模型评价42
2.5.2 模型评估指标43
2.5.3 模型比较45
 2.6 Horse Colic分类案例研究47
2.6.1 业务问题48
2.6.2 机器学习映射48
2.6.3 数据分析48
2.6.4 监督学习实验49
2.6.5 结果、观察和分析58
 2.7 小结60
 2.8 参考文献61
第3章 无监督机器学习技术63
 3.1 与监督学习共同存在的问题63
 3.2 无监督学习的特定问题64
 3.3 特征分析和降维64
3.3.1 符号64
3.3.2 线性方法64
3.3.3 非线性方法67
 3.4 聚类70
3.4.1 聚类算法70
3.4.2 谱聚类75
3.4.3 仿射传播75
3.4.4 聚类的验证和评估77
 3.5 离群值或异常值检测79
3.5.1 离群值算法79
3.5.2 离群值评估技术85
 3.6 实际案例研究86
3.6.1 工具和软件86
3.6.2 业务问题86
3.6.3 机器学习映射86
3.6.4 数据收集87
3.6.5 数据质量分析87
3.6.6 数据采样和转换88
3.6.7 特征分析和降维88
3.6.8 聚类模型、结果和评估91
3.6.9 离群值模型、结果和评估94
 3.7 小结95
 3.8 参考文献95
第4章 半监督学习和主动学习98
 4.1 半监督学习99
4.1.1 表示、符号和假设条件99
4.1.2 半监督学习技术101
4.1.3 半监督学习的案例研究106
 4.2 主动学习111
4.2.1 表示和符号112
4.2.2 主动学习场景112
4.2.3 主动学习方法112
4.2.4 不确定性采样112
4.2.5 版本空间采样113
4.2.6 数据分布采样115
 4.3 主动学习中的案例研究116
4.3.1 工具和软件116
4.3.2 业务问题116
4.3.3 机器学习映射116
4.3.4 数据采集117
4.3.5 数据采样和转换117
4.3.6 特征分析和降维117
4.3.7 模型、结果和评估117
4.3.8 主动学习结果分析121
 4.4 小结121
 4.5 参考文献122
第5章 实时流机器学习123
 5.1 假设条件和数学符号124
 5.2 基本的流处理和计算技术124
5.2.1 流计算124
5.2.2 滑动窗口125
5.2.3 采样126
 5.3 概念漂移和漂移探测127
5.3.1 数据管理128
5.3.2 局部内存128
 5.4 增量监督学习130
5.4.1 建模技术130
5.4.2 在线环境的验证、评估和比较136
 5.5 使用聚类的增量无监督学习138
 5.6 使用离群值检测的无监督学习148
5.6.1 基于分区的聚类离群值检测148
5.6.2 基于距离的聚类离群值检测149
 5.7 流学习案例研究151
5.7.1 工具和软件152
5.7.2 业务问题152
5.7.3 机器学习映射152
5.7.4 数据采集153
5.7.5 数据采样和转换154
5.7.6 模型、结果和评估155
5.7.7 流学习结果分析158
 5.8 小结160
 5.9 参考文献160
第6章 概率图建模163
 6.1 回顾概率163
 6.2 图的概念166
6.2.1 图的结构和属性166
6.2.2 子图和团167
6.2.3 路、迹和环167
 6.3 贝叶斯网络168
6.3.1 表示169
6.3.2 推断171
6.3.3 学习180
 6.4 马尔可夫网络和条件随机场186
6.4.1 表示187
6.4.2 推断188
6.4.3 学习189
6.4.4 条件随机场189
 6.5 特殊网络190
6.5.1 树增强型网络190
6.5.2 马尔可夫链190
 6.6 工具和使用193
6.6.1 OpenMarkov193
6.6.2 Weka贝叶斯网络图形界面194
 6.7 案例研究194
6.7.1 业务问题196
6.7.2 机器学习映射196
6.7.3 数据采样和转换196
6.7.4 特征分析196
6.7.5 模型、结果和评估197
6.7.6 结果分析200
 6.8 小结201
 6.9 参考文献201
第7章 深度学习203
 7.1 多层前馈神经网络203
7.1.1 输入、神经元、激活函数和数学符号203
7.1.2 多层神经网络204
 7.2 神经网络的局限209
 7.3 深度学习210
 7.4 案例研究231
7.4.1 工具和软件232
7.4.2 业务问题232
7.4.3 机器学习映射233
7.4.4 数据采样和转换233
7.4.5 特征分析233
7.4.6 模型、结果和评估233
 7.5 小结242
 7.6 参考文献243
第8章 文本挖掘和自然语言处理245
 8.1 NLP及其子领域和任务246
8.1.1 文本分类247
8.1.2 词性标注247
8.1.3 文本聚类247
8.1.4 信息抽取和命名实体识别247
8.1.5 情感分析和观点挖掘247
8.1.6 指代消解248
8.1.7 词义消歧248
8.1.8 机器翻译248
8.1.9 语义推理及推断249
8.1.10 文本摘要249
8.1.11 自动问答249
 8.2 挖掘非结构化数据的问题249
 8.3 文本处理和转换250
8.3.1 文档收集与标准化250
8.3.2 词元化251
8.3.3 停止词移除251
8.3.4 词干提取或词形还原251
8.3.5 局部/全局字典或词汇表252
8.3.6 特征抽取/生成253
8.3.7 特征表示和相似度255
8.3.8 特征选择和降维258
 8.4 文本挖掘主题259
8.4.1 文本分类260
8.4.2 主题建模260
8.4.3 文本聚类263
8.4.4 命名实体识别267
8.4.5 深度学习与NLP270
 8.5 工具和使用272
8.5.1 Mallet272
8.5.2 用Mallet进行主题建模273
8.5.3 业务问题274
8.5.4 机器学习映射274
8.5.5 数据采集274
8.5.6 数据采样和转换275
8.5.7 特征分析和降维276
8.5.8 模型、结果和评估276
8.5.9 文本处理结果分析277
 8.6 小结278
 8.7 参考文献278
第9章 大数据机器学习:最终领域281
 9.1 大数据的特点283
 9.2 大数据机器学习283
 9.3 批量大数据机器学习290
 9.4 案例研究294
9.4.1 业务问题296
9.4.2 机器学习映射296
9.4.3 数据采集296
9.4.4 数据采样和转换296
9.4.5 使用Spark MLlib作为大数据机器学习平台298
 9.5 实时大数据机器学习305
 9.6 机器学习的未来310
 9.7 小结310
 9.8 参考文献311
附录A 线性代数313
附录B 概率论317

教学资源推荐
作者: [美]梅尔亚·莫里(Mehryar Mohri) 阿夫欣·罗斯塔米扎达尔(Afshin Rostamizadeh) 阿米特·塔尔沃卡尔(Ameet Talwalkar) 著
作者: (美)Tom Mitchell
作者: 周昌乐 著
作者: (美)John F.Sowa
参考读物推荐
作者: [意] 朱塞佩·博纳科尔索(Giuseppe Bonaccorso) 著
作者: [新西兰]克里斯托夫·巴特内克(Christoph Bartneck),[比]托尼·贝尔帕梅(Tony Belpaeme),[德]弗里德里克·埃塞尔(Friederike Eyssel),[日]神田崇行(Takayuki Kanda),[新西兰]梅雷尔·凯瑟斯(Merel Keijsers),[美]塞尔玛·萨巴诺维奇(Selma Šabanović) 著
作者: [美] 理查德·M.里斯(Richard M. Reese)[印] 艾希什辛格·巴蒂亚(AshishSingh Bhatia)著