首页>参考读物>计算机科学与技术>计算机网络

机器学习技术与实战:医学大数据深度应用
作者 : [加] Hong Song Lin(洪松林)编著
出版日期 : 2018-04-26
ISBN : 978-7-111-59599-1
定价 : 89.00元
扩展资源下载
扩展信息
语种 : 简体中文
页数 : 346
开本 : 16
原书名 :
原出版社:
属性分类: 店面
包含CD : 无CD
绝版 : 未绝版
图书简介

本书作者是大数据深度分析技术资深专家,有二十余年数据仓库、数据挖掘、机器学习、人工智能等方面的研发和应用经验。他结合自己多年的行业经历,总结了机器学习在实际工程中的应用经验,特别是在医学大数据领域的应用经验,提供了大量一线资料。本书共8章,主要内容包括:第1章介绍机器学习应用的基础内容,快速引领读者进入机器学习领域。第2章介绍机器学习应用活动的前期工作,即数据探索的工作和数据准备工作,包括数据关系探索、数据特征探索、数据选择、数据处理。第3章介绍机器学习的算法,从实际应用出发,介绍一些比较经典的算法,以及一些算法流程,包括聚类分析、特性选择、特征抽取、关联规则、分类和预测、时间序列、深度学习等。第4章介绍如何将算法用到商业应用的案例,如特性选择模型的应用、分类模型的应用等。第5章介绍智能医学科研系统IMRS的设计思路与步骤,包括从应用需求的产生、解决思路、系统设计、应用实现、效果评价与总结等完整过程,具体剖析IMRS的几个重要模块的开发方法,包括异常侦测模型、特征抽取模型,以及算法开发。第6章介绍如何使用机器学习系统IMRS,介绍了几个方向的应用,如分布探索、关系探索、特征探索、异常探索、推测探索灯。第7章继续介绍如何使用机器学习系统IMRS。包括文本挖掘技术、文本数据挖掘在医学上的应用、文本分词的实现、文本智能搜索、文本聚类与分类的应用、文本主题提取应用。第8章介绍智能医学诊断系统的设计思路与应用展望,还介绍了混沌人工智能的概念以及解决复杂问题的思路。

图书特色

图书前言

什么是机器学习?现在恐怕无需再做基本概念解释了。在本书中,我们谈机器学习的实用技术。我们知道,有了数据,就要做很多分析工作。其中很常见的、很基本的一个分析是,针对目标变量,我们需要从大量的候选变量(可能是几百个、几千个)中,探索、发现哪些变量与目标变量具有较强的广义相关性。我们可能应用很多不同的算法,一一对每个候选变量与目标变量进行相关性探索尝试,可有时还是没能找到一个有显著相关性的变量。不少人可能都觉得没办法了。但是,没有找到显著的独立相关变量,不意味着不存在任何相关变量了,数据中有可能存在着多个变量组合与目标变量具有较强的相关性(多变量相关组),或者说,与目标变量具有较强相关性的某个变量在数据中被“拆分”成了多个与目标变量不具有较强相关性的分变量。那么,在几百个甚至成千上万个候选变量中,如何有效地找到一个或多个多变量相关组呢?这是机器学习技术与工程实践中一个典型的深入课题。解决这个问题,就像下围棋一样,棋局太多、变化太多,着法也太多。机器学习中类似的分析课题有很多,这需要我们不断地探索、不断地实践、不断地创新、不断地积累,以便在千变万化的“棋局”中找到解决之道、制胜之道!
机器学习作为一种自动化、智能化的深度分析技术,从更高的层面上讲,其目的就是要从由数据代表的真实世界事物中探索和挖掘潜在规律和隐含机理,因此,机器学习除了是一门实用的应用技术外,它的发展前沿还是奥秘揭示、知识发现、科学探索!更高瞻远瞩一些,机器学习随着理论和实践的不断深入,已经不再是原先狭义的“数据利用”和“知识发现”了,正在越来越深入到数学发现、甚至哲学发现以及科学发现了。例如,机器学习通常从刻画客观事物的各类大数据中挖掘出内在的规律,并期望能得到可靠、精准的可预测性结果。但是,随着机器学习应用和研究的深入,我们发现了大量不可预测的现象与问题。通常,技术人员会想是数据出现了问题?还是算法出现了问题?因为人们的传统思维通常是建立在确定性理论基础之上的。但是,科学家们已经越来越多地意识到、甚至认识到了世界上大量不确定性现象的客观存在。
那么,数据中出现的这种不可预测性,很可能是由不确定性系统产生的。现实世界中,除了我们认识到的确定性系统之外,还存在着很多不确定性系统,这些系统中拥有大量的非线性的、无序的现象和事物。例如,量子力学中的不确定性原理、混沌学中确定性系统中的无序随机性,都属于不确定性,也就是说,至少是目前技术水平下,是不可预测的。但是,系统中存在着混沌性和无序性,并不意味着无规律性。实际上,很多系统中的非线性无序状态中蕴含着许多规律性,只不过现代的理论和技术比较有限,尚不能很好地认识和应用这些规律。例如,混沌学中洛伦茨奇异吸引子是一个美丽的无序状态,它是有规律的,数据的表现貌似随机,但却遵循着一定之规(数学模型)。
实际上,除了混沌学发现了大量的无序现象外,还有其他学科涉及不确定性系统的研究,例如,概率论也是研究无序(随机)问题的一个分支学科。无序(随机)与有序(确定)是相对的,而不同的无序(随机)之间是相对的。以上都体现了系统的不确定性,由数据表达的时候,就出现了不可预测性。这就需要机器学习或者数据挖掘的理论、技术与实践还要不断创新和发展。因此,我们说,机器学习在现在和未来,作为现实世界科学探索的一个工具和技术,将不断地探索和发现包括不确定性系统产生的大量客观规律,以便更好地服务于各行各业的应用实践!
我们在本书中尽可能将理论与实践相结合,既重于实践应用又深入理论原理。理论是灰色的,而实践则是最鲜活的。本书是机器学习应用方面的书籍,我们希望尽可能多讲些实践和案例,并多用图画、图表说明大部分的机器学习原理和应用,让读者更能贴近实际。
本书主要内容
第1章“机器学习基础”介绍机器学习应用的基础内容,希望能快速引领读者进入机器学习领域。该章包括机器学习中一些基本概念,如数据的“形状”、机器学习要素等;机器学习的应用概念,如事物与维度、分布与关系、描绘与预测、现象与知识、规律与因果;机器学习基础概念,如无限三维嵌套空间,分数维度空间,不确定论等。
第2章“数据探索”介绍机器学习应用活动的前期工作,即数据探索和数据准备工作,包括数据关系探索、数据特征探索、数据选择、数据处理。
第3章“机器学习技术”介绍机器学习的算法,一个好的、合适的算法在机器学习应用项目中起着至关重要的作用。本书从实际应用出发,介绍一些比较经典的算法,也包括一些我们为应用编写的新算法,以及一些算法流程,算法包括聚类分析、特性选择、特征抽取、关联规则、分类和预测、时间序列、深度学习等。
第4章“机器学习应用案例”介绍应用上一章中提到的一些算法开发商业应用的案例。这些案例不仅体现了算法的实践应用,也展现了机器学习应用各个环节的工作内容。该章将主要介绍特性选择模型的应用、分类模型的应用等。
第5章“机器学习应用系统开发”介绍智能医学科研系统IMRS的设计思路与步骤,包括从应用需求的产生、解决思路、系统设计、应用实现、效果评价与总结等完整过程,具体剖析IMRS的几个重要模块的开发方法,包括异常侦测模型、特征抽取模型,以及算法开发。
第6章“机器学习系统应用(一):结构数据挖掘”介绍如何使用机器学习应用系统IMRS。按照临床科研的普遍需求,我们将IMRS的功能划分为六个方向:分布探索、关系探索、特征探索、异常探索、推测探索和趋势探索,该章介绍前五个方向的应用。
第7章“机器学习系统应用(二):非结构数据挖掘”继续介绍如何使用机器学习应用系统IMRS,包括文本挖掘技术、文本数据挖掘在医学上的应用、文本分词的实现、文本智能搜索、文本聚类与分类的应用、文本主题提取应用。
第8章“基于机器学习的人工智能应用”介绍人工智能在医学上的应用:智能医学诊断系统的设计思路与应用,还介绍了混沌人工智能的概念、应用及展望。
致谢
现在,大数据和机器学习是热门,长年从事这个领域工作的我及我的团队都很忙,能够出版这本书实属不易。需要感谢的是我公司的Sun Chen (孙辰),他是来自澳大利亚的资深数据分析师,悉尼大学统计学硕士毕业,在本书的编写和整理过程中做了不少的协助工作,在此表示由衷的感谢!当然,机械工业出版社的吴怡编辑给予了我一贯的支持,她严谨的学术态度和丰富的编辑专业经验,不仅是本书质量的保证,也给我留下了深刻的印象,再次向吴老师表示衷心的感谢!最后,还要特别感谢我的家人,他们是我事业的最有力支持者,本书要献给我亲爱的儿子Eddie和我所有的家人!
知识无止境,学习无止境!我和我的团队也还在不断地学习。书中的错误和不当之处可能难免,敬请广大读者指正,不胜感谢!

洪松林(Hong Song Lin)
2017年12月26日

上架指导

计算机\数据挖掘

封底文字

机器学习是一门实用技术,而且是奥秘揭示、知识发现和科学探索的工具!更高瞻远瞩一些,机器学习随着理论和实践的不断深入,已经不再是原先狭义的“数据利用”和“知识发现”了,正在越来越深入到数学发现,甚至哲学发现以及科学发现了。随着机器学习应用和研究的深入,我们发现了大量不可预测的现象与问题。本书详细介绍机器学习在医学大数据领域的应用,作者总结了自己多年的实际工程经验,提供了大量一线资料。
主要内容
从生活到工作、从理论到实践,采用复杂问题简单化的方法,对机器学习的概念、主要技术和典型应用加以介绍。
基于实践应用方法讲述经典机器学习算法,如K-Means、SVM、MDL、神经网络、深度学习CNN和RNN等,也包括作者团队研创的算法(大多为首次发表),如SRCF、WDSGM、MinEDTree、LCSSGM、WSimTXT等算法。
详细介绍了结构化数据的机器学习技术与应用,以及非结构化数据——自然语言文本数据挖掘方法。
着重讲解了机器学习系统IMRS的开发思路与步骤,涵盖了机器学习应用系统的开发过程及详细技术,讲解巨细靡遗,极具启发性。

作者简介

[加] Hong Song Lin(洪松林)编著:洪松林(Hong Song Lin),加拿大籍,大数据深度分析技术资深专家,外国专家局引智技术专家,OCP国际(加拿大)认证专家。有二十余年数据仓库、数据挖掘、机器学习、人工智能等方面的研发和应用经验。福安易数据技术公司的创始人,带领团队走在机器学习和大数据深度分析的技术前沿,在结构化和非结构化数据挖掘、深度学习等领域,创新研发了众多领先和有效的机器学习新技术、新算法。多次受邀为全国性IT专业大会做大数据深度分析主题演讲,曾担任全国软件大会大数据论坛主持人。

图书目录

前言
第1章 机器学习基础1
 1.1 认识机器学习1
1.1.1 机器学习概念1
1.1.2 机器学习与生活4
1.1.3 机器学习与知识6
 1.2 机器学习应用基础6
1.2.1 事物与维度7
1.2.2 分布与关系9
1.2.3 描绘与预测12
1.2.4 现象与知识13
1.2.5 规律与因果13
 1.3 机器学习应用系统14
1.3.1 数据层14
1.3.2 算法层18
1.3.3 应用层23
1.3.4 经验积累与应用26
 1.4 无限三维嵌套空间假说26
1.4.1 一维空间26
1.4.2 二维空间26
1.4.3 三维空间27
1.4.4 突破三维空间27
1.4.5 五维空间28
1.4.6 六维空间29
 1.5 分数维度空间30
1.5.1 分数维度30
1.5.2 自相似性31
1.5.3 无限迭代32
 1.6 不确定论33
 1.7 本章小结34
第2章 数据探索35
 2.1 数据关系探索36
2.1.1 业务发现36
2.1.2 关系发现38
2.1.3 数据质量探索38
2.1.4 数据整合42
 2.2 数据特征探索43
2.2.1 数据的统计学特征43
2.2.2 统计学特征应用50
2.2.3 变量相关性探索53
 2.3 数据选择56
2.3.1 适当的数据规模57
2.3.2 数据的代表性57
2.3.3 数据的选取59
 2.4 数据处理61
2.4.1 数据标准化62
2.4.2 数据离散化63
 2.5 本章小结64
第3章 机器学习技术65
 3.1 聚类分析65
3.1.1 划分聚类(K均值)66
3.1.2 层次聚类(组平均)70
3.1.3 密度聚类75
 3.2 特性选择76
3.2.1 特性选择概念76
3.2.2 线性相关80
3.2.3 相关因子SRCF82
 3.3 特征抽取91
3.3.1 主成分分析91
3.3.2 因子分析93
3.3.3 非负矩阵因子分解94
 3.4 关联规则95
3.4.1 关联规则概念95
3.4.2 Apriori算法96
3.4.3 FP树频集97
3.4.4 提升(Lift)97
 3.5 分类和预测98
3.5.1 支持向量机98
3.5.2 Logistic回归102
3.5.3 朴素贝叶斯分类106
3.5.4 决策树112
3.5.5 人工神经网络116
3.5.6 分类与聚类的关系119
 3.6 时间序列120
3.6.1 灰色系统预测模型120
3.6.2 ARIMA模型预测126
 3.7 深度学习127
3.7.1 图像深度学习:卷积神经网络127
3.7.2 自然语言深度学习:循环神经网络141
 3.8 本章小结145
第4章 机器学习应用案例146
 4.1 特性选择的应用146
4.1.1 数据整合146
4.1.2 数据描绘147
4.1.3 数据标准化148
4.1.4 特性选择探索148
 4.2 分类模型的应用——算法比较154
4.2.1 数据整合154
4.2.2 数据描绘155
4.2.3 数据标准化156
4.2.4 特性选择探索156
4.2.5 分类模型160
 4.3 算法的综合应用——肿瘤标志物的研究161
4.3.1 样本选取161
4.3.2 癌胚抗原临床特征主题分析165
4.3.3 癌胚抗原临床特征规则分析169
4.3.4 癌胚抗原临床特征规则的比较分析173
4.3.5 癌胚抗原相关因子分析174
4.3.6 不同等级癌胚抗原组差异分析177
 4.4 本章小结180
第5章 机器学习应用系统开发181
 5.1 IMRS的设计思路181
5.1.1 IMRS核心功能设计182
5.1.2 IMRS主要功能184
5.1.3 IMRS的模块设计和应用实现185
5.1.4 IMRS的评估方法194
 5.2 机器学习应用系统:IMRS技术设计199
5.2.1 对数据源的分析200
5.2.2 IMRS的总体设计203
 5.3 IMRS异常侦测模型的开发210
5.3.1 异常侦测模型的功能展示211
5.3.2 技术开发要点214
 5.4 IMRS特征抽取模型的开发221
5.4.1 特征抽取模型的功能展示221
5.4.2 技术开发要点221
 5.5 IMRS的算法开发232
5.5.1 相关因子算法SRCF的实现232
5.5.2 朴素贝叶斯分类算法的实现237
 5.6 本章小结241
第6章 机器学习系统应用(一):结构数据挖掘242
 6.1 分布探索243
6.1.1 两维度聚类模型应用243
6.1.2 高维度聚类模型应用248
 6.2 关系探索249
6.2.1 关联规则的应用249
6.2.2 特性选择的应用252
 6.3 特征探索257
6.3.1 不稳定心绞痛的特征总结258
6.3.2 动脉硬化性心脏病的临床特征262
 6.4 异常探索264
6.4.1 生理指标的异常侦测264
6.4.2 异常侦测模型的比较267
 6.5 推测探索268
 6.6 应用系统的高级应用269
6.6.1 异常侦测的高级用法270
6.6.2 关联规则的高级应用274
 6.7 本章小结278
第7章 机器学习系统应用(二):非结构数据挖掘280
 7.1 文本挖掘技术280
7.1.1 文本分词算法280
7.1.2 文本相似性算法283
7.1.3 文本聚类算法287
7.1.4 文本分类算法290
 7.2 文本数据挖掘在医学上的应用293
7.2.1 医学自然文本挖掘的应用293
7.2.2 医学自然文本挖掘的方法294
7.2.3 医学自然文本挖掘的相关技术295
7.2.4 医学自然文本挖掘系统的实现295
 7.3 文本分词的实现296
7.3.1 专业语料库与分词算法的结合297
7.3.2 专业分词库的自完善297
 7.4 文本智能搜索298
7.4.1 文本相似性搜索298
7.4.2 文本相关性搜索299
 7.5 文本聚类与分类的应用299
7.5.1 文本聚类应用300
7.5.2 文本分类应用302
 7.6 文本主题提取应用303
 7.7 本章小结305
第8章 基于机器学习的人工智能应用306
 8.1 基于大数据和机器学习的人工智能306
8.1.1 广义大数据306
8.1.2 人工智能307
8.1.3 基于大数据的人工智能应用308
8.1.4 基于小数据的人工智能应用311
 8.2 人工智能的应用:智能医学诊断系统314
8.2.1 智能诊断推理机314
8.2.2 临床智能诊断的实现319
8.2.3 临床智能诊断的应用321
8.2.4 临床智能诊断的验证:基于群体特征的个案临床评估323
 8.3 混沌人工智能325
8.3.1 混沌理论325
8.3.2 人类大脑的混沌性327
8.3.3 大脑混沌性的应用328
8.3.4 人工智能大脑展望332
 8.4 本章小结333

教学资源推荐
作者: Grigoris Antoniou;Frank van Harmelen
作者: Larry L. Peterson;Bruce S. Davie
作者: Michaet J.Palmer
作者: (美)Behrouz A. Forouzan, Firouz Mosharraf 著
参考读物推荐
作者: 雪狼 破狼 彭洪伟 编著
作者: (英)Mike Laverick 著