首页>参考读物>计算机科学与技术>数据库

数据挖掘技术与工程实践
作者 : (加)洪松林(Hong Song Lin) (中)庄映辉 李堃 著
丛书名 : 大数据技术丛书
出版日期 : 2014-10-27
ISBN : 978-7-111-48076-1
定价 : 69.00元
扩展资源下载
扩展信息
语种 : 简体中文
页数 : 384
开本 : 16
原书名 :
原出版社:
属性分类: 店面
包含CD :
绝版 : 未绝版
图书简介

本书由资深数据挖掘技术专家撰写,深入学习数据挖掘技术并进行工程实践的必读之作。从基本概念到数据挖掘应用系统的开发,包含数据挖掘实践的全过程与经验总结。本书作者根据自己20多年数据挖掘方面的工程经验,总结了数据挖掘的理论知识和实践经验,提供了大量一线资料。本书首先介绍数据挖掘的基本概念和误区,然后根据实际工作流程来讲解如何实现一个数据挖掘应用系统,最后总结了数据挖掘的常用工具。数据挖掘应用系统实现的流程包括数据的探索与准备、算法的应用、案例分析、行业应用特点、应用系统的开发、应用系统的充分使用等。书中介绍了大量数据挖掘的相关算法,包括:相关因子算法、聚类算法、分类算法、回归与测试算法等,不仅列举了详细示例,还介绍了算法在工程实践中的具体应用,特别是总结了自己独特的一些新算法,例如秩相关因子选择算法、矢量相关因子选择算法、密度分布聚类算法、概率特征模型算法等。还剖析了几个热门领域的实际应用,涉及医药学、信息安全、新闻分析、商品推荐、证券预测等领域的应用。
本书可供数据挖掘、数据仓库、数据库等领域的技术人员参考,也可供想建立智能计算系统的企业信息系统管理人员参考。

图书特色

为何有人认为数据挖掘是虚的、是炒作?这是因为数据挖掘的成熟项目还不多,还有很多有待改进的地方。与很多IT技术一样,数据挖掘是一项很实用的技术,无疑可以为各行各业带来高效益和高效率;否则,数据挖掘应用的项目是失败的。
能带来高效益和高效率的数据挖掘项目是应用的检验标准。本书作者根据自己20多年数据挖掘方面的工程经验,总结了数据挖掘理论在实践中的应用,提供了大量一线资料。本书根据实际工作流程来讲解如何实现一个数据挖掘应用系统,总结了数据挖掘的常用算法与工具,是深入学习数据挖掘技术并进行工程实践的必读之作,可帮助读者在数据挖掘工程中把握正确的方向。

主要内容包括:
从生活到工作、从理论到实践,采用复杂问题简单化的方法,对数据挖掘的概念、主要技术和典型应用加以介绍。
基于实践应用方法讲述一些经典数据挖掘算法,如K-Means、SVM、MDL等,也包括作者研创的算法,如SRCF算法。
介绍数据挖掘定制化项目案例,涵盖了数据挖掘应用系统的开发过程及详细技术。
重点剖析了数据挖掘在临床医学、健康管理等行业的应用案例,讲解巨细靡遗,极具启发性。

作者简介






福安易数据技术(天津)有限公司(F&E DATA TECHNOLOGY CORP. )创始人,外国专家局引智技术专家,加拿大OCP认证专家,有20年智能计算(数据仓库、商务智能及数据挖掘)方面的研究、设计、开发和培训经验。掌握北美先进的项目经验,曾在加拿大安大略省卫生部(OMH)、蒙特利尔银行(BMO)、加拿大研科电讯公司(TELUS )、安省高教委(OCAS)等大型机构参与多个大型智能计算项目。近年来在国内主持多个智能计算产品的总体设计和研发工作,将北美的智能计算技术及业务经验与中国的专业需求和数据环境有效地结合起来,开发了以数据仓库、数据挖掘和数据统计为技术核心的智能数据分析产品,并在北京、天津等地得到成功应用。

由资深数据挖掘技术专家撰写,深入学习数据挖掘技术并进行工程实践的必读之作
从基本概念到数据挖掘应用系统开发,包含数据挖掘实践的全过程与经验总结

图书前言

我们仍在山脚下
  很多人将数据挖掘归类为IT技术的一个分支。而在IT业,历史上有一种夸大其词的习惯,经常将一些高新技术的出现说成是“革命性的”、“里程碑式的”,近些年又常常使用“颠覆性的”等词汇。但回顾一下,我们一次次地发现我们的生产方式和生活方式并没有被革命、被颠覆,IT技术的发展与提高基本上是渐进性的,只是我们一次又一次地被忽悠了。那些所谓的高新技术几乎无一例外地也有很多的缺陷和毛病。许多单位在付出不少的“学费”之后,那些应用了高新技术的IT系统才慢慢成熟起来。
  从现代科技发展的历史长河来看,那些高新技术也只能算是历史发展中必然的、一个需要不断改进的新技术而已。数据挖掘技术也是这样。不同的是,由于现有的科学理论和方法还比较初级,以及人类的大脑还不足够发达,以至于像数据挖掘这样的工作,对人类来讲还是具有很大挑战性的。同时也说明,我们现有的数据挖掘技术和方法还很有限,很多问题我们还解决不了或解决不好。因此可以说,面对数据挖掘这座高峰,我们还只是在山脚下攀爬!
实践与应用
  有很多人在没有经历过数据挖掘成熟应用项目的情况下,投入到这方面的技术探索与实践工作中来,他们的客户也没有过数据挖掘应用项目的经验,于是他们双方对于数据挖掘应用的认识就基于他们共同完成的项目的效果上了。于是有的人认为数据挖掘是虚的、是炒作,对于数据挖掘的许多方面都在打问号。实际上,数据挖掘与很多技术(如IT技术)一样是一项很实用的技术,它必然确而无疑地要为各行各业的工作带来高效益和高效率。否则,要么数据挖掘是没用的技术,要么数据挖掘应用的项目是失败的。因此,能带来高效益和高效率的数据挖掘实践是数据挖掘技术和相关商业应用项目的检验标准。比方说,一个数据挖掘应用项目的结果给出了一个与实际相反的指导结论,那这个项目无疑是失败的;一个数据挖掘应用项目的结果没有达到业务需要的精度,或精度达到了但模型不稳定,业务尚不能稳定、可靠地依赖于它的指导结果,那项目也是不成功的;一个数据挖掘应用项目的结果精度和可靠性都能满足业务需求了,但投入数据挖掘应用项目的成本高于业务上的收益,或者即使有净收益,但并不高于不用数据挖掘技术带来的收益,这也不算成功的数据挖掘商业应用。总之,数据挖掘不是用于体现技术高尚的一个工具,而是一个实实在在的能给业务带来可观收益的实用工具!
大数据与数据挖掘
  大数据是时下的时髦用词。与过去相比,数据是变大了,而且是在不断地变大,但并没有“爆炸”。现在的大数据与过去讲的数据相比,在内涵和外延上看都有了拓展,但并没有发生本质的变化。我们早几年将数据说成是大数据也可以,按照现在的发展态势,晚几年将数据说成大数据也未尝不可。实际上,大数据与我们广义说的数据并没有形成明显的界限划分。对于长期从事数据分析的人来说,不论你是否提出大数据的概念,我们都要脚踏实地地不断解决新问题、满足新需求,因此基于大数据的数据挖掘实在是一项平常的工作。但即使你不提出大数据的概念,我们也要面对数据增大带来的新问题,要研发出数据挖掘的新技术来开发大数据,这是我们从业人员的职责,也是极富挑战性的一项工作。
本书写作方法
  在数据挖掘的技术中有一个重要的方法,就是被称为最小描述长度(MDL)原理的技术,说的是对某一事物有很多不同的描述方法,但最简单的描述是最好的方法,也称为最佳描述模型。本书的写作也试图应用这一原理,即将复杂问题简单化,对于很多复杂的数据挖掘算法和应用,通过我们自己的深入理解,用最简单、最容易理解的方式将其核心内容展示出来。例如,经典的神经网络模型,很多书已经介绍得很详细了,但不少人对我说还是很难理解,尤其是有些语言、用词本身就不易理解,更不用说其复杂的内涵了。我们用基于我们的理解凝练出的方法,给一些人讲授神经网络原理,这些人都是第一次接触数据挖掘的,讲完之后他们说完全听得明白,而且还提出一些很专业的问题。这使我们很兴奋,原来数据挖掘本应是如此简单的!
本书导读
  本书内容的跨度是比较大的,涵盖的内容比较广泛,既有对数据挖掘概念的探讨,也有对数据挖掘技术和原理的介绍,还有对数据挖掘应用实践的体会和总结。其中包括数据挖掘定制化项目案例,也涵盖了数据挖掘应用系统的开发及详细技术介绍,还有通过数据挖掘通用工具开展的应用案例展示。从技术上,涉及数据挖掘、数理统计、数据库技术,以及更广泛的各种IT技术。具体体现在如下几个方面。
  首先,通过我们多年在数据挖掘商用项目中的实践经历和体会,提出了我们对数据挖掘概念的理解,即数据挖掘是一个更广义的有目的地探索数据中隐含的规律和知识的活动。
  其次,大量的实践工作也培养了我们形成了一个数据挖掘的思维模式:即通过现象看本质的思维,突破传统、不断创新的思维,几乎穷尽事物的所有维度来认知事物的高维度思维,以及一个普遍联系、不断扩大认知的思维。
  另外,在本书的算法介绍中,基于我们实践应用方法和自身的理解讲述了一些经典数据挖掘算法原理,如K-Means、SVM、MDL、神经网络等,也有我们自己研创的用于商用项目的算法,如SRCF算法就是首次在本书中完整公开发表。
  在数据挖掘的应用章节,我们例举了由多种数据挖掘算法(包括聚类分析、特性选择、特征抽取,关联规则等算法)联合应用的典型案例。在深入一个行业的应用中,我们较深入地探讨了数据挖掘在该行业中应用的原理和方法论以及具体实现,使数据挖掘在行业中的应用上升到一个新的高度。这样才有可能最大限度地发挥数据挖掘技术在行业应用中的作用,为业务工作带来显著效益。同时,通过一个行业的应用来说明数据挖掘应用的普遍原理。
  不仅如此,我们还在本书中详细剖析了数据挖掘在商用应用系统的技术实现,并首次展示了数据挖掘应用软件产品的实现,并较深入地讨论了数据挖掘在行业中的应用意义。书中重点剖析了数据挖掘在临床医学、健康管理、信息安全、证券预测等领域的应用,还简要分析了数据挖掘在金融、电信等行业的应用。
  最后,再说明一下所谓“基于我们的理解”的含义。举个简单的例子,数据挖掘中有两种技术,一种叫Feature Extraction,另一种叫Feature Selection。文献中通常把前者称为“特征抽取”,后者称为“特征选择”,英文“Feature”在中文中用了同一个词“特征”。但是许多人对两者的理解容易混淆,不易弄清它们的本质区别。在本书中,我们把Feature Extraction还称为“特征抽取”,而把Feature Selection称为“特性选择”。一字之差,却有本质区别。“特征抽取则”是指将大量的原有变量进行整合与重组,并生成了较少的、更具有特征代表性的新变量。“特性选择”是指从大量的原有变量中选择出对于目标变量相关性更大的几个,选择后的变量本身没有变化,这时我们将这些变量称为“特性”。“特征”与“特性”已不是同一概念,这样,从字面上就将二者的本质区分开了,新手也很容易理解。因此,本书中有一些词汇和用语是基于我们对数据挖掘的理解和认识提出的,可能不大同于已有的一些文献。这些词汇和用语在我们公司内部和外部的培训中证明是很有效的。
本书的读者对象
  从前面的介绍中,大家对本书的内容已经有了一定的了解。我们认为本书非常适合如下几类人士阅读:
  数据挖掘的初学者。由于我们将数据挖掘从生活到工作、从理论到实践,采用复杂问题简单化的方法,对数据挖掘的概念、主要技术和典型应用加以介绍,对于初学者来说更易于理解和快速入门。可帮助读者加快、加深对数据挖掘算法的理解。
  对数据挖掘的理论知识基本掌握但希望在实践中不断提高的技术人员。本书可帮助读者在商用项目中尽快走上良性发展之路。
  在商业项目中需要更多启示和更多解决方案的人士,可从数据挖掘定制化项目案例和数据挖掘应用系统的开发案例中得到启发和提示。
  希望在医学数据挖掘或健康大数据分析方面借鉴经验的人士。本书从始至终贯穿了医疗、健康数据方面的数据挖掘和探索,从原理到方法、从设计到实现、从技术到讨论等各方面阐述了数据挖掘的应用,提炼了大量实际经验。
  从事大数据分析的技术人员、高校师生、科研人员,以及公司的管理者和决策者,均可从本书中有所收益。
致谢
  由于本书写作的内容主要涉及一线的商业化的数据挖掘应用,是作者对自己近20年间参与的国内外很多数据挖掘商业项目的成果思考,因此作者在此对与自己共同战斗过的同事、同行表示感谢。
  本书的正式写作大约始于一年以前,集中式的写作阶段大约有半年时间左右,其他半年时间主要为间歇性的修改和完善。除本人是主创外,参与本书编写的还有我的两个助手,一位是庄映辉,另一位是李堃,他们均是我(福安易数据技术)公司数据挖掘应用项目的主要设计者和参与者,有着比较丰富的实践经验。其中庄映辉主要参与了第1章、第2章、第7章的部分写作,李堃主要参与了第2章、第3章的部分写作。另外,除此之外,我公司的张双、肖芃、白丽娜、李飞翔也参与了本书编写中大量的整理、编辑、校对工作,在此,对以上人员一并表示感谢!机械工业出版社的吴怡编辑不仅促成了本书,还在本书的策划、编辑、审校等方面做了大量的工作,在此向吴编辑表示衷心的感谢!由于写书是件比较耗费时间的事,本书的写作不仅花费了我不少的工作时间,而且还占用了我很多业余时间,因此特别感谢我的家人,是他们的支持,才使我得以在较短的时间内将书写成,尤其是我那还在上小学的儿子Eddie,写书不仅占去了不少本属于我陪他的时间,而且他还时常提醒我“少看球,快写书”。因此,我想将本书献给我亲爱的Eddie!
  个人的能力永远是有限的,我和我的团队的认识也是有限的。书中的错误和不当之处在所难免,敬请广大读者指正,不胜感谢!联系邮箱为:hong.forest@hotmail.com。

洪松林(Hong Song Lin)
2014年7月15日

上架指导

计算机\数据挖掘

封底文字

为何有人认为数据挖掘是虚的、是炒作?这是因为,数据挖掘的成熟项目还不多,还有很多有待改进的地方。与很多IT技术一样,数据挖掘是一项很实用的技术,无疑可以为各行各业的工作带来高效益和高效率;否则,要么数据挖掘技术没用,要么数据挖掘应用的项目是失败的。

能带来高效益和高效率的数据挖掘项目是应用的检验标准。本书作者根据自己20多年数据挖掘方面的工程经验,总结了数据挖掘理论在实践中的应用,提供了大量一线资料。本书根据实际工作流程来讲解如何实现一个数据挖掘应用系统,总结了数据挖掘的常用算法与工具,是深入学习数据挖掘技术并进行工程实践的必读之作,可帮助读者在数据挖掘工程中把握正确的方向。

主要内容包括:
? 从生活到工作、从理论到实践,采用复杂问题简单化的方法,对数据挖掘的概念、主要技术和典型应用加以介绍。
? 基于实践应用方法讲述一些经典数据挖掘算法,如K-Means、SVM、MDL、神经网络等,也包括作者研创的算法,如SRCF算法。
? 包括数据挖掘定制化项目案例,涵盖了数据挖掘应用系统的开发过程及详细技术。
? 重点剖析了数据挖掘在临床医学、健康管理等行业的应用案例,讲解巨细靡遗,极具启发性。

作者简介

(加)洪松林(Hong Song Lin) (中)庄映辉 李堃 著:暂无简介

图书目录

前 言
第1章 数据挖掘应用绪论1
 1.1 认识数据挖掘1
  1.1.1 数据挖掘概念2
  1.1.2 数据挖掘与生活4
  1.1.3 数据挖掘与知识6
 1.2 数据挖掘应用基础6
  1.2.1 事物与维度7
  1.2.2 分布与关系9
  1.2.3 描绘与预测11
  1.2.4 现象和知识13
  1.2.5 规律与因果13
 1.3 数据挖掘应用系统工程14
  1.3.1 数据层14
  1.3.2 算法层18
  1.3.3 应用层23
 1.4 数据挖掘应用体会26
  1.4.1 项目关键点26
  1.4.2 技术与应用创新27
  1.4.3 经验积累与应用28
 1.5 无限三维嵌套空间假说28
  1.5.1 一维空间29
  1.5.2 二维空间29
  1.5.3 三维空间29
  1.5.4 突破三维空间30
  1.5.5 五维空间31
  1.5.6 六维空间31
 1.6 本章小结32
第2章 数据探索与准备33
 2.1 数据关系探索34
  2.1.1 业务发现34
  2.1.2 关系发现36
  2.1.3 数据质量探索37
  2.1.4 数据整合40
 2.2 数据特征探索42
  2.2.1 数据的统计学特征42
  2.2.2 统计学特征应用48
 2.3 数据选择52
  2.3.1 适当的数据规模52
  2.3.2 数据的代表性53
  2.3.3 数据的选取54
 2.4 数据处理56
  2.4.1 数据标准化57
  2.4.2 数据离散化58
 2.5 统计学算法的数量条件60
  2.5.1 样本量估计概念60
  2.5.2 单样本总体均值比较的样本量估计(T-Test)61
  2.5.3 两样本总体均值比较的样本量估计(T-Test)62
  2.5.4 多样本总体均值比较的样本量估计(F-Test)63
  2.5.5 区组设计多样本总体均值比较的样本量估计(F-Test)66
  2.5.6 直线回归与相关的样本量估计66
  2.5.7 对照分析的样本量估计67
 2.6 数据探索应用68
  2.6.1 检验项的疾病分布69
  2.6.2 疾病中检验项的分布70
  2.6.3 成对检验项的相关分析71
  2.6.4 两种药物的应用分析71
 2.7 本章小结73
第3章 数据挖掘应用算法74
 3.1 聚类分析74
  3.1.1 划分聚类算法(K均值)75
  3.1.2 层次聚类算法(组平均)79
  3.1.3 密度聚类算法84
 3.2 特性选择85
  3.2.1 特性选择概念85
  3.2.2 线性相关算法90
  3.2.3 相关因子SRCF算法91
 3.3 特征抽取100
  3.3.1 主成分分析算法101
  3.3.2 因子分析算法102
  3.3.3 非负矩阵因子分解NMF算法103
 3.4 关联规则104
  3.4.1 关联规则概念105
  3.4.2 Apriori算法105
  3.4.3 FP树频集算法106
  3.4.4 提升Lift107
 3.5 分类和预测107
  3.5.1 支持向量机107
  3.5.2 Logistic回归算法112
  3.5.3 朴素贝叶斯分类算法115
  3.5.4 决策树121
  3.5.5 人工神经网络125
  3.5.6 分类与聚类的关系129
 3.6 时间序列129
  3.6.1 灰色系统预测模型129
  3.6.2 ARIMA模型预测135
 3.7 本章小结136
第4章 数据挖掘应用案例137
 4.1 特性选择的应用137
  4.1.1 数据整合137
  4.1.2 数据描绘138
  4.1.3 数据标准化139
  4.1.4 特性选择探索139
 4.2 分类模型的应用——算法比较144
  4.2.1 数据整合144
  4.2.2 数据描绘145
  4.2.3 数据标准化148
  4.2.4 特性选择探索148
  4.2.5 分类模型150
 4.3 分类模型的应用——网络异常侦测151
  4.3.1 计算机网络异常行为152
  4.3.2 网络异常数据模型152
  4.3.3 分类模型算法应用156
 4.4 算法的综合应用——肿瘤标志物的研究159
  4.4.1 样本选取160
  4.4.2 癌胚抗原临床特征主题分析164
  4.4.3 癌胚抗原临床特征规则分析167
  4.4.4 癌胚抗原临床特征规则的比较分析172
  4.4.5 癌胚抗原相关因子分析173
  4.4.6 不同等级癌胚抗原组差异分析176
 4.5 数据挖掘在其他领域中的应用180
 4.6 本章小结182
第5章 数据挖掘行业应用原理183
 5.1 传统医学科研方法的现状184
  5.1.1 传统医学科研的命题与假说184
  5.1.2 传统医学科研的数据应用185
  5.1.3 传统的医学科研的统计学应用186
  5.1.4 传统医学科研的流程186
 5.2 智能医学科研系统的需求187
  5.2.1 临床医学科研的问题187
  5.2.2 临床医学科研的解决思路188
 5.3 智能医学科研系统的设计思想190
  5.3.1 科研立题190
  5.3.2 科研设计与统计分析191
  5.3.3 样本数据收集与分析192
 5.4 智能医学科研系统的核心技术方法193
 5.5 智能医学科研系统的科研数据仓库建设194
  5.5.1 医学科研数据仓库建设的技术方法194
  5.5.2 医学科研数据仓库的建设过程196
  5.5.3 科研数据仓库的数据安全198
 5.6 智能医学科研系统的核心功能设计198
 5.7 智能医学科研系统的整体功能设计199
  5.7.1 智能医学科研系统主要功能200
  5.7.2 智能医学科研系统的模块设计和应用实现202
  5.7.3 智能医学科研系统的评估方法211
 5.8 智能医学科研系统的应用价值215
 5.9 本章小结218
第6章 数据挖掘应用系统的开发219
 6.1 数据挖掘应用系统的意义219
 6.2 IMRS系统设计221
  6.2.1 对数据源的分析221
  6.2.2 数据挖掘应用系统IMRS的总体设计224
 6.3 IMRS异常侦测模型的开发232
  6.3.1 异常侦测模型的功能展示232
  6.3.2 数据挖掘技术开发要点236
 6.4 IMRS特征抽取模型的开发242
  6.4.1 特征抽取模型的功能展示242
  6.4.2 数据挖掘技术开发要点243
 6.5 IMRS智能统计模型的开发255
  6.5.1 回归模型的开发实现255
  6.5.2 线性相关模型的开发实现267
 6.6 IMRS的算法开发271
  6.6.1 相关因子算法SRCF的实现271
  6.6.2 朴素贝叶斯分类算法的实现275
 6.7 本章小结280
第7章 数据挖掘应用系统的应用281
 7.1 分布探索282
  7.1.1 两维度聚类模型应用282
  7.1.2 高维度聚类模型应用287
 7.2 关系探索289
  7.2.1 关联规则的应用289
  7.2.2 特性选择的应用292
 7.3 特征探索297
  7.3.1 不稳定心绞痛的特征总结297
  7.3.2 动脉硬化心脏病的临床特征302
 7.4 异常探索305
  7.4.1 生理指标的异常侦测305
  7.4.2 异常侦测模型的比较307
 7.5 推测探索308
 7.6 应用系统的高级应用310
  7.6.1 异常侦测的高级用法310
  7.6.2 关联规则的高级应用315
 7.7 本章小结320
第8章 数据挖掘工具的应用321
 8.1 应用Oracle Data Mining321
  8.1.1 ODM数据挖掘流程322
  8.1.2 ODM算法模型323
  8.1.3 ODM算法应用327
 8.2 应用IBM SPSS Modeler351
  8.2.1 IBM SPSS Modeler介绍351
  8.2.2 SPSS Modeler独立应用352
  8.2.3 SPSS Modeler与应用系统的联合应用359
 8.3 本章小结367
参考文献368

教学资源推荐
作者: (美)Abraham Silberschatz,Henry F.Korth,S.Sudarshan 著
作者: (美)Ryan K.Stephens Ronald R.Plew
参考读物推荐
作者: 孙风栋 王澜 郭晓惠 著
作者: Robert J.Muller蓍
作者: 马延辉 孟鑫 李立松 著