教学资源 – 图书教辅

扩展信息

语种 : 简体中文

页数 : 284

开本 : 16

原书名 : Data Mining and Business Analytics with R

原出版社: John Wiley & Sons(USA)

属性分类: 教材

包含CD : 无

绝版 : 无

图书简介

从海量的数据中收集、分析、提取有价值的信息需要可获取的、健壮的、计算的分析工具，本书结合R软件详细介绍了数据挖掘和数据分析的实用方法，主要内容包括处理信息和获取数据、标准线性回归、局部多项式回归、统计建模中吝啬的重要性、Logistic回归、贝叶斯分析、多项Logistic回归、决策树、聚类、市场菜篮分析、维数缩减和网络数据等。书后配有练习并且书中所有例子涉及的数据集和R代码可以从本书配套网站获取。

图书特色

收集、分析和提取大规模数据中的重要信息，需要有便捷的访问平台、稳健的计算能力和强大的分析工具。本书运用开源软件R来分析、探索并提炼大规模高维数据中的宝贵信息，揭示了如何建模，如何深刻理解数据集，有助于读者成为构造预测及分类模型的行家。
本书既突出了基础概念也强调了计算的实战技能，开篇便涵盖了标准线性回归和统计建模的简约性原则。本书还囊括了基于惩罚算法的变量选择（LASSO）、Logistic回归、回归树与分类树、聚类、主成分分析与偏最小二乘、文本分析与网络数据分析等重要主题。另外，本书也呈现出以下特点：
对常用数据挖掘工具的原理进行全面讨论和深入推演。
讲解如何将概念化的算法运用到真实的应用场景中。
借助附带的数据集和相关R代码，读者可以就本书所讨论的问题轻松上手实践。
包含大量的练习供读者提高计算技能，加深对内容的理解。
本书是一本关于数据挖掘与商务分析的优秀研究生教材，对于金融、运营管理、市场营销和信息科学等方面的数据分析实战者，也是一本物超所值的参考书。

作者简介
约翰尼斯·莱道尔特（Johannes Ledolter）博士，艾奥瓦大学管理科学系和统计与精算科学系的教授，美国统计协会、美国质量学会研究员，国际统计学会推选会员。莱道尔特博士是Wiley出版的《Statistical Methods for Forecasting》《Achieving Quality Through Continual Improvement》《Statistical Quality Control: Strategies and Tools for Continual Improvement》的合著者。

图书前言

这是一本有关数据挖掘和商务分析的实用方法的图书，适用于迫切需要使用这些方法来了解运营状况并解决经营问题的读者。写作本书的目的是对获得公众口碑的数据挖掘工具进行全面讨论，而不仅仅局限于传统的黑箱式描述，展现这些方法的工作机理。
数据挖掘需要一套功能强大、计算精准、兼容良好的计算工具，在这方面微软的Excel难以胜任。尽管我们也多次获得许多供应商专门提供的卓越的数据挖掘商务软件，但通常来说这些软件价格昂贵。书中我们所使用的R统计软件功能强大而且免费。不过要想正常使用R需要一些学习代价，它需要用户写指令，而大多数电子表格用户对程序指令的编写并不熟悉，这也是我在书中和与本书相关的网页上提供R示例代码的原因。这些示例代码应该可以顺利地迁移到当下通用的、强大的计算机环境中，并有助于最小化R的学习成本。
本书采用了将软件与数据挖掘的统计基础相融合的写作风格，同时也推广了工具的应用。虽然市面上不乏深入阐述这些方法的教材，也不缺乏对R计算的详尽完整的说明手册。但是本书力图权衡理论与实践，定位于对定量方法感兴趣的MBA学生的认知层次。本书适用于MBA的数据挖掘课程，以及高年级本科生和研究生的分析与解释大数据集的课程。从事商学、社会学、自然科学、医学以及工科的学生都可以从本书受益。本书所涉大部分主题可以安排在一个学期的课程中，但是包括的主题并不适用于每一个读者。可能有些读者会认为其中一些主题内容太深或者太浅。建议主讲老师略去或适当扩展某些主题。从这个角度来看，本书可以适用于很多不同的读者。
数据挖掘的应用常常需要花大力气收集相关信息。在这种情况下，数据的准备工作比最终建立模型需要花费更多的时间。在另外一些应用中，数据收集的工作量并非大问题，工作的重点是大容量信息的存取（即数据仓库）。尽管如何获取、存储、合并和整理信息在数据分析全过程来说必不可少，但书中对这些技术细节并未做深入探讨，本书重点介绍数据挖掘的建模。
本书所述全部例子的数据集和R代码都可以在配套网页（http://www.bizuiowaedu/faculty/jledolter/DataMining）上找到。也可以通过在booksupportwileycom上输入ISBN 9781118447147获取本书的附加材料。读者可以将书中的代码复制粘贴到自己的R会话中，从而得到分析结果。也可以在软件中修改或添加一些代码来做数据实验，以及用我们给的R模板程序对自己的数据集进行分析。附录给出了练习和几个大的练习数据集。练习有助于老师布置课后作业，也为读者提供了一个实践书中所讨论技巧的机会。如何使用这些数据集的相关说明请参见附录A。
这是本书第1版，尽管在表述和例证数据集的分析上我们很小心谨慎，但不得不承认其中有很多地方还值得推敲。如果在阅读本书的过程中有任何反馈，我们将不胜感激，期待你将你的建议通过johannesledolter@uiowa.edu邮箱写信给我。相关的勘误和评论我将在本书的网页上随时更新。

上架指导

数学\统计学

封底文字

收集、分析和提取大规模数据中的有价值信息，需要有便捷的访问平台、稳健的计算能力和强大的分析工具。本书正是运用开源软件R来分析、探索并提炼大规模高维数据中的价值。最终，本书揭示了如何建模，如何深刻理解数据集，有助于读者成为构造预测及分类模型的行家。
　　本书既突出了基础概念也强调了计算的实战技能，开篇便涵盖了标准线性回归和统计建模的简约性原则。本书还囊括了基于罚则的变量选择（LASSO）、Logistic回归、回归树与分类树、聚类、主成分分析与偏最小二乘、文本分析与网络数据分析等重要主题。另外，本书内容也呈现出以下特点：
 ·对常用数据挖掘工具的原理进行全面讨论和深入推演
 ·讲解了如何将概念化的算法运用到真实的应用场景中
 ·借助附带的数据集和相关R代码，读者可以就本书所讨论的问题，轻松上手实践
 ·大量的练习供读者提高计算技能，加深对内容的理解
《数据挖掘和商务分析：R语言》是一本关于数据挖掘与商务分析很好的研究生教材。对于那些金融领域、运营管理、市场营销和信息科学等方面的数据分析实战者，这也是一本物超所值的参考书。

作者简介

[美] 约翰尼斯·莱道尔特（Johannes Ledolter）著：约翰尼斯·莱道尔特（Johannes Ledolter）博士，是艾奥瓦大学管理科学系和统计与精算科学系的教授，是美国统计协会、美国质量学会研究员，国际统计学会推选会员。莱道尔特博士是Wiley出版的《Statistical Methods for Forecasting》《Achieving Quality Through Continual Improvement》《Statistical Quality Control: Strategies and Tools for Continual Improvement》的合著者。

译者简介

宋涛王星曹方译：暂无简介

译者序

本书英文版自出版后就在Amazon上得到了极高的评价，曾经是Amazon网站上最畅销的数据挖掘类书籍之一。
本书的作者Johannes Ledolter是世界顶尖商学院——美国艾奥瓦大学Tippie商学院管理科学系的一位数据挖掘专家，同时也是一位R资深开发者。本书包括多达19个数据挖掘的翔实案例，内容十分丰富，涉及医疗、慈善、汽车、二手市场等行业领域。书中案例从数据量、分析目标、数据类型等方面提出了各种具有挑战性的问题，并给出了克服这些挑战的方法和技巧。本书专注于数据挖掘的建模，以实际问题、解决方案以及探讨解决方案为主线组织内容。读者需要具备一定的数据挖掘基础知识，同时对R有一定的了解。但本书也对R计算进行了详尽完整的说明，对于零基础的读者来说，还可以通过直接复制书中提供的R程序来学习相应的数据挖掘算法。本书定位于面向定量方法的MBA学生，同时也适用于大数据分析的本科生及研究生，适合作为数据挖掘的教材或学习指南。
本书的翻译工作由宋涛、王星和曹方共同完成。在本书的翻译过程中，原作者Johannes博士多次就译者提出的问题进行了耐心而细致的解答。这里对他的帮助表示由衷的谢意。由于水平所限，书中可能会有翻译不当之处，希望读者多加指正。
必须说明的是，本项工作是集体努力的结果。其中，王星老师在翻译和统稿过程付出了大量心血，她的坚持使我打消了放弃此项目的想法。此外，余阿炎、曹家铭、温丽、丁虹元、俞良、金璐等人也参与了本书的翻译。感谢王宝东、宋辰玉、宋燕、仓猛、刘宇等完成了清样的校对和通读。还有许多其他同学和同事在不同阶段参与了本项工作，在此不再一一列出。
为进一步探讨、解析和扩展本书中的案例，译者团队将在“数据科学家”公众号中免费为各位读者奉献更多更翔实的R案例内容。可扫描以下二维码，关注“数据科学家”微信公众号，获得更多有关数据科学和R应用的最新知识。

宋涛
2016年9月

图书目录

译者序
前言
致谢
第1章引言
参考文献
第2章处理信息与认识数据
21例1：2006年出生数据
22例2：校友捐赠
23例3：橘子汁
参考文献
第3章标准线性回归
31用R函数估算线性回归模型
32例1：汽车燃油效率
33例2：丰田二手车价格
附录3A模型过度拟合对回归预测均方误差的影响
参考文献
第4章局部多项式回归的非参数回归方法
41模型的选择
42密度估计和直方图平滑化的应用
43多重回归模型的拓展
44例题和软件
441例1：老忠实喷泉
442例2：NOx排放物
参考文献
第5章简约在统计建模中的重要性
51怎样防止低假阳率
参考文献
第6章多参数回归模型中基于惩罚算法的变量选择
61例1：前列腺癌
62例2：橙汁
参考文献
第7章Logistic回归
71对二分类响应数据建立线性模型
72Logistic回归模型中回归系数的解释
73统计推断
74对新样例的分类
75用R语言估计
76例1：死刑数据
761二分类Logistic回归：Minitab程序输出
762R语言输出结果的解释与分析
77例2：延误的航班
78例3：贷款验收
79例4：德国信贷数据
参考文献
第8章二元分类、概率和分类性能的评价
81二元分类
82使用概率作决策
83灵敏度和特异度
84例子：德国信贷数据
第9章最近邻分析分类
91k近邻算法
92例1：玻璃碎片的法医分析
93例2：德国信贷数据
参考文献
第10章朴素贝叶斯分析：一种由以分类为主的变量对分类响应变量预测的模型
101例：航班延误
参考文献
第11章多项式Logistic回归
111计算软件
112例1：玻璃碎片的法医分析
113例2：重温玻璃碎片的法医分析
附录11A简单三重矩阵的详述
参考文献
第12章分类和判别分析的深入探讨
121Fisher线性判别函数
122例1：德国信用卡数据
123例2：Fisher鸢尾花数据
124例3：玻璃碎片的法医分析数据
125例4：MBA申请数据
参考文献
第13章决策树
131例1：前列腺癌
132例2：摩托车加速度
133例3：回顾Fisher鸢尾花数据集
第14章回归、分类树、计算软件及其他实用分类方法的深入探讨
141有关树结构的R程序包
142卡方自动交互检验
143集成方法：Bagging算法、Boosting算法和随机森林
144支持向量机
145神经网络
146R程序包：关于数据挖掘的一个有用的图形用户界面
参考文献
第15章聚类
151k均值聚类
152另眼看聚类：将期望最大化算法应用于混合正态分布
1521E步
1522M步
153层次聚类过程
参考文献
第16章购物篮分析:关联规则和提升度
161例1：在线广播
162例2：收入预测
参考文献
第17章降维：因子模型和主成分分析
171例1：欧洲蛋白质的摄入数据
172例2：月度失业率数据
第18章带多重共线性输入的降维回归：主成分回归和偏最小二乘法
181三个例子
1811例1：模拟数据
1812例2：基于50个州的历史失业率预测某州下个月的失业率
1813例3：预测下月失业率：比较不同方法样本外预测效果
参考文献
第19章文本数据：文本挖掘和情感分析
191逆多项式Logistic回归
192例1：餐馆评论
193例2：政治主张
附录19.A Gentzkow/Shapiro关于“slant”的估计和偏最小二乘的关系
参考文献
第20章网络数据
201例1：15世纪佛罗伦萨的婚姻与权力
202例2：友谊网络的连接
参考文献
附录A练习
附录B参考文献