首页>参考读物>计算机科学与技术>计算机科学理论与基础知识

白话大数据与机器学习
作者 : 高扬 卫峥 尹会生 著 万娟 插画设计
出版日期 : 2016-06-14
ISBN : 978-7-111-53847-9
定价 : 69.00元
扩展资源下载
扩展信息
语种 : 简体中文
页数 : 343
开本 : 16
原书名 :
原出版社:
属性分类: 店面
包含CD :
绝版 : 未绝版
图书简介

本书将涵盖以下比较重要的挖掘和分析知识点:概率、统计和分布、多维向量空间、回归、聚类、分类、关联分析、协同过滤、文本挖掘、神经网络。
概率:数学基础学科,对整个行为做支撑。
统计和分布:人们认识宏观数据的手段与语言。
多维向量空间:离散化的数据建模重要工具。
回归:人们尝试公式化描述与预测的重要概念。
聚类:分辨对象归属的手段。
分类:做对象判别和区分的手段。
关联分析:对象之间的联系。
协同过滤:俗称的推荐算法,目前互联网上最热门的挖掘技术之一。
文本挖掘:未来最常用的挖掘手段。
神经网络:一种神秘但是功能强大的挖掘概念系统。

图书特色

目前很多大中型企业都有数据分析岗位,尤其是和自己业务结合紧密的分析岗位。企业求贤若渴,而求职者对数据分析岗位望而却步。这就是当前大数据分析市场的尴尬。
原因有三:
● 数学基础薄弱:很多应用中的统计学、概率学,成为学习中的巨大阻力。
● 学习成本高:数学和相关的算法过于抽象,布道者往往忽略了很多解释性的内容,使得读者学习起来费时费力。
● 变现不确定:这也是数据分析人员的尴尬。个人对数据的加工增值以及变现有多大的贡献难以度量。
本书通俗易懂,有高中数学基础即可看懂,同时结合大量案例与漫画,将高度抽象的数学、算法与应用,与现实生活中的案例和事件一一做了关联,将源自生活的抽象还原出来,帮助读者理解后,又带领大家将这些抽象的规律与算法应用于实践,贴合读者需求。同时,本书不是割裂讲解大数据与机器学习的算法和应用,还讲解了其生态环境与关联内容,让读者更全面地知晓渊源与未来,是系统学习大数据与机器学习的不二之选:
● 大数据产业解读——剖析产业情况,人才供需、职业选择与相应“武器”库;
● 步入大数据之门——解读数据、信息、算法,以及与大数据应用的关系;
● 大数据基石——结合大量示例和漫画,趣味讲解大数据算法应掌握的数学知识,无障碍学习;
● 大数据算法奥义——信息论、向量空间、回归、聚类、分类等最为核心的算法的释义与应用,举重若轻;
● 大数据热门应用——关联分析、用户画像、推荐算法、文本挖掘、人工神经网络等最实用、最需要了解的应用的原理与实现;
● 大数据主流框架——介绍了主流的大数据框架(Hadoop、Spark和Cassandra);
● 系统架构与调优——从速度与稳定性方面给出调优的一般性“内功心法”;
● 大数据价值与变现——从运营指标、AB测试、大数据价值与变现场景多维度解读。

图书前言

为什么要写这本书
不知从何时开始我们已周身没入大数据时代的潮流,不知不觉被卷入了大数据时代。
无论是每天上网看网页、聊QQ、聊微信,或者登录银行、网购、买票,或者出行、投宿,甚至是出入任何公众场合、驾车、用水用电……我们无时无刻不在生产着各种数据。而同时我们也在消费着其他人生产的数据,我们使用的众多家电产品,每一个设计细节都融入了设计者对用户体验数据的调查与分析;我们使用的每一部手机、每一台电脑,每一个部件的产出都融入着多得无法想象的指标数据控制下的生产与监控;我们访问的每一个网页、每一个软件,每一次享受到的贴心的产品改动和服务的升级,无不浸透着无数的数据汇集与精细的分析和反馈。这是一场慢慢到来的、贯穿所有产业的革命,这是一次润物细无声的各行业精耕细作的开端。
不管我们是不是愿意,不管我们有没有意识到,我们现在已经身处大数据时代的奇点,而未来要迎接的是大数据奇点爆炸给我们带来的冲击力。我们需要力量来驾驭浪里的航船,我们需要乘风破浪前进的动力。
在这一次远航中,我们不必担心自己的能力水平无法感知数据这种磅礴之力的气魄,不必担心晦涩难懂的公式定理会让我们感到阻力。
请相信我,这是一本通俗易懂的大数据图书,这是一本轻松愉悦的数据挖掘和机器学习的读本,这是一本没有门槛的机器学习实战手册。让我们一起扬帆远航吧!
本书特色
从行为脉络来看,本书基本上是从数据统计、数据指标理解、数据模型、聚类/分类与机器学习、数据应用、大数据框架补充知识,以及扩展讨论这样的角度来层层深入完成的。
这种方式会给读者比较好的带入感,让大家——尤其是不擅长数学的读者降低对大数据与机器学习算法的恐惧感。如果读者朋友对排列组合、统计分布这些基础知识比较了解,完全可以考虑跳过这些部分直接去读后面更感兴趣的内容。
为了调节阅读气氛,我们还尝试加入了一些漫画插图。为了让读者朋友能够更快地进行实践,我们几乎在每一个算法讲解后都配有Python或者SQL语言的实现部分。相信这些能够帮助大家更快、更轻松地阅读本书。
读者对象
(1)对大数据感兴趣但是完全不了解的技术人员。
(2)对机器学习和数据挖掘比较感兴趣的技术人员。
(3)大数据初级从业人员。
如何阅读本书
本书一共分为18章。
第1章~第5章为入门所需基础知识及对数据指标运营的阐述。
第6章~第10章是对数据挖掘基础知识与算法的介绍。
第11章~第18章为生产应用与高级扩展。
其中,第1章~第15章正文内容,以及第17章、第18章的正文内容由高扬编写。
全书所有的Python代码由卫峥编写与补充整理。
第16章、附录全部由尹会生编写。
全书所有的漫画插画由万娟创作完成。
勘误和支持
由于水平有限,编写时间仓促,书中难免会出现一些错误或者不准确的地方,恳请读者批评指正。如果你有更多的宝贵意见,欢迎扫描下方的二维码,关注“奇点大数据”微信公众号和我们进行互动讨论。关注大数据尖端技术发展,关注“奇点大数据”。
同时,你也可以通过邮箱77232517@qq.com联系到我,期待能够得到你的真挚反馈,在技术之路上互勉共进。
致谢
特别感谢:万娟女士为本书做的漫画插画内容。
万娟女士现任深圳星盘科技有限公司UI设计师,是我在多年工作中遇到过的最敬业的UI设计师之一,在2013年一起合作的过程中给我留下了非常深刻的印象。
她多次参加全国和国际艺术比赛,曾获得全国青少年绘画大赛铜奖,中国–新加坡国际青少年绘画比赛优秀奖,以及全国大学生工业设计大赛三等奖。从小酷爱绘画,理想是开一个属于自己的画室。
她给我留下的最深刻的印象用两个词可以描述:一个词是“敬业”,不管是在过去共事期间的合作,还是在为本书创作插画的过程中,为了保证进度带病坚持创作,都让我非常感动;另一个词是“唯美”,不仅人长得美,作品设计风格也透出现代与时尚的气息。
此外还要对所有支持和关心本书成书的各界朋友表示由衷的感谢:
衷心感谢北京邮电大学软件学院杨谈老师对本书的审校工作。
衷心感谢腾讯公司数据分析师彭瑶女士对本书的审校工作。
衷心感谢重庆工商大学黄辉老师、杨艺老师对本书的大力支持。
衷心感谢机械工业出版社华章分社对本书的支持与帮助。
衷心感谢“奇点大数据”微信群友对本书的关注与支持。

高 扬

上架指导

计算机科学/大数据分析与处理

封底文字

目前很多大中型企业都有数据分析岗位,尤其是和自己业务更加结合紧密的分析岗位。企业求贤若渴,而求职者对数据分析岗位望而却步。这就是当前大数据分析市场的尴尬。原因有三:
 数学基础薄弱:很多应用中的统计学、概率学,成为学习中的巨大阻力。
 学习成本高:数学和相关的算法过于抽象,布道者往往忽略了很多解释性的内容,使得读者学习起来费时费力。
 变现不确定:这也是数据分析人员的尴尬。个人对数据的加工增值以及变现有多大的贡献难以度量。
本书通俗易懂,有高中数学基础即可看懂,同时结合大量案例与漫画,将高度抽象的数学、算法与应用,与现实生活中的案例与事件一一做了关联,将源自生活的抽象还原出来,读者理解后,又带领大家将这些抽象的规律与算法应用于实践,贴合读者需求。同时,本书不是割裂讲解大数据与机器学习的算法与应用,同时讲解了其生态环境与关联内容,让读者更全面地知识的渊源与未来,是系统学习大数据与机器学习的不二之选:
 大数据产业解读——剖析产业情况,人才供需、职业选择与相应“武器”库;
 步入大数据之门——解读数据、信息、算法,以及与大数据应用的关系;
 大数据基石——结合大量示例和漫画,趣味讲解大数据算法应掌握的数学知识,无障碍学习;
 大数据算法奥义——信息论、向量空间、回归、聚类、分类等最为核心的算法的释义与应用,举重若轻;
 大数据热门应用——关联分析、用户画像、推荐算法、文本挖掘、人工神经网络最实用、最需要了解的应用的原理与实现;
 大数据主流框架——介绍了主流的大数据框架(Hadoop、Spark和Cassandra);
 系统架构与调优——从速度与稳定性方面给出调优的一般性“内功心法”;
 大数据价值与变现——从运营指标、AB测试、大数据价值与变现场景多维度解读。

作者简介

高扬 卫峥 尹会生 著 万娟 插画设计:暂无简介

图书目录

前 言
第1章 大数据产业 1
1.1 大数据产业现状 1
1.2 对大数据产业的理解 2
1.3 大数据人才 3
1.3.1 供需失衡 3
1.3.2 人才方向 3
1.3.3 环节和工具 5
1.3.4 门槛障碍 6
1.4 小结 8
第2章 步入数据之门 9
2.1 什么是数据 9
2.2 什么是信息 10
2.3 什么是算法 12
2.4 统计、概率和数据挖掘 13
2.5 什么是商业智能 13
2.6 小结 14
第3章 排列组合与古典概型 15
3.1 排列组合的概念 16
3.1.1 公平的决断——扔硬币 16
3.1.2 非古典概型 17
3.2 排列组合的应用示例 18
3.2.1 双色球彩票 18
3.2.2 购车摇号 20
3.2.3 德州扑克 21
3.3 小结 25
第4章 统计与分布 27
4.1 加和值、平均值和标准差 27
4.1.1 加和值 28
4.1.2 平均值 29
4.1.3 标准差 30
4.2 加权均值 32
4.2.1 混合物定价 32
4.2.2 决策权衡 34
4.3 众数、中位数 35
4.3.1 众数 36
4.3.2 中位数 37
4.4 欧氏距离 37
4.5 曼哈顿距离 39
4.6 同比和环比 41
4.7 抽样 43
4.8 高斯分布 45
4.9 泊松分布 49
4.10 伯努利分布 52
4.11 小结 54
第5章 指标 55
5.1 什么是指标 55
5.2 指标化运营 58
5.2.1 指标的选择 58
5.2.2 指标体系的构建 62
5.3 小结 63
第6章 信息论 64
6.1 信息的定义 64
6.2 信息量 65
6.2.1 信息量的计算 65
6.2.2 信息量的理解 66
6.3 香农公式 68
6.4 熵 70
6.4.1 热力熵 70
6.4.2 信息熵 72
6.5 小结 75
第7章 多维向量空间 76
7.1 向量和维度 76
7.1.1 信息冗余 77
7.1.2 维度 79
7.2 矩阵和矩阵计算 80
7.3 数据立方体 83
7.4 上卷和下钻 85
7.5 小结 86
第8章 回归 87
8.1 线性回归 87
8.2 拟合 88
8.3 残差分析 94
8.4 过拟合 99
8.5 欠拟合 100
8.6 曲线拟合转化为线性拟合 101
8.7 小结 104
第9章 聚类 105
9.1 K-Means算法 106
9.2 有趣模式 109
9.3 孤立点 110
9.4 层次聚类 110
9.5 密度聚类 113
9.6 聚类评估 116
9.6.1 聚类趋势 117
9.6.2 簇数确定 119
9.6.3 测定聚类质量 121
9.7 小结 124
第10章 分类 125
10.1 朴素贝叶斯 126
10.1.1 天气的预测 128
10.1.2 疾病的预测 130
10.1.3 小结 132
10.2 决策树归纳 133
10.2.1 样本收集 135
10.2.2 信息增益 136
10.2.3 连续型变量 137
10.3 随机森林 140
10.4 隐马尔可夫模型 141
10.4.1 维特比算法 144
10.4.2 前向算法 151
10.5 支持向量机SVM 154
10.5.1 年龄和好坏 154
10.5.2 “下刀”不容易 157
10.5.3 距离有多远 158
10.5.4 N维度空间中的距离 159
10.5.5 超平面怎么画 160
10.5.6 分不开怎么办 160
10.5.7 示例 163
10.5.8 小结 164
10.6 遗传算法 164
10.6.1 进化过程 164
10.6.2 算法过程 165
10.6.3 背包问题 165
10.6.4 极大值问题 173
10.7 小结 181
第11章 关联分析 183
11.1 频繁模式和Apriori算法 184
11.1.1 频繁模式 184
11.1.2 支持度和置信度 185
11.1.3 经典的Apriori算法 187
11.1.4 求出所有频繁模式 190
11.2 关联分析与相关性分析 192
11.3 稀有模式和负模式 193
11.4 小结 194
第12章 用户画像 195
12.1 标签 195
12.2 画像的方法 196
12.2.1 结构化标签 196
12.2.2 非结构化标签 198
12.3 利用用户画像 203
12.3.1 割裂型用户画像 203
12.3.2 紧密型用户画像 204
12.3.3 到底“像不像” 204
12.4 小结 205
第13章 推荐算法 206
13.1 推荐思路 206
13.1.1 贝叶斯分类 206
13.1.2 利用搜索记录 207
13.2 User-based CF 209
13.3 Item-based CF 211
13.4 优化问题 215
13.5 小结 217
第14章 文本挖掘 218
14.1 文本挖掘的领域 218
14.2 文本分类 219
14.2.1 Rocchio算法 220
14.2.2 朴素贝叶斯算法 223
14.2.3 K-近邻算法 225
14.2.4 支持向量机SVM算法 226
14.3 小结 227
第15章 人工神经网络 228
15.1 人的神经网络 228
15.1.1 神经网络结构 229
15.1.2 结构模拟 230
15.1.3 训练与工作 231
15.2 FANN库简介 233
15.3 常见的神经网络 235
15.4 BP神经网络 235
15.4.1 结构和原理 236
15.4.2 训练过程 237
15.4.3 过程解释 240
15.4.4 示例 240
15.5 玻尔兹曼机 244
15.5.1 退火模型 244
15.5.2 玻尔兹曼机 245
15.6 卷积神经网络 247
15.6.1 卷积 248
15.6.2 图像识别 249
15.7 深度学习 255
15.8 小结 256
第16章 大数据框架简介 257
16.1 著名的大数据框架 257
16.2 Hadoop框架 258
16.2.1 MapReduce原理 259
16.2.2 安装Hadoop 261
16.2.3 经典的WordCount 264
16.3 Spark 框架 269
16.3.1 安装Spark 270
16.3.2 使用Scala计算WordCount 271
16.4 分布式列存储框架 272
16.5 PrestoDB——神奇的CLI 273
16.5.1 Presto为什么那么快 273
16.5.2 安装Presto 274
16.6 小结 277
第17章 系统架构和调优 278
17.1 速度——资源的配置 278
17.1.1 思路一:逻辑层面的优化 279
17.1.2 思路二:容器层面的优化 279
17.1.3 思路三:存储结构层面的优化 280
17.1.4 思路四:环节层面的优化 280
17.1.5 资源不足 281
17.2 稳定——资源的可用 282
17.2.1 借助云服务 282
17.2.2 锁分散 282
17.2.3 排队 283
17.2.4 谨防“雪崩” 283
17.3 小结 285
第18章 数据解读与数据的价值 286
18.1 运营指标 286
18.1.1 互联网类型公司常用指标 287
18.1.2 注意事项 288
18.2 AB测试 289
18.2.1 网页测试 290
18.2.2 方案测试 290
18.2.3 灰度发布 292
18.2.4 注意事项 293
18.3 数据可视化 295
18.3.1 图表 295
18.3.2 表格 299
18.4 多维度——大数据的灵魂 299
18.4.1 多大算大 299
18.4.2 大数据网络 300
18.4.3 去中心化才能活跃 301
18.4.4 数据会过剩吗 302
18.5 数据变现的场景 303
18.5.1 数据价值的衡量的讨论 303
18.5.2 场景1:征信数据 307
18.5.3 场景2:宏观数据 308
18.5.4 场景3:画像数据 309
18.6 小结 310
附录A VMware Workstation的安装 311
附录B CentOS虚拟机的安装方法 314
附录C Python语言简介 318
附录D Scikit-learn库简介 323
附录E FANN for Python安装 324
附录F 群众眼中的大数据 325
写作花絮 327
参考文献 329

教学资源推荐
作者: [美]弗兰克 M.卡拉诺(Frank M. Carrano) 罗得岛大学 蒂莫西 M.亨利(Timothy M. Henry)新英格兰理工学院 著
作者: 徐凤生 主编 徐凤生 戎丽霞 李天志 编著
作者: [瑞士]罗杰·沃滕霍弗(Roger Wattenhofer) 著
作者: [美]迈克尔·西普塞(Michael Sipser)著
参考读物推荐
作者: [加] 张福波 张云泉 著
作者: [美] 约瑟夫·阿坝哈瑞(Joseph Albahari) 本·阿坝哈瑞(Ben Albahari)著
作者: [意]达里奥·萨贝拉(Dario Sabella),[美]亚历克斯·列兹尼克(Alex Reznik),[德]鲁伊·弗拉赞(Rui Frazao) 著
作者: 华诚科技 编著