参考读物 – 图书教辅

扩展信息

语种 : 简体中文

页数 : 205

开本 : 16

原书名 : Thoughtful Machine Learning with Python: A Test-Driven Approach

原出版社: OReilly Media, Inc.

属性分类: 店面

包含CD : 无CD

绝版 : 未绝版

图书简介

图书前言

我写本书第1版时，因为同事缺乏纪律感到很无奈。2009年我正在做大量机器学习的项目，发现一旦引入了对向量机、神经网络或者其他东西的支持，一般的编程实践突然间就出问题了。
本书第1版是我对这些问题的答复。当时我的代码都是用Ruby编写的，第1版也是基于Ruby语言编写的。你可以想象那有多困难，所以我很高兴可以推出本书基于Python语言的新版本。我检查了本书的大部分章节，替换了示例代码，并使它与时俱进，对写机器学习程序的人更有用处。我希望你们能喜欢它。
我在第1版中就声明，欢迎随时与我沟通。如果你有什么想和我讨论的，欢迎来信，我的邮箱是：matt@matthewkirk.com。如果你会来西雅图，我也很乐意跟你在咖啡馆相聚。
本书约定
在本书中下列字体有特殊的意义：
斜体字
表示术语、链接、电子信箱地址、文件名和文件后缀名。
等宽字体（Constant width）
用于程序清单，也用于在段落中引用程序元素，例如变量名、函数名、数据库、数据类型、环境变量、程序语句和关键词。
加粗等宽字体（Constant width Bold）
表示命令，或者其他应该由用户输入的文字信息。
斜体的等宽字体（constant width italic）
表示此处应该替换为由用户提供的数值，或者根据上下文确定的数值。
这个图案表示通用的注意事项。

如何使用示例代码
补充材料（示例代码、练习，等等）都可以在链接http://github.com/thoughtfulml/examples-in-python中下载。
你可以在自己的程序和文档中使用本书提供的示例代码。你不用联系我们来取得许可，除非你想大量地复制这些代码。例如，在程序中使用本书中的几段代码无需取得许可。但把O''Reilly书籍里的示例代码刻录成光盘就需要取得许可。引用本书内容和例子来回答问题，无需取得许可。但在你的产品文档里大量包含本书的示例就需要取得许可。
我们期望，但不强求，引用时注明出处。出处通常包括标题、作者、出版商和国际标准书号。例如：《Thoughtful Machine Learning with Python》（《Python机器学习实践：测试驱动的开发方法》），作者Matthew Kirk（O''Reilly出版），书号978-1-491-92413-6。”
如果你觉得你对示例代码的使用不在以上所述的许可范围内，请通过邮件联系我们（permissions@oreilly.com）。
Safari在线图书
Safari Books Online 针对企业, 政府、教育机构和个人提供了不同的购买计划, 你可以根据实际需求进行选购。
用户已经访问了上千种图书、培训视频学习路径、互动教材和专业的播放列表，这些内容来自超过250个出版商，例如，O''Reilly Media、Prentice Hall Professional、Addison-Wesley Professional、Microsoft Press、Focal Press、Cisco Press、John Wiley& Sons、Syngress、Morgan Kaufmann、IBM Redbooks、Packt、Adobe Press、FTPress、Apress、Manning、New Riders、McGraw-Hill、Jones & Bartlett、Course Technology等，关于Safari在线图书的更多信息，请访问http://oreilly.com/safari.。
联系方式
美国：
O''Reilly Media，Inc.
1005 Gravenstein Highway North
Sebastopol，CA 95472
中国：
北京市西城区西直门南大街2号成铭大厦C座807室（100035）
奥莱利技术咨询（北京）有限公司
我们有个关于本书的网页，上面有勘误表、示例和所有的附加信息。可以通过以下链接访问：http://bit.ly/thoughtful-machine-learningwith-python。
关于本书的评论和技术问题，请发邮件给bookquestions@oreilly.com。
关于本书的更多信息，如教程、会议、新闻，请参见网站：
http://www.oreilly.com
http://www.oreilly.com.cn
致谢
完成本书前我等待了一年有余。我被诊断出睾丸癌，而后我的父亲突然离世，这些迫使我退而反思，然后才能重拾写作。尽管用的时间比预计的时间久，但是我对结果甚为满意。
感谢那些在本书写作过程中给予我支持的人：O''Reilly出版社的所有帮助过我的人。编辑Shannon Cutt不但坚定不移。主力技术审校者Liz Rush始终和我一起并肩奋战。Stephen Elston给了我许多有用的反馈。Mike Loukides迎合我的想法并把它融入了两本已出版的书籍中。
感谢我的朋友们，尤其是Curtis Fanta。我们从五岁就相识了。感谢他总是为了我腾出时间（并且从来不惧怕我繁忙的日程）。
感谢我的家人。感谢我的两个侄子——好奇心强又喜欢惊叹的Zoe和Darby。感谢我的兄弟Jake，总是给我推荐新的音乐和电影，使我身心愉悦。感谢我的妈妈Carol，她鼓励我自己寻找答案，建议我多做运动（尽管我从来不做）。他们对我来说非常重要。
感谢Le一家，把我当作家人来对待。感谢Liliana跟我相约玩乐高玩具，感谢Sayone和Alyssa给我的生活带来欢乐。感谢Martin和Han一直都给我爱和支持。感谢Thanh（Le的爸爸）和Kim（Le的妈妈）劝我吃了太多美食，还给我万用表和关于放大器的书。感谢他们成为我生活的一部分。
感谢我的奶奶，在书快要出版时一直询问我。她一直鼓励我努力奋斗，无论是童子军的时候还是当我自己做事业的时候。感谢她一直都在。
感谢我的妻子Sophia。就在一年前，我们还在病房里，我大量地吃止痛片……现在我们挺过来了。她就是我成年以后最坚强的后盾。每当我立下雄心壮志（例如写本书）时，她总是把自己的需求放一边，把我照顾周全。她就是我的全世界。
最后，感谢我的爸爸，我怀念他来看我的时刻，还有我们在树林里露营的时光。我多希望他能在这里和我分享这一切，我珍视我们在一起的所有时光。这本书献给他。

上架指导

计算机\数据挖掘

封底文字

获得在日常工作中应用机器学习所需的信心。不需要你拥有高深的学术背景，作者Matthew Kirk通过这本实用的指南向你展示了如何在代码中集成和测试机器学习的算法。

通过书中的图表和重点标记的代码示例，本书着重介绍了Python的NumPy、Pandas、Scikit-learn和SciPy等数据科学相关类库的测试。如果你是对数据科学感兴趣的软件工程师或业务分析师，本书将帮助你：
 参考一些实例，来参与、动手练习每个算法。
 在开始编写代码之前，应用测试驱动开发（TDD）来编写和运行测试。
 利用数据抽取和特征开发，来探索改进机器学习模型的技术。
 注意机器学习的风险，例如数据的欠拟合或过拟合。
 学会使用K-最近邻（KNN）、神经网络、聚类和其他算法。

作者简介

[美] 马修·柯克（Matthew Kirk）著：
Matthew Kirk是一名软件咨询师、作者和国际演讲者，擅长机器学习和数据科学，使用Ruby和Python编程。现居于西雅图，他喜欢帮助软件工程师将数据科学融入到他们的技术栈中。

图书目录

前言 1
第1章 5
可能近似正确的软件 5
正确地编写软件 6
编写正确的软件 10
本书计划 16
第2章快速介绍机器学习 18
什么是机器学习 18
有监督学习 18
无监督学习 19
强化学习 20
机器学习能完成什么 20
本书中使用的数学符号 21
结论 22
第3章 K最近邻算法 23
如何确定是否想购买一栋房子 23
房子的价格究竟几何 24
愉悦回归 24
什么是邻域 25
K最近邻算法简介 26
K先生最近的邻居 26
距离 27
维度灾难 33
如何选择K 34
给西雅图的房子估价 37
结论 43
第4章朴素贝叶斯分类 44
通过贝叶斯定理来发现欺诈订单 44
条件概率 45
概率符号 45
反向条件概率（又名贝叶斯定理） 47
朴素贝叶斯分类器 47
贝叶斯推理之朴素 48
伪计数 49
垃圾邮件过滤器 50
标记化和上下文 55
结论 67
第5章决策树和随机森林 68
蘑菇的细微差别 69
使用民间定理实现蘑菇分类 70
找到最佳切换点 71
修剪树 74
结论 83
第6章隐马尔可夫模型 84
使用状态机来跟踪用户行为 84
输出/观测隐含状态 86
使用马尔可夫假设化简 87
隐马尔可夫模型 88
评估: 前向-后向算法 89
通过维特比算法解码 93
学习问题 94
词性标注与布朗语库 94
结论 105
第7章支持向量机 106
客户满意度作为语言的函数 107
SVM背后的理论 108
情绪分析器 113
聚合情绪 124
将情绪映射到底线 126
结论 127
第8章神经网络 128
什么是神经网络 129
神经网络史 129
布尔逻辑 129
感知器 130
如何构建前馈神经网络 130
构建神经网络 144
使用神经网络来对语言分类 145
结论 154
第9章聚类 155
无任何偏差的研究数据 155
用户群组 156
测试群集映射 157
K均值聚类 159
最大期望（EM）聚类 161
不可能性定理 163
案例：音乐归类 164
结论 174
第10章模型改进与数据提取 175
辩论俱乐部 175
选择更好的数据 176
最小冗余最大相关性的特征选择 181
特征变换与矩阵分解 183
结论 189
第11章将这些方法融合在一起：结论 191
机器学习算法回顾 191
如何使用这些信息来解决问题 193
下一步做什么 193