首页>参考读物>计算机科学与技术>综合

预测分析建模:Python与R语言实现
作者 : [美] 托马斯 W.米勒(Thomas W. Miller)著
译者 : 程豪 译
出版日期 : 2016-09-18
ISBN : 978-7-111-54887-4
定价 : 79.00元
扩展资源下载
扩展信息
语种 : 简体中文
页数 : 294
开本 : 16
原书名 : Modeling Techniques in Predictive Analytics with Python and R: A Guide to Data Science
原出版社: Pearson Education Asia
属性分类: 店面
包含CD :
绝版 : 未绝版
图书简介

图书特色

在数据和算法统治的当下,我们只有通过强大的分析技术和信息交流才能获得稍纵即逝的竞争优势。本书将战略与管理、方法与模型、信息技术与代码三者完美结合,系统讲解如何使用横截面数据、时间序列、空间数据及时空数据解决我们面临的商务挑战,包括市场细分、品牌定位、产品选择建模、定价研究、财经分析、体育分析、文本分析、情感分析和社交网络分析等。
书中循序渐进地讲解了如何定义问题、识别数据、打造和优化模型、编写有效的Python和R代码、解释结果等。每章集中讨论一个预测分析的关键应用,介绍相关的预测分析模型知识、使用方法及优化策略。如果你从事数据分析工作,那么可以通过本书的案例,学习如何一步一步地分析问题、解决问题、找出问题的答案。

作者简介

Thomas W. Miller
美国西北大学预测分析项目主任、数据科学家,设计了营销分析、高级建模技术、数据可视化、Web与网络数据科学等课程,并在预测分析和数据科学方面进行了广泛的教学和培训。他还是ToutBay公司的联合创始人和产品开发总监,在零售点选址、产品定位、市场细分和竞争市场定价方面有广泛的研究,在预测模型方面有30余年的使用经验。之前,他曾主管A. C. Nielsen市场研究中心,并在威斯康星大学麦迪逊分校教授市场研究与商业战略课程。

内容简介
本书着眼于真实的案例和真实的数据,直接给出R与Python的预测分析代码,为预测分析和数据科学提供了综合性的操作指南。全书共12章,涵盖广告与促销、偏好与选择、购物篮分析、经济数据分析、运营管理、文本分析、情感分析、体育分析、空间数据分析、品牌和价格,以及大型的小数字游戏等话题。每章通过对一个实际问题的描述和讨论引出特定的预测分析模型,分析的结果通过可视化图表进行展示,章节末尾提供了用R语言与Python编写的应用程序。本书通过对建模技术和编程工具的实际演示,把抽象化的概念转化为具体的例子,让这些可以成功运行的案例程序更易于理解。

图书前言

“好吧!好吧!除了更好的卫生设备、医药、教育、葡萄酒、公共秩序、水利、公路和淡水系统和公共医疗—罗马人还为我们做过什么?”
—出自《布莱恩的一生》(1979年)中John Cleese的对白
20世纪70年代末,我在明尼苏达大学攻读博士学位。在此期间,我学习了一门统计学编程课程。上课伊始,老师说:“课程作业不限编程语言,只要自己独立完成即可。”
当时,我已经熟练掌握Fortran语言,同时自学了Pascal。我正在研究一种结构化的编程方式—不仅仅是GO TO语句。因此,我将老师的话信以为真,用Pascal语言完成了第一次作业。班里的其余14名同学用统计专业通用的Fortran语言。
当我提交作业的时候,老师看了看问我:“这是什么编程语言?”
“Pascal,”我回答,“您说过,我们可以选择任意一种编程语言,只要独立完成就好。”
老师回应说:“Pascal。我不会Pascal,只会Fortran。”
如今,数据科学世界汇聚了熟练使用Python语言的信息技术专业人士和熟练使用R语言的统计学者。他们之间有很多地方值得相互学习。对于数据分析科学家来讲,掌握多种编程语言是一种相当大的优势。
Python有时被称为“黏合语言”,它为科学编程和研究提供了丰富的开源环境。在计算机密集型应用领域,Python给予一种从C、C++和Fortran调用编译程序的能力。我们可以用Cython将Python转换为优化的C语句。我们可以用R解决当前用Python无法实现的建模和绘图问题。通过调用R软件包,我们能够处理非线性估计、贝叶斯分层建模、时间序列分析、多变量方法、统计制图和缺失数据,正如R使用者能从通用的Python语言中获益一样。
现如今,数据与算法当道。欢迎来到一个崭新的世界,一个快节奏、数据密集的世界,一个开源的环境。在这个环境中,通过分析技术和思想交流可以获得一个具有竞争力却稍纵即逝的优势。
很多有关预测分析和数据科学的书都在讨论策略与管理。还有一些书关注方法和模型。其余则讨论信息技术(和代码)。本书是一部同时兼顾三者的罕见著作,很受业界管理者、建模人士和程序员的青睐。
在获得具有竞争力的优势过程中,我们意识到了分析的重要性。我们通过提供建模技术的现有资源和参考指南,来帮助研究者和分析师。我们能够向程序员展示如何建立一个解决真实问题的代码基础。我们图文并茂地为管理者解释模型结果,以及数据和模型的意义。
随着收集和存储的数据容量增大、可用于分析的数据类型增多、数据产生和分析需求的速度加快,数据分析的重要性与日俱增。获得具有竞争力的优势意味着为信息管理和分析提供一套新体系,意味着业界问题处理方式的改变。
由于涉及很多学科和应用领域,数据科学的文献资料浩如烟海。相关的开源代码层出不穷。事实上,提供一部预测分析和数据科学的综合性指南将成为一项挑战。
我们关注的是实际问题和真实数据。在每一章加入一些特定应用领域和业界问题的案例,并提供有效的解决方法。通过展示建模技术和编程工具,我们将抽象的概念转换为具体的例子。这些详实的案例有助于读者的理解。
我们的宗旨是提供一种适合于很多读者的预测分析和数据科学方面的综述。本书省略了数学部分。有关具体的细节和方法导论,请统计学者和建模人士查阅参考文献。我们用通俗易懂的语言讲述方法,使用数据的可视化展示业界问题的解决方案。
了解本书的宗旨后,一些读者可能会想知道我是经典学派还是贝叶斯学派。在明尼苏达大学统计学院读书时,我对两大学派都心生敬意。我非常崇拜经验贝叶斯学者和将机器学习与传统统计学相结合的研究者。在建模和推断方面,我则是一个实用主义者。我会做有效的研究工作,并做出通俗易懂的解释。
本书之所以必要,是因为世界各地成千上万的专家将时间和想法贡献给开放源代码事业。开放源代码的增加及其难度的进一步降低,确保了先进的解决方法一定会在多年以后出现。精灵跑出明灯,能手走出幕后—火箭科学不再如往常。秘密正在被揭晓。本书就是此过程的一部分。
本书的绝大部分数据来自公开数据源。美国职棒大联盟的晋级和上座率数据由Erica Costello提供。计算机选择研究数据由Sharon Chamberlain提供。“匿名银行”的呼叫中心数据由Avi Mandelbaum和Ilan Guedj提供。电影信息获得了互联网电影数据库的使用许可。IMDb 电影评论数据由Andrew L. Mass和他在斯坦福大学的同事一起管理。其中一些例子出自佛罗里达州坦帕市的ToutBay,NCR Comten,Hewlett-Packard公司,纽约的Site Analytics公司,威斯康星州麦迪逊的Sunseed Research和麦迪逊的Union Cab Cooperative的工作人员。
我们在一个开源的环境中分享代码。我们所做的工作就是编译程序。在这个环境中,每个人都可以浏览现有程序,一些人还可以调试程序。为了促进学生学习,所有程序都包括了方便深入分析的详细注释和建议。所有数据集和计算机程序都可从本书的网站上下载:http://www.ftpress.com/miller/。
本书的最初计划是将R版本转换为Python版本。然而,当我只用Python撰写本书时,我对两种编程语言产生了更加深远的敬意。我见证了一些问题用Python处理起来很容易,而另外一些问题则更适合用R来处理。而且,对于从事数据实践的科学家来讲,在使用Python进行建模和绘图时,R软件包的调用成为一种明显的优势。因此,本书同时给出Python和R代码示例,提供了一部独特的双语数据科学指南。
在过去的几年间,我受到了很多人的影响。很感激那些优秀的思想家,出色的人,还有老师和导师。遗憾的是,尤西纽斯学院的哲学家Gerald Hahn Hinkle和语言学家Allan Lake Rice,还有明尼苏达大学的哲学家Herbert Feigl,他们永远离开了我们。此外,我非常感谢明尼苏达大学的心理测验学者David J. Weiss和俄勒冈大学的经济学者Kelly Eakin。德高望重的老师是我一生的财富。
感谢Michael L. Rothschild、Neal M. Ford、Peter R. Dickson和Janet Christopher。在威斯康星麦迪逊分校和A C.尼尔森中心一起进行市场调查的那段时间里,他们给我提供了非常重要的支持。
我住在距离道奇体育场北面4英里的加利福尼亚洲,在伊利诺伊州埃文斯市的西北大学任教,兼任佛罗里达州坦帕市数据科学公司ToutBay的产品研发指导。这些都为我提供了良好的互联网连接环境。
我很庆幸自己完成了美国西北大学专业进修学院的远程教育。感谢Glen Fogerty给予了我在西北大学预测分析编程专业授课并承担领导角色的机会。感谢管理这一研究项目的同事们和工作人员,同时感谢让我获益良多的同学们和老师们。
ToutBay是一家新兴的数据科学公司。Greg Blence是联合创始人之一,我很期待接下来的发展。感谢Greg让我加盟并扎根于实际问题。迄今为止,只有学术和数据科学模型引领着我们。为了有所作为,我们最终必须实现我们的想法和模型,并分享给大家。
TEXnology公司的Amy Hendrickson编辑了本书的文字、表格和图片,取得了开源的又一次胜利。感谢Donald Knuth和TEX/LATEX 提供了很好的排版和出版系统。
感谢本书R版本的读者和审校者,他们是Suzanne Callender、Philip M. Goldfeder、Melvin Ott和Thomas P. Ryan。Lorena Martin为本书R版本的修订版提供了很多的反馈和建议。Candice Bradley兼任了审校者和文字编辑,Roy L. Sanford对统计模型和程序提供了技术支持。感谢Jeanne Glasser Levine编辑,和Pearson/FT出版社(是他们让这本书最终面世)。当然,任何写作问题和错误,以及疏漏仅是我个人的责任。
我的好朋友Brittney和他的女儿Janiya只要在时间允许的情况下都会来陪伴我。还有我的儿子Daniel,无论是逆境还是顺境,他总是在我身边,是我一生的朋友。他们的信任和支持让我无以为报。

Thomas W. Miller
加利福尼亚州格伦代尔市

上架指导

计算机科学/大数据分析与处理

封底文字

在数据和算法统治的当下,我们只有通过强大的分析技术和信息交流才能获得稍纵即逝的竞争优势。本书将战略与管理、方法与模型、信息技术与代码三者完美结合,系统讲解如何使用横截面数据、时间序列、空间数据及时空数据解决我们面临的商务挑战,包括市场细分、品牌定位、产品选择建模、定价研究、财经分析、体育分析、文本分析、情绪分析和社交网络分析等。
书中循序渐进地讲解了如何定义问题、识别数据、打造和优化模型、编写有效的Python和R代码、解释结果等。每章集中讨论一个预测分析的关键应用,介绍相关的预测分析模型知识、使用方法及优化策略。如果你从事数据分析工作,或者是程序员,那么可以通过本书的案例,学习到如何一步一步地分析问题、解决问题、找出问题的答案所在。

作者简介

[美] 托马斯 W.米勒(Thomas W. Miller)著:暂无简介

译者简介

程豪 译:暂无简介

译者序

作为开源的面向对象的脚本语言,R与Python具有免费获得、简单易学、功能强大的共性。随着多年的实践、发展和稳定,R与Python各自包含了一组完善、易懂的标准库,能够轻松解决很多现实问题。正如本书所言,在计算机密集型应用领域,Python给予一种从C、C++和Fortran调用编译程序的能力。而R能够完成当前用Python无法实现的建模和绘图任务。通过调用R软件包,用户可以处理数据分析、统计建模、统计制图和缺失数据等诸多问题,正如R用户从通用的Python语言中获益一样。
本书特别关注了众多统计领域中预测分析方向,加上用R与Python同时编程,为本书的独创性增色不少。作者通过涉及不同学科和应用领域的预测分析问题,为预测分析和数据科学提供一种综合性指南。秉承这种思想,我承担了本书的翻译工作。我希望能通过自己的努力,将这本实用性极强的R与Python综合教材推荐给更多的读者。无论您是R或Python初学者,还是R与Python高手,本书都可以为您在业界提供参考和帮助。
借此机会,不妨浅谈译书过程中的一些体悟。2015年9月伊始,我暂时离开我的母校中国人民大学,由国家公派到美国哥伦比亚大学联合培养。本书的翻译也发生在这个重要的求学期间。出于对R与Python语言的热爱,我希望在满足学业要求的同时,利用周末尝试更多的挑战。翻译过程中,我感受到作者浓郁的文艺气质、渊博的专业积淀和灵动的思维韵律。在有限的时间里,我认真踏实地扮演了不同学习、工作任务中的角色,增加了人生的厚度。与音乐一样,知识的研发和传播没有国界。因此,翻译不仅是知识表达语言的转换,更是一次学习和交流的机会。与原作者对话,高山仰止,受益匪浅;与读者对话,高山流水,闻过则喜。
在此,非常感谢机械工业出版社的各位领导和编辑。感谢王春华编辑将本书推荐给我。感谢陈佳媛编辑对翻译内容的审读。作为我们的第二次合作,两位编辑一如既往的职业操守和工作态度,让我由衷钦佩。由于身在国外,很多事情需要朋友和同学的帮助和支持。感谢我的挚爱刘钰洁同学。正是她承担了必要的沟通联络工作,才顺利衔接了翻译工作的不同环节。感谢我的朋友范超、王婷和赵建喜对一些翻译内容提供的建议。感谢程悦同学在本书最终校对阶段提供的帮助和支持。这里,我要特别感谢美国哥伦比亚大学的韦颖老师在科研上对我的指导,感谢我的导师中国人民大学易丹辉教授对我的关心和支持。感谢我的班主任尹建鑫老师,以及全体博士同学。
最后,我要特别感谢伟大的父母。作为人生中最能够包容且给予我最大支持的他们,让我有更强大的动力,去修缮和提高自己。感谢最爱的爷爷奶奶,跨洋的联系与问候让我倍感安心与温暖。感谢身边所有的亲朋好友。
介于个人时间与水平有限,如有纰漏,向您致歉,还望海涵。同时还请各位读者予以反馈,不吝赐教!

程豪
2016年3月15日

图书目录

译者序
前 言
第1章 分析与数据科学1
第2章 广告与促销10
第3章 偏好与选择24
第4章 购物篮分析31
第5章 经济数据分析42
第6章 运营管理56
第7章 文本分析72
第8章 情感分析93
第9章 体育分析132
第10章 空间数据分析146
第11章 品牌和价格165
第12章 大型的小数字游戏188
附录A 数据科学方法191
附录B 测量方法204
附录C 案例研究212
附录D 编码和脚本226
参考文献259

教学资源推荐
作者: 朱恺 吉逸 方宁生 编著
作者: (印) S. K. Singh 著
作者: 刘粉林 刘九芬 罗向阳 等编著
作者: [美]怀亚特·S. 纽曼(Wyatt S. Newman) 著
参考读物推荐
作者: [印]拉格哈夫?巴利(Raghav Bali),迪潘简?撒卡尔(Dipanjan Sarkar)著
作者: [美]维西瓦·维斯瓦纳坦(Viswa Viswanathan),珊蒂·维斯瓦纳坦(Shanthi Viswanathan)著