首页>参考读物>公共基础课>心理生活

人人可懂的数据科学
作者 : [爱尔兰]约翰· D.凯莱赫(John D. Kelleher) 布伦丹·蒂尔尼(Brendan Tierney) 著
译者 : 张世武 黄元勋 译
出版日期 : 2019-10-16
ISBN : 978-7-111-63726-4
定价 : 59.00元
扩展资源下载
扩展信息
语种 : 简体中文
页数 : 222
开本 : 32
原书名 : Data Science
原出版社: MIT Press
属性分类: 店面
包含CD : 无CD
绝版 : 未绝版
图书简介

数据科学的主要目标就是通过数据分析来改进决策,它与数据挖掘、机器学习等领域紧密相关,但范围更广。本书简要介绍了该领域的发展、基础知识,并阐释了数据科学项目的各个阶段。书中既考虑数据基础架构和集成多个数据源数据所面临的挑战,又介绍机器学习基础并探讨如何应用机器学习专业技术解决现实问题。还综述了伦理和法律问题、数据法规的发展以及保护隐私的计算方法。最后探讨了数据科学的未来影响,并给出数据科学项目成功的原则。

图书特色

Data 
Science
人人可懂的
数据科学
[ 爱尔兰 ]  约翰· D. 凯莱赫 (John D. Kelleher)
         布伦丹·蒂尔尼  (Brendan Tierney)    / 著
张世武  黄元勋    / 译
深入浅出介绍数据科学基本要素
零基础直观认识数据科学系统

图书前言

数据科学的目标是通过将决策建立在从大数据集中提取洞察力的基础上来改进决策。作为一个活动领域,数据科学由一系列原理、问题定义、算法和过程组成,用于从大型数据集中提取有用但不显眼的模式。数据科学与数据挖掘和机器学习领域密切相关,但它涉及的范围更广。如今,数据科学推动了现代社会几乎所有领域决策的发展。数据科学可能影响人们日常生活的方方面面,如确定在线广告的呈现,向用户推荐电影、书籍、朋友,过滤垃圾邮件,用户续订手机合约时向他们提供合适的优惠套餐,降低医保成本,规划辖区内交通信号灯的布局及通行时间,药品设计,警力部署规划等。
大数据和社交媒体的出现、计算能力的加速、计算机内存成本的大幅降低以及更强大的数据分析和建模方法的发展推动了当代社会对数据科学需求的增长,其中典型的技术有深度学习。这些因素共同作用意味着组织收集、存储和处理数据将比以前简单。与此同时,这些技术创新和数据科学的广泛应用意味着与数据使用和个人隐私相关的道德挑战从未如此迫切。本书的目的是提供数据科学的介绍,涵盖该领域的基本要素,并提供对该领域深刻的原则性见解。
本书第1章介绍了数据科学领域,简要回顾了数据科学的发展演化历史,还探讨了如今数据科学为什么那么重要,以及推动采用数据科学的一些因素。在这一章的最后,回顾并揭穿了与数据科学相关的一些神话。第2章介绍了与数据相关的基本概念,描述了数据科学项目的标准流程:业务理解、数据理解、数据准备、建模、评估和部署。第3章重点介绍了数据基础设施以及大数据和多源数据集成带来的挑战。数据基础设施的一个可能具有挑战性的典型方面是,数据库和数据仓库中的数据通常驻留在与用于数据分析的服务器不同的服务器上。因此,当处理大型数据集时,可能要花费大量时间在数据库或数据仓库所依赖的服务器与进行数据分析和机器学习处理的服务器之间移动数据。第3章首先描述组织中典型的数据科学基础设施,以及在数据科学基础设施中移动大型数据集的挑战的一些新兴解决方案,其中包括使用数据库内置机器学习算法,使用Hadoop进行数据存储和处理,以及混合数据库系统的开发,这些系统无缝地结合了传统的数据库软件和类似Hadoop的解决方案。这一章的最后强调了将整个组织的数据整合到适合机器学习的统一表示中的一些挑战。第4章介绍了机器学习领域,并解释了一些最流行的机器学习算法和模型,包括神经网络、深度学习和决策树模型。第5章聚焦于通过审视一系列标准业务问题,描述了机器学习解决方案如何解决这些问题来将机器学习专业知识与现实问题联系起来。第6章回顾了数据科学的道德含义、数据监管的最新发展,以及在数据科学过程中保护个人隐私的一些新的计算方法。最后,第7章描述了数据科学在不久的将来会产生重大影响的一些领域,并列出了确定数据科学项目是否会成功的一些重要原则。

上架指导

计算机/数据分析

封底文字

数据科学是什么?
数据科学是如何发展演化的?
数据科学项目的标准流程是什么?
数据基础设施面临的挑战有哪些?
数据科学与机器学习有什么关系?
在数据科学过程中如何进行数据监管和保护个人隐私?
数据科学项目成功的重要原则是什么?
数据科学的未来影响是什么?

如今,数据科学推动了现代社会几乎所有领域决策的发展,正在影响着人们日常生活的方方面面。本书旨在阐述理解数据科学所需的基本思想和概念,帮助你理解什么是数据科学,它是如何工作的,以及它能(和不能)做什么。



作者简介

[爱尔兰]约翰· D.凯莱赫(John D. Kelleher) 布伦丹·蒂尔尼(Brendan Tierney) 著:约翰· D.凯莱赫(John D. Kelleher) 是都柏林理工学院计算机科学学院的教授以及信息、通信和娱乐研究所的学术负责人。他的研究得到了ADAPT中心的支持,该中心由爱尔兰科学基金会(Grant 13 / RC / 2106)资助,同时也接受欧洲区域发展基金的资助。 他还是《Fundamentals of Machine Learning for Predictive Data Analytics》的作者之一。

布伦丹·蒂尔尼(Brendan Tierney)是都柏林理工学院计算机科学学院的讲师,同时也是Oracle ACE 主任,还著有多本基于Oracle技术的数据挖掘类著作。

译者序

数据科学这个术语的出现可以追溯到20世纪90年代。事实上,该领域的历史更悠久。在古代人类就已经有收集数据和分析数据的传统,这些可视为数据科学的雏形。数据科学的目标是从大数据集中提取洞察力并基于它改进决策。数据科学与数据挖掘、机器学习紧密相关,但它的研究范围更广,人们在日常交流中通常会混淆这些概念。进入信息时代之后,数据科学逐步迈入应用阶段,但是真正被大众熟知则是在大数据时代。目前,大数据正在急剧改变着人们的工作、生活与思维模式,同时也对数据科学的学术研究及应用产生了深远影响。大数据技术日新月异的发展、可用数据的激增及计算能力的提升,为数据科学实践提供了肥沃的土壤,数据科学项目在各种规模的组织机构中如雨后春笋般涌现。
本书从数据科学发展演化史,数据科学定义,数据、数据集,数据科学生态系统,机器学习,数据科学标准任务,隐私与道德,发展趋势等角度,对数据科学展开了精彩的阐述。书中精准界定了数据科学的术语、任务、生命周期,介绍了主流的数据科学生态技术,以及决策树(Decision Tree)、回归分析(Regression Analysis)、神经网络( Neural Network)、深度学习(Deep Learning)等常见机器学习算法。同时也涵盖了隐私、道德等方面的话题,介绍了数据科学可能引发的隐私泄露、人为歧视、不公平,以及美国、欧盟等国家或组织针对数据因素保护、数据道德的立法。本书深入浅出、案例丰富,适合各种类型的读者阅读。对数据科学感兴趣的非专业人士阅读本书正文内容即可获得对数据科学系统的、直观的认识;专业人士还可以阅读本书“延伸阅读”“参考文献”部分列举的文献。本书也对一些重要概念以及容易混淆的内容提供了注解,以帮助读者准确无误地掌握本书内容。
本书经过精心组织,结合了译者多年的数据科学研究、实践经验,并参考了微软、阿里巴巴、腾讯、百度等众多知名企业的业界专业人士的意见。本书翻译团队由拥有丰富经验的数据科学从业者组成。其中,张世武负责第1、2、4、5章的翻译和校对以及全书统稿,黄元勋负责第3、6、7章的翻译和校对。在本书翻译过程中,译者经过多次讨论、审校,力求信达雅。由于本书涉及很多新概念,业界尚无统一术语,另外由于译者水平有限,难免会出现一些问题,欢迎广大读者及业内同行批评指正。
最后,感谢家人的支持与宽容,为我们顺利交稿创造了宽松的环境。

图书目录

译者序
前言
致谢
作者简介
第1章 什么是数据科学 …… 1
1.1 数据科学简史 …… 5
1.1.1 数据收集简史 …… 5
1.1.2 数据分析简史 …… 9
1.1.3 数据科学的产生与发展 …… 14
1.2 数据科学用于何处 …… 20
1.2.1 销售和营销中的数据科学 …… 21
1.2.2 数据科学在政府中的应用 …… 22
1.2.3 数据科学在竞技体育中的应用 …… 23
1.3 为什么是现在 …… 25
1.4 关于数据科学的神话 …… 28
第2章 什么是数据,什么是数据集 …… 31
2.1 关于数据的观点 …… 38
2.2 数据可以积累,而智慧不能 …… 43
2.3 CRISP-DM …… 45
第3章 数据科学生态系统 …… 54
3.1 将算法迁移至数据 …… 61
3.1.1 传统数据库与现代的传统数据库 …… 64
3.1.2 大数据架构 …… 67
3.1.3 混合数据库世界 …… 69
3.2 数据准备和集成 …… 72
第4章 机器学习 …… 77
4.1 有监督学习与无监督学习 …… 78
4.2 学习预测模型 …… 83
4.2.1 相关性不等同于因果,但它有时非常有用 …… 84
4.2.2 线性回归 …… 90
4.2.3 神经网络与深度学习 …… 96
4.2.4 决策树 …… 108
4.3 数据科学中的偏差 …… 114
4.4 评估模型:泛化而不是记忆 …… 116
4.5 摘要 …… 119
第5章 标准的数据科学任务 …… 121
5.1 谁是我们的目标客户(聚类) …… 122
5.2 这是欺诈吗(异常值检测) …… 128
5.3 你要配份炸薯条吗(关联规则挖掘) …… 131
5.4 流失还是不流失,这是一个问题(分类) …… 136
5.5 它价值几何(回归) …… 141
第6章 隐私与道德 …… 143
6.1 商业利益与个人隐私 …… 145
6.1.1 数据科学的道德启示:画像与歧视 …… 148
6.1.2 数据科学的道德含义:创建一个全景监狱 …… 154
6.2 隐私保护 …… 157
6.2.1 保护隐私的计算方法 …… 159
6.2.2 规范数据使用和保护隐私的法律框架 …… 161
6.3 通往道德的数据科学之路 …… 164
第7章 未来趋势与成功准则 …… 172
7.1 医疗数据科学 …… 172
7.2 智慧城市 …… 174
7.3 数据科学项目准则:为什么会成功或失败 …… 177
7.4 终极思考 …… 185
术语表 …… 188
延伸阅读 …… 201
参考文献 …… 203

教学资源推荐
作者: (美)保罗 E. 斯佩克特(Paul E. Spector)
作者: (美) 保罗C.科兹比(Paul C.Cozby)        加利福尼亚州立大学富勒顿分校    著斯科特C.贝茨(Scott C. Bates)犹他州立大学
作者: [美]保罗·E.斯佩克特(Paul E. Spector)著
作者: [美] 伦道夫?史密斯(Randolph A.Smith) 史蒂芬?戴维斯(Stephen F.Davis)著
参考读物推荐
作者: [美] 琳赛?吉布森(Lindsay C. Gibson)著
作者: [美] 阿诺德·理查兹(Arnold D. Richards) 著,亚瑟·林奇(Arthur Lynch) 整理