数据分析
作者 : [美]爱德华·L.罗宾逊(Edward L. Robinson)著
译者 : 张立成 黄淑娇 王长春 战骋 译
出版日期 : 2018-12-19
ISBN : 978-7-111-61503-3
定价 : 79.00元
教辅资源下载
扩展信息
语种 : 简体中文
页数 : 300
开本 : 16
原书名 : Data Analysis for Scientists and Engineers
原出版社: Princeton University Press
属性分类: 教材
包含CD : 无CD
绝版 :
图书简介

本书着重介绍各种数据分析技术背后的原理,有利于实践者将技术具体应用到各种领域,或者在此基础上发展新的技术。全书共分三部分。第一部分介绍统计学基本概念,包括蒙特卡罗方法和马尔科夫链。第二部分介绍统计学,并从频率派和贝叶斯派两种角度对比分析了各种数据建模的工具。第三部分重点介绍各种数据分析方法,比如关联函数、周期图、图像重建等。附录提供了相关的数学知识,以备读者查阅。本书可作为物理、工程相关专业研究生关于数据分析技术的标准教材,也可供科学家和工程师参考阅读。

图书特色

数据分析
[ 美 ] 爱德华·L. 罗宾逊(Edward L. Robinson) 著
张立成 黄淑娇 王长春 战骋  译

Data Analysis for Scientists and Engineers

图书前言

若推理不够,经验可以胜任。
数学是通向科学的大门和钥匙。
——罗杰·培根(约1214—1294年)

现代化计算机的发展深刻地改变了统计学的面貌。现在分析数据常规使用的技术在几年前都是不切实际,甚至是不可想象的。普通的笔记本电脑就能够轻松处理大数据并进行详尽的计算。曾经被认为深奥的技术现在已经成为常规工具:主成分分析、马尔可夫链蒙特卡罗抽样、非线性模型拟合、贝叶斯统计、LombScargle周期图等。科学家和工程师比以往任何时候都需要熟练掌握更多、更尖端的方法来分析数据。
多年来,我为天文系、物理系,偶尔也为工程系的研究生讲授数据分析的课程。课程的目的是培养实验者解释数据的必要能力,并为理论家提供足够的知识来理解(甚至有时是质疑)这些解释。我无法找到一本具体的书,或者一些相关的书籍,可以作为该课程的教材。课程中的大部分材料都不是初级的,而且通常不包括在许多关于数据分析的介绍性书籍范围内。而涵盖这些材料的书籍一般都高度专业,写作风格和语言对于大多数学生来说也都晦涩难懂。用特定计算机语言所写的书籍,大多涵盖特定算法,更合适作为补充资料。
鉴于教学需要,我为自己的课程编写了讲义,并将这些讲义整理成书。本书是一本关于数据分析的有一定深度的书,而不是统计学入门书籍。 诚然,人们可能会质疑是否需要对线性回归进行额外的基础性介绍。 但同时,本书涵盖了必要的基本概念和工具,内容自成体系,使各种背景的读者都易于理解。 虽然书中包括很多具体的例子,但它不是一本统计方法的“食谱”,也并不包含计算机代码。 相反,这门课程和这本书强调的是各种技术背后的原理,使从业者能够将技术应用于自己的问题,并能在必要时开发新的技术。本书的目标读者是研究生,也适用于高年级的本科生和在职的专业人士。
本书重点关注物理科学和工程领域工作人员的需求,因而尽可能少地描述那些在其他研究领域常用而在物理学中很少发挥重要作用的统计工具。所以,本书对假设检验没有太多介绍,甚至忽略了ANOVA技术, 尽管这些工具会在生命科学领域得到广泛应用。相反,数据的模型拟合和数据序列的分析在物理科学中是常见的,贝叶斯统计也越来越受到关注。本书将更加全面地讨论这些主题。
即使如此,这些主题也必须经过严格的筛选来满足一本书的篇幅要求,而我选择的标准是实用性。本书覆盖了物理科学家和工程师经常使用的数据分析工具,主要分为三个部分。
第一部分用3章介绍了概率的相关知识:第1章涵盖概率方面的基本概念,第2章介绍了一些实用的概率分布,最后第3章讨论了随机数和蒙特卡罗方法,包括马尔可夫链蒙特卡罗采样。
第二部分包括第4~7章,第4章介绍了统计学中的一些基本概念,第5章和第6章从频率论的角度(极大似然估计、线性和非线性的卡方最小化)介绍模型拟合,第7章从贝叶斯的角度介绍模型拟合。
最后一部分专门介绍数据序列。 先复习傅里叶分析(第8章),然后讨论功率谱和周期图(第9章),之后是卷积和图像重建,最后以自相关和互相关结束(第10章)。
本书重点强调了误差分析。这反映了我的一个坚定信念:数据分析不应该仅仅只是产生一个结果,而是还要评估这个结果的可靠性。这可能是一个数字加一个方差,也可能是置信区间,或者当处理似然函数或贝叶斯分析时,它可以是很多一维或者二维的边际分布图。
坚定的贝叶斯学派可能会对本书只花一章来介绍贝叶斯统计而感到不悦。事实上,虽然前两章是关于概率的,却提供了贝叶斯统计的必要基础;而第3章中对于马尔可夫链蒙特卡罗采样的漫长讨论,几乎完全是由贝叶斯统计所引导出来的。就像通常默认的,介绍最小二乘法估计的那两章里面很全面地讲述了似然函数。本书也可以作为一门只教授贝叶斯统计课程的教科书。因为书中讨论了数据分析的贝叶斯方法和频率论方法,可以直接比较两者。我发现这种比较可以大大提高学生对贝叶斯统计学的理解。
书中几乎所有的材料都已经公开发表或出版,但本书中的表述是我自己的。我的目标是以一种让我的学生和同事都容易理解的方式来撰写本书。本书的主要作用是将数学家的优雅且精确的语言翻译成数据科学家和工程师能够掌握的更宽松的工作语言。本书并不提及异方差数据,但会讨论变量数据,还会涉及相关的测量错误!
本书尽管在表述上是数学的,但写作风格是物理科学的。我的目的是让叙述清晰和准确,而不是严格,因此读者在书中找不到证明或引理。本书假设读者已经很熟悉多变量微积分,并且熟悉复数。书中也大量使用了线性代数。经验告诉我,大部分研究生至少上过一门线性代数课程,但他们很少使用线性代数知识,特别是涉及特征值和特征向量时。因此附录E提供了线性代数的详细回顾。一些会打乱本书主线的专题也被归入附录。由于序列分析的重要性,我们用一整章专门介绍了傅里叶分析。
最后,如果你打算阅读或教授本书,一个亘古不变的事实就是:“对于很多事情我们要先学习,才能去做,就像建筑工人在建造房子的过程中学习建筑技巧和七弦琴演奏者通过弹奏学习一样,我们要从实践中去学习”。为了学习如何分析数据,我们着手去分析数据——实际数据(如果有的话)或者人造数据(如果没有实际数据)。本书中讨论的分析技术都可以方便地找到相应的计算机程序代码,但是除非必要,最好不要在没有充分测试的情况下使用现有的程序,特别是在首次遇到某种技术时。建议最好编写自己的代码。
几乎没有人(当然也包括我)可以在没有同事、工作人员和学生的帮助下撰写一本书。感谢我所有的学生(现在的和以前的),特别是已经上过课程并给予本书早期版本反馈的学生;感谢我以前的博士后,特别是Allen Shafter、Janet (née) Wood、Coel Heillier、William Welsh、Robert Hynes;感谢得克萨斯大学天文系的同事们,特别是Terrence Deeming、William Jefferys、Pawan Kumar、Edward Nather和Donald Winget。

上架指导

数学\统计学

封底文字

“罗宾逊的书是对现代统计技术的一个极好的概述, 肯定会成为数据分析从业者的必备参考。 他简明扼要地介绍了所有必要的基础数学, 同时详尽地描述了工程师和科学家所使用的复杂方法。 我特别喜欢书中对频率论和贝叶斯方法的划分, 以及罗宾逊对每种方法的相对优点的清晰讨论。” 
-------- Jeremy Kasdin, 普林斯顿大学

“这本书易于理解,并且风格一致,因其材料的深度和丰富的教学演示脱颖而出。 本书从简单的概念出发, 叙述严谨、准确,非常适合高年级的本科生、各级研究生和从事科研工作的科学家阅读。”
------- Wade Fisher, 密歇根州立大学

本书基于作者多年教授的数据分析研究生课程而写,是一本优秀的现代数据分析教材。全书分为三部分,第一部分介绍概率知识,并深入讨论蒙特卡罗方法和马尔可夫链蒙特卡罗抽样;第二部分介绍统计,并分别从频率论和贝叶斯的角度来详细讲解模型拟合;第三部分介绍数据序列的分析方法,包括相关性函数、周期图和图像重建等。本书强调各种数据分析技术背后的原理,使从业者能够将技术应用于自己的问题,并能在必要时开发新的技术。

• 深入讨论科学家和工程师常用的数据分析技术
• 覆盖用于数据分析的频率论和贝叶斯方法
• 广泛研究用于时间序列数据和图像的分析技术
• 详细探索数据的线性和非线性建模
• 强调误差分析
• 英文教师手册(用书教师可登录www.cmpreading.com下载)

译者序

您现在拿在手里的是一本既简明实用又不乏理论依据的书,是一本适合现代研究生或者本科高年级学生的关于数据分析技巧的教科书,也是一本可以供从事数据科学应用统计的研究人员使用的参考书。它的作者是美国德州大学奥斯丁分校天文系的教授——爱德华L罗宾逊。 他把自己教学多年的资料配以通俗易懂的语言写成此书,此书自成体系,所以对于读者没有太多的背景要求,目的在于让不同背景的读者都能读懂并且有所收获。
近年来随着技术的进步,大数据分析得到越来越多的关注。各种现成的软件包也使得不同行业的从业者能够很容易地在自身的领域尝试各种数据分析方法,很多时候也都能取得不错的结果。然而由于缺乏对这些分析方法背后数理统计原理的理解,人们往往难以解释为何这些数据分析的结果好,又或者为何不如预期以及如何改进。本书由浅入深地介绍了很多常用的数据分析方法,还有它们背后的数理统计原理。从基础的概率分布定义到复杂的时间序列分析方法都有所涵盖。本书最大的特点是不同于传统的数学统计专业的教课书,读者只要掌握了基本的微积分原理,以及线性代数知识就足以阅读理解本书。
虽然目前国内关于大数据分析的书层出不穷,但是好书依然比较有限。当机械工业出版社华章分社邀请我们翻译本书时,我们毫不犹豫地决定投入时间和精力来完成它,希望读者能从中受益,也让这本书能有更大的影响力。
我们都曾经是来美读研的留学生,毕业后在工作当中会涉及大量的数据处理,深知合理分析数据的不易,往往既需要扎实的理论功底,也需要大量实战经验的积累。工作一段时间,再回到书本或者课堂上,不时会有妙手偶得之的感受,也算是对理论的一次升华吧。在翻译的过程中,我们也都受益匪浅。衷心地希望读者能喜欢这本译著,并从中获取对自己工作学习有帮助的知识。

张立成 黄淑娇 王长春 战骋
2018年11月18日,写于美国休斯敦

图书目录

译者序
前言
第1章概率
11概率定律
12概率分布
121离散和连续概率分布
122累积概率分布函数
123变量变化
13概率分布的特征
131中位数、众数和半峰全宽
132矩、均值和方差
133矩母函数和特征函数
14多变量概率分布
141两个独立变量的分布
142协方差
143多个独立变量的分布
第2章一些有用的概率分布函数
21排列组合
22二项分布
23泊松分布
24高斯分布(正态分布)
241用中心极限定理推导高斯分布
242关于中心极限定理的摘要和评论
243高斯分布的均值、矩和方差
25多元高斯分布
26卡方分布
261卡方分布的推导
262卡方分布的均值、众数和方差
263n取极大值的卡方分布
264简化卡方
265相关变量的卡方
27贝塔分布
第3章随机数和蒙特卡罗方法
31引言
32不均匀随机偏差
321逆向累积分布函数
322多维偏差
323生成高斯偏差的BoxMüller方法
324接受拒绝算法
325均匀分布比例法
326从更复杂的概率分布中产生随机偏差
33蒙特卡罗积分
34马尔可夫链
341平稳有限的马尔可夫链
342不变概率分布
343连续参数和多参数马尔可夫链
35马尔可夫链蒙特卡罗采样
351马尔可夫链蒙特卡罗计算示例
352MetropolisHastings算法
353吉布斯采样器
第4章频率统计学基础
41频率统计学简介
42未加权数据的均值与方差
43含有不相关测量误差的数据
44有相关测量误差的数据
45方差的方差和学生t分布
451方差的方差
452学生t分布
453总结
46主成分分析及其相关系数
461相关系数
462主成分分析
47柯尔莫诺夫斯米尔诺夫检验
471单样本KS检验
472双样本KS检验
第5章线性最小二乘估计
51引言
52似然统计
521似然函数
522最大似然原理
523与最小二乘和χ2最小化的关系
53多项式对数据的拟合
531直线拟合
532任意多项式拟合
533方差、协方差和偏差
534蒙特卡罗误差分析
54协方差的需求和误差的传播
541协方差的需求
542误差的传播
543蒙特卡罗误差传播
55广义线性最小二乘法
551非多项式函数的线性最小二乘法
552测量误差之间的相关性拟合
553拟合优度的χ2检验
56多个因变量拟合
第6章非线性最小二乘估计
61引言
62非线性拟合的线性化
621数据含有不相关测量误差
622数据含有相关测量误差
623实际考量
63其他最小化S的方法
631网格映射法
632最速下降法、牛顿法以及马夸特法
633单纯形优化
634模拟退火法
64误差估计
641黑塞矩阵的逆阵
642直接计算协方差矩阵
643总结以及估计的协方差矩阵
65置信极限
66自变量和因变量都含有误差的拟合
661含有不相关误差的数据
662含有相关误差的数据
第7章贝叶斯统计
71贝叶斯统计简介
72单参数估计:均值、众数和方差
721引言
722高斯先验和似然函数
723二项分布和贝塔分布
724泊松分布和一致的先验
725关于先验概率分布的更多信息
73多参数估计
731问题的形式描述
732拉普拉斯近似
733高斯似然函数和先验:与最小二乘的联系
734困难的后验分布:马尔可夫链蒙特卡罗采样
735可信区间
74假设检验
75讨论
751先验概率分布
752似然函数
753后验分布函数
754概率的含义
755思考
第8章傅里叶分析导论
81引言
82完备的标准正交函数集合
83傅里叶级数
84傅里叶变换
841傅里叶变换对
842有用的傅里叶变换对的总结
85离散傅里叶变换
851从连续傅里叶变换推导
852从离散取样的正弦和余弦函数的正交关系推导
853帕塞瓦尔定理和功率谱
86卷积和卷积定理
861卷积
862卷积定理
第9章序列分析:功率谱和周期图
91引言
92连续序列:数据窗口、谱窗口以及混叠
921数据窗口和谱窗口
922混叠
923任意的数据窗口
93离散序列
931过量采样Fm的必要性
932奈奎斯特频率
933整合采样
94噪声的影响
941确定性的或随机性的过程
942白噪声的功率谱
943噪声环境下的确定性信号
944非白、非高斯噪声
95非一致间隔的序列
951最小二乘周期图
952LombScargle周期图
953一般化的LombScargle周期图
96有变化周期的信号:OC图
第10章序列分析:卷积和协方差
101卷积回顾
1011脉冲响应函数
1012频率响应函数
102反卷积和数据重建
1021噪声在反卷积中的效用
1022维纳反卷积
1023RichardsonLucy算法
103自协方差函数
1031自协方差函数的基本性质
1032与功率谱的关系
1033随机过程的应用
104互协方差函数
1041互协方差函数的基本性质
1042与χ2和互谱的关系
1043噪声中脉冲信号的检测
附录A一些有用定积分
附录B拉格朗日乘数法
附录C高斯概率分布的附加性质
附录Dn维球体
附录E线性代数和矩阵回顾
附录F当n值变大时[1+f(x)/n]n的极限
附录G脉冲响应函数的格林函数解
附录H二阶自回归过程

教学资源推荐
作者: [美]加雷斯·詹姆斯(Gareth James),丹妮拉·威滕(Daniela Witten),特雷弗·哈斯帖(Trevor Hastie),罗伯特·提布施瓦尼(Robert Tibshirani) 著
作者: [美] 布拉德利·埃夫隆(Bradley Efron) 特雷福·黑斯蒂(Trevor Hastie)著
作者: [美]理查德·麦克尔里思(Richard McElreath) 著
作者: [美]罗伯特·H. 沙姆韦(Robert H. Shumway),[美]戴维·S. 斯托弗(David S. Stoffer) 著
参考读物推荐
作者: [美]萨拉·博斯劳(Sarah Boslaugh) 著
作者: [美]马克斯·库恩(Max Kuhn) 谢尔·约翰逊(Kjell Johnson) 著
作者: [美]克里斯·查普曼(Chris Chapman) 埃里亚·麦克唐奈·费特(Elea McDonnell Feit)著
作者: [美]M. D.埃奇(M. D.Edge )