参考读物 – 图书教辅

扩展信息

语种 : 简体中文

页数 : 367

开本 : 16

原书名 : Beautiful Data: The Stories Behind Elegant Data Solutions

原出版社: OReilly Associates

属性分类: 店面

包含CD : 无

绝版 : 未绝版

图书简介

本书原书是《代码之美》的系列篇，采用和《代码之美》相似的写作风格和模式，是Oreilly的Beautiful系列中的重要新产品。
本书通过世界上最好的数据工作者的示例，向读者展示处理数据的方法。本书使得读者可以站在优秀的数据设计师、管理者和处理者的肩上，去仔细审视涉及到数据的一些最有趣的项目。
本书中的故事涵盖了数据获取、存储、检索、管理、操作和可视化的方方面面。读者既可以从中获取教训，也可以获得最佳的实践经验。

图书特色

“数据实际上已经是下一代计算机应用的真正核心。本书中，各位业界精英描述了在他们的项目中如何以全新的方式来驾驭数据的力量。对于任何对数据的未来和问题的解决感兴趣的读者来说，本书都是一部必读之作。”
——Tim O’Reilly，O’Reilly Media公司创始人兼CEO

　　本书揭示了数据发现可以是多么广泛和美丽！在本书中，39位业内最佳数据实践者揭秘了他们如何为各种项目开发简单优雅的解决方案，例如火星着陆探测器、Radiohead视频的制作等。在本书中，你将：
　　探索在海量的在线数据集中所固有的机遇和挑战
　　学习如何使用地图和数据“混搭”（mashup）来对都市犯罪趋势进行可视化
　　发现“开放来源”（crowdsourcing）和透明化如何改善药物研究的现状
　　理解新的数据可能会覆盖已有数据时，如何向用户报警
　　了解DNA数据处理所需要的大规模的基础设施

本书的作者包括
Nathan Yau
Jonathan Follett和Matthew Holm
J.M. Hughes
Brian F. Cooper、Raghu Ramakrishnan和Utkarsh Srivastava
Jeff Hammerbacher
Jason Dykes和Jo Wood
Jeff Jonas和Lisa Sokol
Jud Valeski
Alon Halevy和Jayant Madhavan
Aaron Koblin和Valdean Klump
Michal Migurski
Jeffrey Heer
Coco Krumme
Peter Norvig
Matt Wood和Ben Blackburne
Jean-Claude Bradley、Rajarshi Guha、
Andrew Lang、Pierre Lindenbaum、Cameron Neylon、Antony Williams
和Egon Willighagen
Brendan O’Connor和Lukas Biewald
Hadley Wickham、Deborah F. Swayne
和David Poole
Andrew Gelman、Jonathan P. Kastellec
和Yair Ghitza
Toby Segaran

图书前言

当我们第一次接触为《代码之美》编写“续集”的想法时，这次是关于数据也就是这本书，我们觉得这个想法令人兴奋且很有挑战性。现在收集、可视化和处理数据涉及每个专业领域和日常生活的诸多方面，一个大数据集在范围上将是难以想象的广泛。因此，我们联系了一组相当多样化的群体，这些人的工作让我们钦佩。当他们中的大多数都同意撰稿时，我们感到异常兴奋。
　　这本书就是我们努力的结果，我们希望它能够展示数据处理工作可以多么的广泛（和美丽）。在本书中，你将了解从和政府协作到和火星登陆器一起工作的各个方面；你将了解如何使用统计程序、制作可视化应用、混合Radiohead视频；你将看到地图、DNA和一些我们真正只能称之为“数据哲学”的内容。
　　本书的版权收益贡献给知识共享组织（Creative Commons）和阳光基金会（the Sunlight Foundation），它们致力于通过解放数据使世界变得更美好。我们希望你将会考虑你和数据亲身“邂逅”的经历如何塑造了世界。
本书的组织方式
　　本书的章节贯彻一条较为松散的曲线：从数据收集到数据存储、组织、检索、可视化及最后的数据分析。
　　第1章：在数据中观察生活。作者Nathan Yau着眼于在新兴的个人数据收集领域的两个项目背后的动机和挑战。
　　第2章：美丽的人们：设计数据收集方法时牢记用户。Jonathan Follett和Matthew Holm讨论了在Web上向人们收集数据时，信任、说服和测试的重要性。
　　第3章：火星上的嵌入式图像数据处理。J. M. Hughes分析了设计在太空旅行下能够正常工作的数据处理系统所面临的挑战。
　　第4章：PNUTShell中的云存储设计。Brian F. Cooper、Raghu Ramakrishnan和Utkarsh Srivastava描述了雅虎所设计的软件系统，该系统将其全球分布式数据中心转换为支持现代Web应用的通用存储平台。
　　第5章：信息平台和数据科学家的兴起。Jeff Hammerbacher以Facebook的数据团队的历史演化作为特例，追溯了信息处理工具以及驱动这些工具的人们的演化。
　　第6章：照片档案的地理之美。Jason Dykes和Jo Wood吸引人们注意一个志愿者组织收集的彩色可视化空间数据的普及性及其力量。
　　第7章：数据发现数据。Jeff Jonas和Lisa Sokol阐述了思考数据的新方式，为了完全管理这些数据，很多人需要采用这种方式。
　　第8章：实时的可移动数据。Jud Valeski深入分析了Web上实时的分布式社会和定位数据当前存在的局限，讨论了解决该问题的一个可能方案。
　　第9章：探寻Deep Web。Alon Halevy和Jayant Madhavan描述了G公司开发的用于搜索当前“受困”于Web表单之后的数据的工具。
　　第10章：构建Radiohead的“House of Cards”。Aaron Koblin和Valdean Klump讲述了一个涉及激光、编程和“骑在巴士背上”的惊险故事，故事以一个获奖音乐视频结束。
　　第11章：都市数据可视化。Michal Migurski详细描述了释放和美化一些我们身边的最重要的数据的过程。
　　第12章：Sense.us的设计。Jeffrey Heer重塑了作为社会空间的数据可视化，并使用这种新视角来探索历时150年的美国人口普查数据。
　　第13章：数据所做不到的。Coco Krumme关注于证明人们在很多方面误解和误用数据的实验性工作。
　　第14章：自然语言语料库数据。Peter Norvig通过从Web上获取的1兆规模的自然语言词汇语料数据，带领读者走进一些令人回味的实践。
　　第15章：数据中的生命：DNA漫谈。Matt Wood和Ben Blackburne描述了数据之美，即DNA和创造、捕捉和处理数据需要的大量基础设施。
　　第16章：美化真实世界中的数据。Jean-Claude Bradley、Rajarshi Guha、Andrew Lang、Pierre Lindenbaum、Cameron Neylon、Antony Williams和Egon Willighagen展示了“众包”（crowdsourcing）和高度透明的结合如何提高了药物发现的研究。
　　第17章：数据浅析：探索形形色色的社会定型。Brendan O'Connor和Lukas Biewald展示了当让人们匿名对其他人的图片进行打分时所表现出来的关联和模式。
　　第18章：旧金山海湾之殇：次贷危机的影响。Hadley Wickham、Deborah F. Swayne和David Poole通过使用开源软件和公共数据资源，带领读者走进对近年来旧金山海湾地区的住房危机的详尽研究。
　　第19章：美丽的政治数据。Andrew Gelman、Jonathan P. Kastellec和Yair Ghitza展示了统计和数据可视化工具是如何帮助我们加深对社会进行组织的政治进程的理解。
　　第20章：连接数据。Toby Segaran探索了对Web上可获取的大量的数据集进行连接的挑战性和可能性。
本书使用的体例
　　本书遵循以下字体体例：
　　斜体（Italic）
　　表示新的术语、URL、Email地址、文件名和文件扩展名。
　　等宽字体（Constant width）
　　用于程序清单以及段落中的程序单元如变量或函数名称、数据库、数据类型、环境变量、声明和关键字。
　　等宽粗体字（Constant width bold）
　　显示命令或者其他由用户输入的文本。
　　等宽斜体字（Constant width italic）
　　表示必须根据用户提供的值或者由上下文决定的值进行替代的文本。
　　使用本书的样例代码
　　本书是为了帮助你完成工作。通常来说，你可以在你的程序和文档中使用本书的代码。除非你使用了本书的大量代码，否则你无需联系我们获取许可。例如，写一个程序用到本书的几段代码不需要获得许可，销售和分发O’Reilly丛书的代码需要获得许可；引用本书的样例代码来解决一个问题不需要获得许可，使用本书的大量代码到你的产品文档中需要获得许可。
　　我们不要求你（引用本书时）给出出处，但是如果你这么做，我们对此表示感谢。出处通常包含标题、作者、出版社和ISBN。例如：“Beautiful Data, edited by Toby Segaran and Jeff Hammerbacher. Copyright 2009 O,Reilly Media, Inc., 978-0-596-15711-1.”。
　　如果你觉得你对本书样例代码的使用超出了这里给出的许可范围，请与我们联系：permissions@oreilly.com。
联系方式
　　如果您对本书有任何意见和问题，请联系出版社：
　　美国：
　　O,Reilly Media, Inc.
　　1005 Gravenstein Highway North
　　Sebastopol, CA 95472
　　中国：
　　北京市西城区西直门南大街2号成铭大厦C座807室（100035）
　　奥莱利技术咨询（北京）有限公司
　　O’Reilly的每一本书都有专属网站，你可以在那找到关于本书的相关信息，包括勘误列表、示例代码以及其他的信息。本书的网站地址是：
　　http://www.oreilly.com/catalog/9780596157111/
　　对于本书的评论和技术性的问题，请发送电子邮件到：
　　bookquestions@oreilly.com
　　关于本书的更多信息、会议、资料中心和网站，请访问以下网站：
　　http://www.oreilly.com
　　http://www.oreilly.com.cn

上架指导

计算机\程序设计

封底文字

“数据被证实好比下一代计算机应用的‘因特尔内核’。在本书中，各业界领袖描述了他们的项目如何通过新的方式来驾驭数据的力量。对于任何对未来关于数据和问题解决感兴趣的读者来说，本书是必读的佳作。”
——Tim O’Reilly, O’Reilly Media公司创始人兼CEO
探索数据的范围可以多么广泛，其工作可以多么美丽！通过这部个人故事集合，在这个领域的39个最佳数据实践者阐释了他们如何为各种项目开发简单优雅的解决方案，包括从火星着陆探测器到Radiohead视频的制作……在本书中，你将：
探索海量在线数据集时面临的内在机遇和挑战
学习如何使用地图和数据“混搭”方式对都市犯罪趋势进行可视化
发现“众包”和透明如何改进药物研究现状
理解当新的数据和之前存在的数据交叠时如何向用户发送警告
学习处理DNA数据的大规模基础设施
本书的作者包括：
Nathan Yau
　Jonathan Follett and Matt Holm
　J.M. Hughes
　Raghu Ramakrishnan, Brian Cooper, and Utkarsh Srivastava
　Jeff Hammerbacher
　Jason Dykes and Jo Wood
　Jeff Jonas and Lisa Sokol
　Jud Valeski
　Alon Halevy and Jayant Madhavan
　Aaron Koblin with Valdean Klump
　Michal Migurski
　Jeff Heer
　Coco Krumme
　Peter Norvig
　Matt Wood and Ben Blackburne
　Jean-Claude Bradley, Rajarshi Guha, Andrew Lang, Pierre Lindenbaum, Cameron Neylon, Antony Williams, and Egon Willighagen
　Lukas Biewald and Brendan O'Connor
　Hadley Wickham, Deborah Swayne, and David Poole
　Andrew Gelman, Jonathan P. Kastellec, and Yair Ghitza
　Toby Segaran

作者简介

（美）Toby Segaran；Jeff Hammerbacher 编：暂无简介

译者简介

祝洪凯李妹芳段炼译：暂无简介

译者序

我一直对数据挖掘很感兴趣，尤其是通过对海量、抽象甚至枯燥的数据进行挖掘分析后，利用数据可视化工具展现出来的那种绚丽多彩、富含意蕴的数据之美更是令我痴迷、叹为观止。本书涉及领域很广，各领域的精英们向我们娓娓道来相关领域的数据信息系统的架构的设计，包括Yahoo！的云存储架构、Deep Web数据抓取、Facebook的信息平台、自然语言处理、“凤凰号”火星探测器的图像数据处理、探索数据生命的DNA漫谈，甚至是Radiohead视频的制作、旧金山的次贷危机等。
　　阅读完本书之后，我自己的一个很大的收获是对于自己比较了解的领域，如云存储、Deep Web、NLP等有了进一步的理解和实践指导，而对于那些完全不熟悉的领域，如探索数据生命、火星探测器、制作Radiohead视频等则更是开阔了视野，不但对数据有了新的认识，而且激发了思考问题的一些新的思维方式。
　　这本书令我很感怀的另一方面是，我发现这些“数据科学家”在兢兢业业构建平台处理数据的过程中，虽然遇到了很多困难和挑战，但是却依然如此坚持、执着地探索数据之美。在翻译本书过程中，这种激情不仅激励着我完成这本书的翻译，同时也激励着我在生活、工作中要有毅力和恒心。而纵观我身边的阿里巴巴云计算的同事们 —— 这些“阿里数据科学家”们，也无一不是那种永远充满着激情致力于我们的“飞天”梦想！
　　这是我翻译的第一本书，很感激机械工业出版社华章分社编辑陈冀康先生慷慨地引我入门，并且对因为我前段时期项目开发非常紧张而导致翻译进度几乎停滞的宽容和理解表示深深感激。感谢所有其他为本书付出努力的人们。
　　由于时间和精力有限，本书的疏漏、错误之处在所难免，还望各位读者不吝批评指正。
李妹芳
2010年6月26日

图书目录

前言 1
第1章在数据中观察生活 5
Nathan Yau
个人环境影响报告（PEIR） 6
your.flowingdata (YFD) 7
个人数据收集 7
数据存储 9
数据处理 10
数据可视化 11
要点 19
如何参与 19
第2章美丽的人们：设计数据收集方法时牢记用户 21
Jonathan Follett和Matthew Holm
简介：用户共鸣正当其时 21
项目：关于一个新奢侈品的用户调查 23
数据收集面临的特殊挑战 23
设计解决方案 25
结论和反思 35
第3章火星上的嵌入式图像数据处理 39
J. M. Hughes
摘要 39
简介 39
一些背景 41
数据是否打包 44
三个任务 45
对图像切槽 47
传递图像：三个任务间的通信 50
获取图片：图像下载和处理 51
图像压缩 54
“下行”或一切都从这里向下传输 55
结束语 56
第4章 PNUTShell中的云存储设计 59
Brian F. Cooper、Raghu Ramakrishnan和Utkarsh Srivastava
简介 59
更新数据 61
复杂查询 68
和其他系统的比较 72
结论 75
致谢 75
参考文献 75
第5章信息平台和数据科学家的兴起 77
Jeff Hammerbacher
图书馆和大脑 77
Facebook 具有了“自知之明” 78
商业智能系统 79
数据仓库的消亡和重起 80
超越数据仓库 81
“猎豹”和“大象” 82
不合理的数据有效性 84
新工具和应用研究 85
MAD技术和Cosmos 86
作为数据空间的信息平台 86
数据科学家 87
结论 88
第6章照片档案的地理之美 89
Jason Dykes和Jo Wood
数据之美：Geograph项目 90
可视化、美丽和树形图 93
Geograph在使用条款上的观点 95
发现之美 102
反思和结论 105
致谢 105
参考文献 106
第7章　数据发现数据 109
Jeff Jonas和Lisa Sokol
简介 109
实时发现的好处 110
赌桌上的舞弊 111
企业的可发现性 114
目录：无价之宝 116
相关性：什么是重要的以及对谁重要 118
各个组件及特殊考虑 119
隐私考虑 121
结束语 122
第8章　实时的可移动数据 123
Jud Valeski
简介 123
前沿技术 124
社交数据规范化 132
结束语：通过Gnip思考 135
第9章探寻Deep Web 137
Alon Halevy和Jayant Madhaven
什么是Deep Web 137
提供Deep Web访问的其他可选方案 139
结论 150
参考文献 150
第10章构建Radiohead的“House of Cards” 153
Aaron Koblin和Valdean Klump
这一切是如何开始的 153
数据捕捉设备 155
两种数据捕捉系统的优点 158
数据 159
捕捉数据，即“拍摄” 159
处理数据 164
后期数据处理 164
发布视频 165
结束语 168
第11章都市数据可视化 171
Michal Migurski
引言 171
背景 172
解决棘手问题 173
公开数据 178
重新回顾 182
结束语 184
第12章 Sense.us的设计 187
Jeffrey Heer
可视化和社会数据分析 188
数据 190
可视化 192
协作 198
“向导”和“偷窥” 202
结论 206
参考文献 207
第13章数据所做不到的 209
Coco Krumme
何时数据无法驱动 212
结束语 221
参考文献 221
第14章自然语言语料库数据 223
Peter Norvig
分词 224
密码 232
拼写纠正 238
其他任务 244
讨论和结论 245
致谢 246
第15章数据中的生命： DNA漫谈 247
Matt Wood和Ben Blackburne
用DNA存储数据 247
DNA作为数据源 254
搏击数据洪流 257
DNA的未来 261
致谢 261
第16章美化真实世界中的数据 263
Jean-Claude Bradley、Rajarshi Guha、Andrew Lang、Pierre Lindenbaum、Cameron Neylon、 Antony Williams和Egon Willighagen
关于真实数据的问题 263
提供可以追溯到记录本的原始数据 264
验证开放来源数据 266
在线发布数据 267
结束循环：采用可视化技术启发新实验 274
在开放数据和免费服务下建立数据网络 277
致谢 280
参考文献 280
第17章数据浅析：探索形形色色的社会定型 281
Brendan O’Connor和Lukas Biewald
引言 281
预处理数据 282
探索数据 284
年龄、魅力和性别 287
观察标签 292
哪些单词具有性别化 296
聚类 298
结论 302
致谢 302
参考文献 302
第18章旧金山海湾区之殇：次贷危机的影响 305
Hadley Wickham、Deborah F. Swayne和David Poole
引言 305
我们是如何获取数据的 305
地理编码 307
数据检查 307
分析 308
通货膨胀的影响 308
富者更富，穷者更穷 310
地理区别 312
人口普查信息 314
探索旧金山 317
结论 322
参考文献 323
第19章美丽的政治数据 325
Andrew Gelman、Jonathan P. Kastellec和Yair Ghitza
实例1：重新划分选区和党派偏好 326
实例2：估计的时间序列 327
实例3：年龄和选举 329
实例4：关于最高法院被提名人的公众舆论和参议院选票 330
实例5：宾夕法尼亚州的本地党派 332
结论 333
参考文献 334
第20章连接数据 335
Toby Segaran
实际上到底存在哪些公共数据 336
连接数据的可能性 337
企业内部 338
连接数据的障碍 339
可能的解决方案 343
集体调解 344
结论 348
附录作者简介 349