首页>参考读物>计算机科学与技术>计算机文化用品

图分析与可视化:在关联数据中发现商业机会
作者 : [美]理查德·布莱斯(Richard Brath) 大卫·琼克(David Jonker) 著
译者 : 赵利通 译
出版日期 : 2016-03-17
ISBN : 978-7-111-52692-6
定价 : 119.00元
扩展资源下载
扩展信息
语种 : 简体中文
页数 : 334
开本 : 16
原书名 : Graph Analysis and Visualization: Discovering Business Opportunity in Linked Data
原出版社: John Wiley & Sons(USA)
属性分类: 店面
包含CD :
绝版 : 未绝版
图书简介

本书通过详细的示例、样本数据集、代码和图形教程,说明了如何:
? 为每个问题使用合适类型的图
? 快速、高效且正确地收集、清洗和组织数据
? 为高可读性设置可视化格式,而不损失精确性
? 掌握允许更深入地探索和解释数据的工具
? 使用少量轻量级编程创建自定义可视化
? 选择有效的图分析技术来从数据中提取出最多信息
? 使用高级的可视化技术,包括动态图、大数据工具和查询

图书特色

本书将图与网络理论从实验室带到真实的世界中,深入探讨如何应用图和网络分析技术发现新业务和商业机会,并介绍了各种实用的方法和工具。作者Richard Brath和David Jonker运用高级专业知识,从真正的分析人员视角出发,通过体育、金融、营销、安全和社交媒体等领域引人入胜的真实案例,全面讲解创建强大的可视化的过程。
书中不仅介绍了模式识别和各种数据源(包括大数据)的使用,还详细讲解了如何使用不同的软件、工具和编程语言,包括Gephi、Cytoscape、yEd、Excel和D3.js等。本书的配套网站提供各章涉及的数据集、Python示例源代码等。通过阅读本书,你将学习如何对自己拥有的数据执行网络分析、使用图论的数学元素来提取有价值的见解,以及使用可视化设计技术来更好地向决策者表达信息。

本书通过详细的示例、样本数据集、代码和全彩图片,说明了如何:
为每个问题使用合适类型的图
快速、高效且正确地收集、清洗和组织数据
为高可读性设置可视化格式,而不损失精确性
掌握允许更深入地探索和解释数据的工具
使用少量轻量级编程创建自定义可视化
选择有效的图分析技术来从数据中提取出最多信息
使用高级的可视化技术,包括动态图、大数据工具和查询

作者简介

Richard Brath
数据可视化的积极实践者和先行者,为一些世界级大公司和顶级软件供应商提供数据可视化和视觉分析方面的研究、设计、开发服务。他创建的解决方案范围很广,从用于移动设备的丰富的交互式可视化,到用于商业应用的多点触控、多屏幕装置以及基于Web的分析可视化。

David Jonker
Uncharted(原来的Oculus Info Inc)公司的联合创始人和高级合伙人。他既是设计师也是开发者,为基于Web的、分布式的、桌面的和移动的应用设计可视化分析工具和平台。他曾为位于时代广场的NASDAQ MarketSite实时广播中心创建可视化产品,目前是DARPA XDATA项目的带头人,开发一些新的工具和技术来帮助理解大数据。

图的作用是表示两种事物之间的连接,揭示数据中关系的结构和本质。关系是理解事物“为什么”以及“如何做到”的基础,这也是图分析和可视化具有巨大价值潜力的原因之一。图的应用是一种独特而宝贵的资源,可以将商业中的数据串点成线,形成深刻的认识来指导行动。本书由资深数据可视化专家撰写,全面、系统地讲解图分析与可视化的有效原则与技术,并详细介绍如何把图的可视化与分析应用到商业中。
全书分为四部分,共16章。第一部分(第1章和第2章)概述图的概念、类型及其在各领域的应用;第二部分(第3~8章)详细讲解如何获取原始数据,并将其转换为对图形数据集进行的富有洞察力的交互分析;第三部分(第9~13章)讨论不同类型的图及其适用的分析;第四部分(第14~16章)探讨图技术和工具研发的最前沿,以及图设计的核心原则。

图书前言

本书将介绍如何把图的可视化与分析应用到商业中。图的应用是一种独特而宝贵的资源,可用于从数据中发现有价值的信息。近年来,世界上一些最具创新力公司内部的分析人员开始积极探索基于图的方法,以更深入地理解他们工作的动态,同时发现可以提高业绩的机会和策略。
随着可用数据的量、种类和速度都在增长,对帮助理解数据的方法和技术的需求也在增长。各种组织已经强烈感受到简单的仪表板风格图表的局限性。仪表板擅长显示指标和趋势,可以告诉你公司哪些部门在什么时候比其他部门表现得更好或更差,但是不能告诉你为什么会这样,而理解“为什么”是采取有效行动的关键。
图的作用是表示两种事物之间的连接,揭示数据关系的结构和本质。关系是理解事物的“为什么”以及“如何做到”的基础,这也是图分析和可视化具有巨大价值潜力的原因之一。
本书作者回顾过去20多年为商业和情报分析人员设计与构建新应用的经历,意识到图已经在许多解决方案中扮演了一种角色。如今,我们的一些最重要的研究和软件开发工作在本质上都是基于图的。
然而,尽管图十分有用,但在科学界以外却很少有图的应用,关于图设计的作品就更少了。随着开源图工具和库的能力在近期不断发展,图已经可被每个商业分析师使用,但是关于图的分析与可视化的有效原则与技术的知识,仍然只有少数人知道。我们撰写这本书的目的就是为了帮助改变这种情况。
本书目标读者
本书针对的是希望知道如何将图分析应用到决策相关问题的数据科学家和分析人员。本书中的示例取自商界,但是使用的原则与技术也可用于政府机构和非营利组织。
读者不需要具有关于图论及其实践的知识。新接触图分析的读者可以从头到尾阅读本书,这样更有帮助。有经验的读者可以选择跳到第Ⅲ部分中感兴趣的主题,该部分详细讨论了分析主题。
本书的一些例子包含少量的编程,但是大部分示例应用都使用鼠标点击类工具。对于这两种情况,都需要有一定程度的技术能力。
本书结构
本书包含4个部分。第一部分对图的主题进行了概述。剩余章节逐渐讲解更加具体或者高级的主题。第3~10章由Richard Brath撰写,其他章节由David Jonker撰写。
第I部分:在本书的第一部分中,作者概述了图在商业中的应用,并介绍了各种类型的图(第3章进行了详细描述)。
第II部分:本书的第二部分全面探讨了图的可视化与分析过程的主要步骤。
第III部分:本书的第三部分讲解了不同的分析主题及与之相关的图类型与技术。
第IV部分:本书的第四部分关注高级主题(仍在不断研究中的领域),以及根本的设计原则。
下载材料
本书为各章的示例提供了在线的数据文件、源代码包和图可视化文件,并按章将这些补充材料组织起来。查看或者运行这些文件所需的软件在每章的示例中进行了描述。下载文件中包含以下内容:
数据文件:大多数数据文件以通用格式提供,例如文本(.txt)或逗号分隔值(.csv),可以直接读入图软件或者被程序使用。在一些情况中,会有两个文件,一个是节点文件,另一个是边(即节点之间的连接)文件。在其他情况中,以图特定的文件格式来提供图数据文件,例如.gdf或.graphml。这些是许多图工具能够直接导入的格式。
Excel文件:有一些文件是扩展名为.xls或.xlsx的Excel电子表格示例。这些文件需要使用Microsoft Excel运行。
图可视化文件:一些示例还包含图可视化文件,例如.gephi或.cys。这些文件与特定的图可视化软件关联,例如这两种文件分别与Gephi和Cytoscape关联。要查看这些文件,必须首先下载并安装免费的图可视化软件包。具体细节下一节将进行介绍。
Python代码:编程示例使用了Python语言。这些程序文件的扩展名为.py。Python示例中使用的是Python 3.x版本,要求下载并安装Python。具体细节下一节将进行介绍。
HTML和JavaScript:使用JavaScript的示例通常是包含JavaScript的网页文件,扩展名为.html。这些文件在标准的现代Web浏览器中就可以运行,例如最新版本的Chrome或Firefox。
示例中用到的工具
本书使用了众多工具来处理数据或可视化数据。为了使用前面列出的数据文件,需要有下列软件。
Gephi:Gephi(https://gephi.github.io/)是终端用户使用的一个免费的鼠标点击类软件,本书中的许多图可视化示例都用到了这个工具。许多数据文件都可以导入到Gephi中进行分析和可视化。第7章以第3章~第6章描述的基本图分析过程为基础,讨论了Gephi的一些功能。
Cytoscape:Cytoscape(www.cytoscape.org/index.html)是另外一个免费的、供终端用户使用的图分析软件工具,也用在了本书的许多示例中。许多数据文件也可以导入到Cytoscape中进行分析和可视化。第7章讨论了Cytoscape的一些功能,并说明了Gephi与Cytoscape之间的一些区别。
yEd:yEd(www.yworks.com/en/products/yiles/yed/)也是一个免费的、供终端用户使用的鼠标点击类软件产品,由yWroks开发,用于图的分析与可视化。
Excel:有几个示例中用到了Microsoft Excel(http://products.office.com/en-us/excel)电子表格。Excel不是免费的,但是大部分读者应该已经安装了该软件,而Microsoft也允许下载该软件,并评估试用一段时间。有几个例子还使用了Excel的NodeXL插件。
NodeXL:Excel允许开发人员创建插件来访问并增强Excel的功能。NodeXL(http://nodexl.codeplex.com/)为社交网络数据获取提供了图功能,还提供了图的分析与可视化功能。
Python:为了通过编程操纵数据,一些示例中使用了Python 3(https://www.python.org/)编程语言。Python可以免费获取。
一个现代浏览器:虽然任何现代的Web浏览器都应该能够查看JavaScript/HTML示例,不过作者们使用的浏览器是Chrome(https://www.google.com/intl/en_us/chrome/browser/)。
D3.js:D3(http://d3js.org/)是用于在浏览器中创建多种交互式数据可视化的一个JavaScript库,第8章等地方就使用了D3。
Aperture JS:Aperture JS(http://aperturejs.com/)是本书后半部分(例如第12章)的一些示例中使用的一个JavaScript框架库。
Titan:第14章的几个大数据示例中使用了Titan(http://thinkaurelius.github.io/titan/)图数据库。
要使用这些软件库和工具,需要自己下载并安装它们,不过JavaScript库(D3.js和Aperture JS)是例外,它们已经与下载示例打包在一起,可从前面提到的本书配套网站上下载。
注意事项
本书的各个章节使用案例分析来演示图的各种应用与形式,以及如何使用图。在可能的地方,演示使用了真实的工具和真实的数据。对于这些情况,有几点需要牢记在心。
虽然作者使用的是开源工具,任何人都可以免费获得这些工具,但是其中的许多工具仍然处在开发当中,因而缺少最终成品的一些光彩与健壮性。需要知道,格外耐心有时候是早期采用一个产品所要付出的代价。将本书中与工具相关的步骤视为一个过程的一般指导原则。如果用户界面看上去与书中的描述不完全相同,则要在更新的界面中找到对应的选项。如果找不到,快速地在网上搜索通常足以帮助你找到你要寻找的东西。
另外要记住的一点与要分析的数据有关。像本书这类图书依赖于公共数据集。虽然近年来将公司数据集开放给公众,以发展分析与可视化的艺术与科学的行动有了巨大的进展,但是私有的数据集始终更加庞大、更加丰富。虽然本书中的分析对于使用的数据是正确的,但是很多时候这些数据只是公司网络内的数据的样本。将本书的分析当做一种模板方法,在你的全部数据处理中可以照用它们。
约定
为了帮助你最大程度地理解文字内容,并跟上内容进度,本书中采用了一些约定。
警告 警告框中包含重要的、不能忘记的信息,这些信息与警告框周围的内容有直接关系。
注意 注意框指出了一些注意事项、提示、暗示、技巧或者题外话。
提示 提示框提供了能够帮助掌握所讨论信息的提示或者技巧。

上架指导

计算机科学/大数据分析与处理

封底文字

本书将图与网络理论从实验室带到真实的世界中,深入探讨如何应用图和网络分析技术发现新业务和商业机会,并介绍了各种实用的方法和工具。作者Richard Brath和David Jonker运用高级专业知识,从真正的分析人员视角出发,通过体育、金融、营销、安全和社交媒体等领域的引人入胜的真实案例,全面讲解创建强大的可视化的过程。
书中不仅介绍了模式识别和各种数据源(包括大数据)的使用,还详细讲解了如何使用不同的软件、工具和编程语言,包括Gephi、Cytoscape、yEd、Excel和D3.js等。本书的配套网站提供各章涉及的数据集、Python示例源代码等。通过阅读本书,你将学习如何对自己拥有的数据执行网络分析、使用图论的数学元素来提取有价值的见解,以及使用可视化设计技术来更好地向决策者表达信息。
本书通过详细的示例、样本数据集、代码和全彩图片,说明了如何:
 为每个问题使用合适类型的图
 快速、高效且正确地收集、清洗和组织数据
 为高可读性设置可视化格式,而不损失精确性
 掌握允许更深入地探索和解释数据的工具
 使用少量轻量级编程创建自定义可视化
 选择有效的图分析技术来从数据中提取出最多信息
 使用高级的可视化技术,包括动态图、大数据工具和查询

作者简介

[美]理查德·布莱斯(Richard Brath) 大卫·琼克(David Jonker) 著:暂无简介

译者简介

赵利通 译:暂无简介

图书目录

前言
作者简介
第I部分 概述
第1章 为什么使用图  2
1.1 商业中的可视化  3
1.2 商业中的图  4
1.2.1 找出反常现象  5
1.2.2 管理网络和供应链  7
1.2.3 辨别风险模式  9
1.2.4 优化资产组合  11
1.2.5 绘制社会等级分层图  13
1.2.6 发现社区  15
1.3 图的现状  16
1.4 小结  17
第2章 图的类型及其适用的问题  18
2.1 关系  18
2.2 分层  21
2.3 社区  23
2.4 流  27
2.5 空间网络  30
2.6 小结  32
第Ⅱ部分 过程和工具
第3章 数据:收集、清洗和连接  35
3.1 了解目标  35
3.2 收集:识别数据  35
3.2.1 潜在的图数据源  36
3.2.2 潜在的分层数据源  41
3.2.3 获取数据  43
3.3 清洗:准备数据  44
3.4 连接:组织图数据  45
3.4.1 计算图  46
3.4.2 图数据的文件格式  48
3.5 集中回顾  54
3.6 小结  54
第4章 统计数据和布局  55
4.1 基本的图统计数据  55
4.1.1 大小(节点数和边数)  55
4.1.2 密度  56
4.1.3 成分数  56
4.1.4 度和路径  56
4.1.5 中心度  58
4.1.6 病毒式营销示例  59
4.2 布局  60
4.2.1 节点–连接布局  60
4.2.2 其他布局  61
4.2.3 力导向布局  62
4.2.4 仅节点布局  66
4.2.5 时间布局  67
4.2.6 自顶向下和其他正交分层  68
4.2.7 辐射状分层  71
4.2.8 地理布局和地图  72
4.2.9 弦图  74
4.2.10 邻接矩阵  74
4.2.11 树图  76
4.2.12 分层饼图  76
4.2.13 平行坐标  77
4.3 集中回顾  79
4.4 小结  79
第5章 视觉特性  80
5.1 基本视觉特性  81
5.2 关键的节点特性  82
5.2.1 节点大小  82
5.2.2 节点颜色  84
5.2.3 标签  87
5.3 关键的边特性  91
5.3.1 边的权重  91
5.3.2 边的颜色  91
5.3.3 边的类型  92
5.4 组合基本特性  93
5.5 捆绑、形状、图片及更多  94
5.5.1 捆绑边  94
5.5.2 形状  95
5.5.3 节点图片  95
5.5.4 节点边框  96
5.5.5 更多特性  97
5.5.6 干扰与分隔  97
5.6 集中回顾  101
5.7 小结  101
第6章 探索和解释  102
6.1 探索、解释和导出  102
6.2 必要的探索性交互  104
6.2.1 缩放和摇动(以及比例缩放和旋转)  105
6.2.2 识别  106
6.2.3 过滤器  107
6.2.4 隔离和重做布局  109
6.3 更多交互式探索  110
6.3.1 识别邻近节点  111
6.3.2 路径  111
6.3.3 删除  112
6.3.4 分组  112
6.3.5 迭代分析  114
6.4 解释  114
6.4.1 数据故事的顺序  115
6.4.2 图例  116
6.4.3 注释  116
6.4.4 导出数据子集、图和图片  118
6.5 集中回顾  119
6.6 小结  120
第7章 鼠标点击类图工具  121
7.1 Excel  121
7.1.1 汇总连接  122
7.1.2 提取节点  122
7.1.3 Excel中的邻接矩阵可视化  123
7.2 NodeXL  125
7.2.1 NodeXL基础  125
7.2.2 社交网络功能  127
7.3 Gephi  129
7.3.1 Gephi基础  129
7.3.2 注意事项  131
7.4 Cytoscape  133
7.4.1 Cytoscape基础  133
7.4.2 将数据导入Cytoscape  134
7.4.3 视觉特性  135
7.4.4 Apps菜单  139
7.5 yEd  139
7.6 小结  141
第8章 轻量级编程  143
8.1 Python  143
8.1.1 上手  143
8.1.2 清洗数据  144
8.1.3 从连接数据集中提取节点集合  145
8.1.4 将电子邮件数据转换为图  149
8.1.5 图数据库  154
8.2 JavaScript与图的可视化  155
8.2.1 D3基础  155
8.2.2 D3和图  160
8.2.3 D3弹簧图  169
8.3 小结  174
第Ⅲ部分 图的可视化分析
第9章 关系  176
9.1 连接和关系  176
9.1.1 诈骗索赔中的相似性  177
9.1.2 网络安全  179
9.2 电子邮件关系  181
空间分隔  181
9.3 演员与电影  184
9.4 将连接转换为节点  186
9.5 小结  188
第10章 分层  189
10.1 组织结构图  189
10.2 树与图  191
10.3 绘制分层  193
10.4 决策树  198
10.5 网站树及有效性  200
10.6 小结  203
第11章 社区  204
11.1 社区的定义特征  205
11.2 图聚类  205
11.2.1 社交网络案例分析  206
11.2.2 使用NodeXL和Gephi分析社交媒体  206
11.2.3 可聚类的布局  208
11.2.4 使用颜色描述簇的特征  210
11.2.5 社区发现  211
11.2.6 使用颜色来区分簇  212
11.2.7 社区话题分析  214
11.2.8 社区情感  216
11.3 团伙和其他组  219
11.3.1 社交媒体中的团伙  220
11.3.2 使用凸包的社区组  220
11.4 小结  223
第12章 流  224
12.1 桑基图  225
12.2 构造一个桑基图  229
12.2.1 创建页面结构  229
12.2.2 处理和建模数据  230
12.2.3 可视化数据  231
12.2.4 高亮显示通过节点的流  233
12.3 使用流的社区布局  235
12.4 弦图  237
12.5 构造一个弦图  238
12.5.1 准备数据  238
12.5.2 创建页面结构  239
12.5.3 处理和建模数据  240
12.5.4 可视化数据  243
12.5.5 根据需要显示交互细节  247
12.6 行为因子树  248
12.7 小结  249
第13章  空间网络  250
13.1 示意图布局  250
13.2 小世界分组  255
13.3 连接玫瑰汇总  255
13.4 路线模式  263
13.4.1 可视化路线段  264
13.4.2 轨迹聚合  267
13.5 小结  268
第IV部分 高级技术
第14章 大数据  270
14.1 图数据库  271
14.1.1 产品营销示例  271
14.1.2 创建和填充一个图数据库  273
14.2 图查询语言  275
14.2.1 使用Gremlin进行图查询  276
14.2.2 使用图查询来提取邻域  278
14.3 分析邻域  281
14.4 绘制网络活动  287
14.5 社区可视化  289
14.6 小结  290
第15章 动态图  291
15.1 图的变化  291
15.1.1 有机动画  292
15.1.2 完整时间跨度布局  293
15.1.3 重影  295
15.1.4 淡出  296
15.1.5 社区演化  297
15.2 交易图  298
15.2.1 聚类交易分析  299
15.2.2 空间交易分析  304
15.3 小结  305
第16章 设计  307
16.1 节点  307
16.1.1 节点的形状  308
16.1.2 节点大小  313
16.1.3 节点标签  314
16.2 连接  314
16.3 颜色  318
16.4 小结  320
图论术语表  322

教学资源推荐
作者: [澳大利亚] 拉库马·布亚(Rajkumar Buyya)[爱沙尼亚] 萨蒂什·纳拉亚纳·斯里拉马(Satish Narayana Srirama) 等编著