首页>参考读物>计算机科学与技术>综合

可视化分析与SAS实现
作者 : 朱继辉 刘政 窦运涛 邱威 著 夏坤庄 审校
丛书名 : SAS核心技术丛书
出版日期 : 2018-07-09
ISBN : 978-7-111-60407-5
定价 : 69.00元
扩展资源下载
扩展信息
语种 : 简体中文
页数 : 248
开本 : 16
原书名 :
原出版社:
属性分类: 店面
包含CD : 无CD
绝版 : 未绝版
图书简介

本书共分8章。前两章主要是介绍可视化分析的基本概念和技术。第3章到第6章涉及整个数据分析的生命周期。第3章介绍数据管理;第4章介绍了报表的制作;第5章介绍商务智能分析;第6章介绍统计分析和数据建模。最后两章是可视化的基本应用。第7章介绍可视化反欺诈方面的内容;第8章介绍可视化的企业级部署。

图书特色

从现实到数据,从数据到看见,从看见到实现!大数据时代的“零起点”教科书。
资深SAS专家系统全面阐述SAS可视化分析技术的理论和实践,结合大量的案例展现SAS可视化分析产品解决商业问题和实施商业项目。

可视化分析与
SAS实现
朱继辉  刘政  窦运涛  邱威  著

图书前言

比利时的佛兰芒族地理学家和地图学家亚伯拉罕·奥特柳斯,在研究了一个世纪以来环球旅行探险家们撰写的资料后,于1570年在比利时的安特卫普绘制了世界上第一张现代地图集《世界概貌》,即把各种地理上的复杂数据通过图示的方法展示给人们。26年后,奥特柳斯提出了“大陆漂移学说”的设想。后来,我们还可以在地图上显示人口分布数据,世界宗教分布,世界人民喜欢什么运动的分布,到今天的网民的分布,各国人民喜爱的网站分布,各种调研统计的数据分布,等等。
1812年夏,俄法战争爆发,拿破仑开始进攻俄国,在战争中遭受了灾难性损失,1813年以失败告终。法国工程师Charles Joseph Minard于1869年11月20日,在巴黎创作完成了一张在信息图界有里程碑地位的“拿破仑1812—1813年俄国大进军的人员损失图”。信息图以真实地图为背景,起于波兰–俄国边境,止于莫斯科。他在图中使用了6个变量的数据:拿破仑军队的数量、行军路线、气温、地理位置、行军到特定地点的时间和距离。线条宽度代表拿破仑的军队人数,黄色表示进攻路线,黑色表示撤退的路线。开始东征时有约42万大军,到达莫斯科时剩余约10万人,最终返回约1万多人。图中下面部分的温度折线图描绘了撤退途中的温度变化,最低温度达到-37.5摄氏度。 对比军队规模在撤退途中的阶梯状锐减的转折点与对应的温度变化,排除了当地发生过战役事件后,我们可以直观地推断出撤退时导致士兵死亡的最大原因是气温。
这两张图是数据可视化的经典案例。通过一张图,就把无数的数据汇集在一起,将数据之间的各种联系直观地展示出来,从而揭示出了很多内在的含义。想象一下在当时的环境下,完全用手工的方式把如此多的代表不同维度的数据按照一定的构思汇集在一起,是何等烦琐、艰难、耗时。
20世纪60年代人类就实现了用计算机来做统计分析运算,但是到了80年代才实现了计算机的图形化显示、可视化的数据展示。这也仅仅是在数字列表的基础上增加了显示简单图形的功能。到了21世纪,计算机技术和互联网技术获得了长足的发展,各种应用也越趋广泛,特别是电子商务、社交媒体、移动应用和ERP的广泛应用,极大地促进了数据的增长,而且数据的种类繁多,非结构化的数据占主要分量,由此对数据分析的能力提出了前所未有的挑战。为了应对这些挑战,人们发明了存储这些数据的平台Hadoop, 处理大量数据的高性能分析技术,开发了新的模型和算法处理非结构化数据,用新的计算机图形学技术与模型来展示它们各种内在的关系。我们可以看到,今天我们对统计分析软件的要求与过去已经有了很大的区别。那么这些区别包括哪些内容呢?
传统的统计分析软件主要是分析结构化的数据,这些数据都是存储在关系数据库、纯文本、Excel等文件中。今天数据种类以非结构化的数据偏多,而且过去的关系数据库已经无法存储这些数据,无论是存储数据量上,还是数据种类上都无法满足要求。Hadoop既支持分布式存储,又支持非结构化数据存储。因此,我们新的统计分析软件不但要支持传统的数据存储软件,也要支持Hadoop。
过去要分析的数据量相对来说都比较小,计算时间基本上是可以接受的(即使需要花费几个小时)。但是,今天的数据量有时候几天都不一定能计算出结果来。这就要求我们在计算技术上有新的突破。SAS使用了网格分布式计算技术,把计算步骤和数据都分成块,用不同的计算器件,不同的CPU多线程地进行计算,然后把结果合起来;用库内分析技术,把对数据的分析计算放到数据库内来进行,减少了对数据的提取和传输过程;用内存分析技术,把由硬盘读取和存放数据的过程改到了由内存读取和存放数据。这三项技术中的任何一项都可以极大地提高数据分析速度,三项技术合而为一,可以获得震撼性的效果,使得实时分析成为可能。过去的数据量小,很容易查看,了解数据属性。要查看今天的数据就要困难许多,我们将这一过程称为数据探索。探索的过程,不仅仅是翻看数据,还要试探性地做一些分析结果的展示,整个的探索过程要流畅,不能有明显的延迟。现在的高性能分析技术完全可以做到。
传统统计分析展示的图表通常都是饼图、直方图、折线图、散点图、柱状图、箱式图、仪表盘等。虽然这些图表也是人们经常会用到的图示,但是如今已经远远不够了。今天的可视化技术还可以展示流程图、衍生分支图、气泡图、矩形树图、面积图、树状图、各种地图、词云、瀑布图、漏斗图、网络结构图等种类繁多的图形,以满足不同的展示和分析需求。
SAS作为统计分析软件的领导者,早在2012年就发布了可视化分析软件“Visual Analytics”,简称VA。2016年,SAS又推出了Viya,新一代的云上数据分析平台,而VA成为所有在Viya上运行的行业解决方案的模板。VA是基于高性能分析技术的,支持Hadoop,其可视化功能涵盖了整个数据分析的全生命周期,并且简单、易用,给用户带来全新的数据分析体验。VA还提供了21种可视化视图和分析方法,支持对结构化、半结构化和非结构化数据的可视化分析,支持多用户的信息共享和移动技术。SAS在高级分析领域占有绝对的领先地位,因此,VA不仅支持普通商务智能级别的分析,还支持高级分析,就是支持全级别的数据分析,这也是SAS可视化分析产品与其他厂家不一样的地方。
本书比较全面地介绍了可视化分析的基本概念、技术组成和产品的架构。通过本书的学习,读者除了可以了解可视化的知识以外,还可以学习可视化分析的基本方法。本书特别适合于那些希望通过简洁、快速的方法就能够进行数据管理,进行数据探索;无须写代码就能进行数学建模;设计各种实用报表方便决策的数据分析人员和相应的管理人员。对于进入数据分析的初级人员,本书也是一本不错的指南。
本书共8章。前两章主要介绍可视化分析的基本概念和技术。第3~6章涉及整个数据分析的生命周期。第3章介绍数据管理;第4章介绍了报表的制作;第5章介绍商务智能分析;第6章介绍统计分析和数据建模。最后两章是可视化的基本应用。第7章介绍可视化反欺诈方面的内容;第8章介绍可视化的企业级部署。
本书的完成,来自于整个创作团队的辛勤耕作。大家利用自己的休息时间,一遍一遍地查阅资料,构思内容,完成配图,才使得本书得以和各位读者见面。在这里我要衷心地感谢大家的付出和各位家庭的支持。感谢那些以各种方式为本书的完成提供了帮助的同事和朋友。
SAS公司在过去的40多年里,为行业贡献了各种里程碑式的产品,包括我们在书中要给大家介绍的可视化分析产品。在这里我们要感谢SAS公司开发的优秀产品,感谢公司提供的工作学习环境和各种资料,以及对出版本书的支持。
最后,要特别感谢机械工业出版社华章分社的编辑们。感谢他们对于本书出版的指导和帮助。

刘政  
2018年5月于北京

上架指导

计算机\数据挖掘

封底文字

在计算机诞生之前,数据的可视化行为就已经应用在各个领域中,如等高线图、磁力线图、天像图等。如今的大数据时代,面对错综复杂、形式多样、规模庞大的数据,如何利用计算机的强大运算能力快速提取商业信息?如何将统计分析和预测建模的方法应用在数据挖掘中?如何使用立体的、动态的、实时的、交互的等多种方式来展现复杂的科学模型?这些成了众多数据分析师希望了解和掌握的内容。SAS作为全球顶级数据分析的领导者,融合多个领域的专业人士协同工作,开发了强有力的大数据可视化产品,帮助企业深入挖掘大数据中的商业价值。本书通过介绍SAS可视化分析家族产品的商业应用来探讨其中的答案。同时,本书还会通过案例阐述SAS的可视化分析技术,以及商业实施中的部署和应用。
本书的主要内容和特色:
? 理论与丰富多彩的实例相结合。本书从可视化分析的概念讲起,从理论和实践两方面介绍了可视化分析每一个层次是如何实现的,并且都配合实际案例介绍SAS可视化分析的实践。书中各章节内容都相对独立,从业人员和相关读者可以根据自身需要,通读或精度某一部分。
? 内容新颖。本书提出的可视化分析不同于其他侧重于报表分析和数据查询的可视化分析。本书重点在于讲述如何进行分析,并且首次介绍了SAS可视化分析解决方案的实际应用和实施架构,使读者不仅对可视化分析的概念有了全面清晰的认知,并且充分了解SAS可视化分析在实际项目中的实践。
? 可读性好。本书能让读者在较短时间内系统掌握SAS可视化分析软件的基本知识,以及如何利用SAS的可视化分析软件进行商业实施。通过对本书的学习,读者可以独立地在SAS的相关领域进行深入研究和提高。
? 实用性强。本书总结和归纳了多年商业实施中的经验,以实际案例帮助读者掌握各种工具、面板和操作的使用方法,应对实际工作需要,快速学以致用。

图书目录

前言
第1章 可视化分析概论 1
1.1 可视化分析的意义 1
1.2 数据可视化分析兴起的背景 3
1.3 数据分析的可视化与分析的不同层次 4
1.3.1 数据获取与数据转换 4
1.3.2 高级分析与模型开发 5
1.3.3 分析结果展现与模型应用 5
1.4 可视化分析面临的挑战与应对 6
1.4.1 可视化分析面临的挑战 6
1.4.2 SAS的可视化分析实现 7
1.5 本章小结 9
第2章 SAS可视化分析技术概述 10
2.1 SAS数据可视化分析的平台基础 10
2.2 SAS可视化分析家族成员、主要功能和相互联系 11
2.2.1 SAS可视化分析 12
2.2.2 SAS 可视化统计 13
2.2.3 SAS 可视化调查 14
2.2.4 SAS可视化数据挖掘和机器学习 15
2.2.5 相互联系 16
2.3 SAS可视化分析功能概述 17
2.3.1 数据导入 17
2.3.2 数据处理 18
2.3.3 数据分析 18
2.3.4 基于Web的报表设计 22
2.4 SAS数据可视化分析的展望 24
2.5 本书内容概述 24
2.6 本章小结 24
第3章 SAS Visual Analytics的数据访问和准备 25
3.1 认识数据源 26
3.1.1 单一文件类型 26
3.1.2 数据库和大数据存储 27
3.2 使用Administrator管理LASR服务器 27
3.2.1 创建LASR服务器 29
3.2.2 创建并配置HDFS目录 32
3.2.3 启动LASR服务器 33
3.2.4 加载单一SAS数据集 34
3.2.5 加载HDFS数据 35
3.2.6 高级数据管理 38
3.3 准备数据的最佳实践 39
3.4 如何使用Visual Data Builder准备数据 42
3.4.1 使用Visual Data Builder的场景 42
3.4.2 导入数据 43
3.4.3 表查询和表连接 46
3.4.4 导入Information Map查询 50
3.4.5 追加表 52
3.4.6 创建LASR星型表 53
3.5 本章小结 56
第4章 标准报表与定制化报表分析 57
4.1 SAS Visual Analytics Designer和Visual Analytics Graph Builder介绍 57
4.1.1 SAS Visual Analytics Designer 57
4.1.2 SAS Visual Analytics Graph Builder 57
4.2 创建标准报表 58
4.2.1 使用各类报表对象 58
4.2.2 在SAS Visual Analytics Designer中处理和分析数据 58
4.2.3 报表过滤,报表交互,报表链接 62
4.2.4 使用报表中的参数 68
4.3 创建定制化报表 71
4.4 共享报表 72
4.5 本章小结 74
第5章 钻取查询与仪表盘 75
5.1 创建钻取查询报表 76
5.1.1 创建层次,生成钻取查询报表 76
5.1.2 编辑层次,更新钻取查询报表 80
5.1.3 创建时间层次,生成钻取查询报表 82
5.1.4 从可视化图形中创建层次 82
5.2 创建仪表盘 83
5.3 本章小结 84
第6章 可视化统计分析与预测模型 85
6.1 SAS Visual Statistics介绍 85
6.2 SAS Visual Statistics用户界面以及架构 86
6.3 探索性数据分析 87
6.3.1 探索性数据分析简介 87
6.3.2 SAS Visual Statistics实现探索性数据分析 88
6.4 线性回归模型 90
6.4.1 线性回归模型简介 91
6.4.2 SAS Visual Statistics线性回归可视化分析 92
6.4.3 SAS Visual Statistics线性回归模型举例 95
6.5 逻辑回归 101
6.5.1 逻辑回归模型简介 101
6.5.2 SAS Visual Statistics逻辑回归可视化分析 103
6.5.3 SAS Visual Statistics逻辑回归模型举例 104
6.6 广义线性模型 107
6.6.1 广义线性模型简介 107
6.6.2 SAS Visual Statistics广义线性模型可视化分析 107
6.6.3 SAS Visual Statistics广义线性模型举例 108
6.7 决策树 110
6.7.1 决策树模型简介 110
6.7.2 SAS Visual Statistics决策树可视化分析 112
6.7.3 SAS Visual Statistics决策树模型举例 113
6.8 聚类 116
6.8.1 聚类分析简介 116
6.8.2 SAS Visual Statistics聚类可视化分析 117
6.8.3 SAS Visual Statistics聚类分析举例 117
6.9 模型比较和模型评分 120
6.9.1 模型比较 120
6.9.2 模型比较可视化界面 120
6.9.3 模型评分 122
6.10 本章小结 123
第7章 可视化调查 124
7.1 SAS Visual Investigator介绍 124
7.2 SAS Visual Investigator的主要功能和系统架构 125
7.3 SAS Visual Investigator在预防违规或犯罪领域的应用 126
7.3.1 从警报管理中发现高风险活动 127
7.3.2 通过实体分析发现风险活动的诱因 129
7.4 SAS Visual Investigator在金融欺诈及反洗钱领域的应用 136
7.4.1 生成警报信息 137
7.4.2 在警报控制台中发现风险 140
7.4.3 搜索实体并进行初步调查 141
7.4.4 在工作区中进行详尽调查 142
7.4.5 使用时间滑块进行深度挖掘 147
7.5 SAS Visual Investigator在法律、政府和社会管理方面的应用 151
7.5.1 基于汇总报告评估风险 152
7.5.2 持续的个案监控 155
7.6 本章小结 159
第8章 SAS可视化分析技术的企业级部署和应用 160
8.1 企业级部署 160
8.1.1 架构设计 161
8.1.2 大规模并行处理部署要点 175
8.1.3 后配置、验证、调优 186
8.2 企业级应用的管理和安全 199
8.2.1 管理概述 199
8.2.2 操作计算服务器 215
8.2.3 环境监控 218
8.2.4 安全 224
8.3 本章小结 236

教学资源推荐
作者: (美)W. Bruce Croft Donald Metzler Trevor Strohman著
作者: (美)Roger S.Pressman 著
作者: 吴国伟 徐子川 姚琳 编著 郭禾 主审
作者: 许志闻 郭晓新 杨瀛涛 主编 王云霄 高占恒 徐长青 参编
参考读物推荐
作者: (美)普赖斯·普里切特、唐纳德·鲁滨逊、拉塞尔·克拉克森
作者: (美)Craig Larman