首页>参考读物>计算机科学与技术>综合

R语言与网站分析
作者 : 李明 著
出版日期 : 2014-04-14
ISBN : 978-7-111-45971-2
定价 : 79.00元
扩展资源下载
扩展信息
语种 : 简体中文
页数 : 472
开本 : 16
原书名 :
原出版社:
属性分类: 店面
包含CD :
绝版 : 未绝版
图书简介

本书是目前为止国内唯一一本阐述如何使用R语言来分析和挖掘互联网数据的应用性书籍。书中使用大量的实际案例,把数学原理同R语言实现方案有机的结合起来。力图通过案例分析使读者到达举一反三的效果,进而指导读者在日后的实际工作中进行应用。同时书中也阐述众多常用的数据分析和挖掘的方法和原理,对于非互联网的从业人员也很有指导意义。
全书共12章,第1~3章为基础内容,着重介绍数据分析挖掘的思路以及R语言如何处理数据并绘制图形。第4~5章介绍统计相关内容,主要针对互联网数据分析过程中如何对指标进行描述,如何进行异常监控、对比、趋势预测等分析进行了讲解。第6~10章着重介绍回归分析、分类分析、数据降维、聚类分析、关联分析、关系网络分析、文本分析的原理,结合大量的实际案例分析讲解了R语言的实现方案。第11~12章为高阶应用部分,主要讲解R语言如何通过Gtk插件完成GUI图形界面的搭建。

图书特色

在当下大数据时代,越来越多的网站开始重视数据,期望从数据中寻找有价值的结论,指导公司管理层的决策,最终创造更大的网站价值。而在各种网站分析技术中,R语言作为一个可进行交互式数据分析和探索的强大平台,起着举足轻重的作用,R语言的免费开源使得很多公司用它来处理数据、分析数据、完成模型。使用R语言可以进行网站数据系统的搭建,可以对累积的众多数据进行挖掘,找出其中的特征和规律。同时R语言是目前包含数据算法最全的工具,其灵活强大的绘图功能可以更好地表现数据处理结果。对于有志成为互联网数据挖掘/分析师的读者来说,掌握R语言将成为他们未来必备的技能之一。本书将R语言和网站分析/挖掘有机地结合起来,通过对大量案例进行详细阐述和深入分析,进而指导读者在实际工作中的应用。

本书的主要内容和特色:
本书包括大量的实际应用案例以及全部的R语言实现代码,通过对应用场景以及数学原理的分析,力图使读者在阅读过本书之后达到举一反三的效果。
本书在阐述实际案例的同时给出了其原始数据集的结构、应用场景以及结论分析,做到从“目标变量的抽象”、“数据预处理”直至最后“模型性能评估”的全流程讲解。
在讲解R语言函数时书中会给出详细的参数说明表以及数据挖掘原理,使读者不仅知其然,更能知其所以然。书中对数学原理的阐述不仅仅对互联网从业者有用,对于非互联网行业的数据从业人员也是有益处的。
本书的灵魂是互联网数据应用,所以在案例讲解过程中均会加入结论性分析,进而帮助数据分析师提高“如何利用结果数据指导实际商务决策”的能力。
全书对于具有互联网行业特点的“关系网络分析”和“文本分析”也做了较为详细的讲解。

作者简介









毕业于沈阳理工大学信息工程学院电子科技与技术系,曾就职于凡客诚品、居然之家等大型电子商务公司。目前就职于优酷土豆网,研究方向是R语言同互联网数据分析/挖掘的结合。撰写过大量R语言的基础和高级应用类文章,对互联网数据统计系统的R语言实践有较深入的研究。

博客:www.bassary.com
微博:www.weibo.com/2382348263


本书是目前为止国内唯一一本阐述如何使用R语言来分析和挖掘互联网数据的应用型书籍。书中使用大量的实际案例,把数学原理同R语言实现方案有机地结合起来,力图通过案例分析使读者达到举一反三的效果,进而指导读者在实际工作中的应用。同时书中也阐述众多常用的数据分析和挖掘的方法和原理,对于非互联网的从业人员也有指导意义。
全书共12章,第1~3章为基础内容,着重介绍数据分析和挖掘的思路以及R语言如何处理数据并绘制图形。第4~5章介绍统计相关内容,主要讲解在互联网数据分析过程中如何对指标进行描述,如何进行异常监控、对比、趋势预测等分析。第6~10章着重介绍回归分析、分类分析、数据降维、聚类分析、关联分析、关系网络分析、文本分析的原理,并结合大量的实际案例讲解R语言的实现方案。第11~12章为高阶应用部分,主要讲解R语言如何通过Gtk插件完成GUI图形界面的搭建。

图书前言

大数据下网站分析的重要性
当前,随着互联网对人们生活影响的不断增大,每天有数以亿计的用户行为数据被网站记录。这些数据以隐性信息的方式反映人们的行为习惯、兴趣爱好、性格特征,甚至是政治主张。网民每天都在告诉我们,他们到底需要什么。而这也正反映了用户的需求,可以说谁能读出用户的需求,谁就能更好地迎合用户,获取更多的流量,其网站的用户体验也就越好。 
网站分析就是通过用户使用网站时留下的数据来读出用户需求、习惯、爱好的方法。同时,通过数据分析也可以驱动整个网站的优化。利用数据分析驱动网站优化是一种最科学的决策方式,它直接反映了在现实中使用网站的用户情况,而非网站产品经理或决策人想象的用户。
R语言的优势
R语言作为一个可进行交互式数据分析和探索的强大平台,被越来越多的数据分析和挖掘人员及公司所使用。其优势主要体现在以下几个方面:
R语言的使用和学习并不需要掌握高深的语法,这使得分析师可以把更多的精力放在算法本身的实现上。
R语言是目前包含数据算法最全的工具,其灵活强大的绘图功能可以更好地表现数据处理结果。
R语言本身是免费和开源的,并与众多商业数据分析软件,如SAS等有接口。
R语言有搭建可视化软件的扩展包,公司可以依据自身的商业需求搭建指标监控平台。
R语言的优势使其发展势头大好,特别是在互联网公司,R语言逐渐受到了重视。对于有志成为互联网数据挖掘师/分析师的读者来说,掌握R语言将成为他们未来必备的技能之一。
编写本书的主旨
如何才能将R语言和网站分析有机地结合起来,使其价值得到体现?对于广大读者来说,很需要一本对此进行详细阐述, 深入分析,指导其进行实战的图书,但是目前市面上还没有相关的图书出版,而本书的主旨正是为了填补这个空缺。相信本书会给读者带来不小的收获,并且可以把R语言更好地应用到网站分析和互联网数据挖掘的工作上。
本书侧重于R语言对网站分析和挖掘的代码实现,并不侧重于对计算结果的分析讨论以及网站统计的思维方法。同时,本书以通俗的非学术语言结合实际的代码案例来介绍网站分析的基本思路和统计理论的数学原理,力争做到对读者授之以“渔”,而非简单地授之以“鱼”。
阅读对象
网站数据分析师。通过阅读本书,结合公司自身的业务逻辑,使用R语言进行网站数据系统的搭建。
数据挖掘师。书中结合互联网的常用数据挖掘方法,给出R语言的相应实现方式,使原来以SAS/SPSS软件为基础的挖掘方案转化为以R软件为基础的挖掘方案。
互联网产品经理。过去网站分析系统是以自主研发或使用第三方免费工具的方式来实现的,希望通过本书可以实现以R语言为基础的新的搭建方案。
其他行业的数据从业人员。虽然本书与网站分析和互联网数据挖掘相结合,但里面涉及的经典分析算法是同其他行业相通的,所以对于其他行业的数据分析和挖掘也有借鉴作用。
校勘和支持
由于作者的水平有限,编写的时间也很仓促,书中难免会出现一些错误或者不准确的地方,恳请读者批评指正。读者可以在我的个人博客www.bassary.com中留言,或直接发送至我的邮箱568677413@qq.com。我会定期发布Bug勘误表,同时,如果你遇到任何问题,也可以通过上述途径来提问,我将尽量在线上为读者提供最满意的解答。书中的全部代码都是经过本人调试的(R语言版本为2.9.2),部分源文件会发布在我的博客中,我也会将相应的功能更新及时更正出来。
感谢
首先要感谢R语言的创建者Ross Ihaka和Robert Gentleman,他们开创了一款影响统计学乃至所有自然和社会学科的软件。
感谢沈阳理工大学,它为我大学四年提供了一个轻松而充实的学习环境。感谢我的大学导师马平全,是他培养了我如何自学和探索新学科的能力。
感谢一直活跃在群里(238649264)和关注我博客的网友:王思远、秦赫赫、徐小小、费正飞、王洋等,他们为本书的形成提出了很多建设性的意见。
感谢机械工业出版社华章分社的编辑杨绣国,在这一年多的时间里始终支持我的写作,你的鼓励和帮助引导我顺利完成全部书稿。
感谢我的老婆刘慧,是她一直鼓励我直到完成全书。这里我想对她说:“能有你的陪伴是我一生的幸运。”
最后一定要感谢我的母亲和已故去的父亲,感谢你们将我培养成人,并时时刻刻给我信心和力量!
谨以此书献给我最亲爱的家人和朋友,以及众多热爱R语言和从事网站分析挖掘工作的朋友们。

李明

上架指导

计算机\程序设计

封底文字

在大数据时代的当下,越来越多的网站开始重视数据,期望从数据中寻找有价值的结论,指导公司管理层的决策,最终创造更大的网站价值。而在各种网站分析技术中,R作为一个可进行交互式数据分析和探索的强大平台,又有着举足轻重的作用,R的免费开源,使用很多公司用它来处理数据、分析数据、完成模型。使用R语言,可以进行网站数据系统的搭建,可以对累积的众多数据进行挖掘,找出其中的特征和规律。同时R语言是目前包含数据算法最全的工具,其灵活强大的绘图功能可以更好的表现数据处理结果。对于有志成为互联网数据挖掘/分析师的读者来说,掌握R语言将成为他们未来必备的技能之一。本书将R语言和网站分析挖掘有机的结合起来,通过对大量案例进行详细阐述,深入分析,进而指导读者在日后实际工作中应用。
本书的主要内容和特色:
? 本书包括大量的实际应用案例以及全部的R语言实现代码,通过对应用场景以及数学原理的分析,力图使读者在阅读过本书之后有举一反三的效果。
? 本书在阐述实际案例的同时给出了其原始数据集的结构,应用场景以及结论分析,做到从“目标变量的抽象”、“数据预处理”直至最后“模型性能评估”的全流程讲解。
? 在讲解R语言函数时书中会给出详细的参数说明表以及数据挖掘原理,使读者不仅知其然,更能知其所以然。书中对数学原理的阐述不仅仅对互联网从业者有用,对于非互联网行业的数据从业人员也是很有益处的。
? 本书的灵魂是互联网数据应用,所以在案例讲解过程中均会加入结论性分析,进而帮助数据分析师提高“如何利用结果数据指导实际商务决策”的能力。
? 全书对于具有互联网行业特点的“关系网络分析”和“文本分析”也做了较为详细的讲解。

作者简介

李明 著:暂无简介

图书目录

前言
第1章 统计思维与网站分析  1
1.1 不确定与确定  1
1.2 统计分析方法  4
1.2.1 细分分析  4
1.2.2 对比分析  6
1.2.3 趋势分析  7
1.3 网站分析概要  7
1.3.1 解决用户需求  7
1.3.2 寻找新的用户需求  10
第2章 R语言数据操作基础  11
2.1 R简介  11
2.2 了解R软件  11
2.2.1 软件安装  11
2.2.2 R软件界面  12
2.2.3 工作目录  14
2.2.4 命令行交互  15
2.2.5 命令脚本文件  16
2.2.6 工作空间数据  16
2.2.7 帮助  17
2.2.8 R语言入门  18
2.2.9 扩展算法包  19
2.3 R语言的数据类型  21
2.4 对象及其属性  23
2.4.1 固有属性:模式和长度  24
2.4.2 读取和设置属性值  24
2.4.3 对象的搜索和删除  25
2.5 向量  26
2.5.1 创建向量  26
2.5.2 向量索引  26
2.5.3 向量编辑  29
2.5.4 向量排序  29
2.5.5 向量去重  30
2.5.6 缺失值处理  30
2.5.7 向量间操作  31
2.6 矩阵和数组  31
2.6.1 创建矩阵  32
2.6.2 矩阵索引  33
2.6.3 矩阵编辑  34
2.6.4 矩阵的运算  35
2.6.5 数组  37
2.6.6 apply函数应用  38
2.7 列表和数据框  39
2.7.1 列表的创建和索引  39
2.7.2 列表编辑  40
2.7.3 数据框的创建和名称  40
2.7.4 数据框索引  41
2.7.5 数据框编辑  43
2.7.6 缺失值处理  44
2.8 因子  44
2.8.1 无序和有序因子  45
2.8.2 连续数据的离散化  46
2.9 字符串操作  47
2.9.1 字符串长度nchar  48
2.9.2 字符串合并和分割  48
2.9.3 字符串内部字符的读取和替换  49
2.9.4 正则表达式  52
2.10 常用数据的创建  53
2.10.1 因子序列的创建  53
2.10.2 等差序列的创建  54
2.10.3 随机抽样sample  54
2.10.4 重复序列rep  55
2.10.5 概率分布  55
2.11 控制流  58
2.11.1 分支语句  58
2.11.2 循环语句  59
2.12 运算符、函数和过程  61
2.12.1 常用运算符  61
2.12.2 函数  62
2.12.3 过程  63
2.13 数据的读写等操作  64
2.13.1 读取数据  64
2.13.2 输出数据  68
第3章 R语言的绘图基础  69
3.1 概述  69
3.2 颜色以及文字/点/线参数的设置  69
3.2.1 颜色  71
3.2.2 文字元素相关参数设置  76
3.2.3 点元素相关参数设置  77
3.2.4 线元素相关参数设置  79
3.3 低级绘图函数  80
3.3.1 引例  80
3.3.2 标题  81
3.3.3 图例  83
3.3.4 坐标轴  84
3.3.5 边框  88
3.3.6 网格线  89
3.3.7 点  90
3.3.8 线  91
3.3.9 文字  94
3.3.10 多边形  96
3.4 高级绘图函数以及常用绘图应用  96
3.4.1 图形类型的选择  96
3.4.2 散点图  98
3.4.3 气泡图  100
3.4.4 曲线图  102
3.4.5 柱状图  105
3.4.6 条形图  109
3.4.7 饼图  111
3.4.8 面积堆积图  115
3.4.9 直方图和密度曲线图  118
3.5 绘图窗口操作函数  120
3.5.1 单一窗口中的子绘图区域布局  120
3.5.2 绘图窗口操作  120
第4章 单指标分析  121
4.1 指标描述  121
4.1.1 平均值和集中趋势  121
4.1.2 正态分布  126
4.1.3 频数分析  130
4.1.4 描述性分析指标  131
4.2 异常点监控  133
4.2.1 概述  133
4.2.2 P控制图:监控转化率型指标  135
4.2.3 单值–均值控制图  142
4.2.4 单值–移动极差控制图  147
4.3 连续型指标的对比  150
4.3.1 数据变换  150
4.3.2 假设检验  152
4.3.3 相同指标内的两组数对比:T检验  153
4.3.4 相同指标内的多组数据对比:单因素方差分析  156
4.3.5 单因素协方差分析  163
4.4 分类型指标的对比  167
4.4.1 列联表分析  167
4.4.2 卡方独立性检验  172
第5章 时间序列分析  177
5.1 时间序列  177
5.2 增长率  180
5.2.1 环比增长率  180
5.2.2 同比增长率  181
5.3 移动平均  181
5.3.1 数学原理概述  181
5.3.2 filter函数  182
5.3.3 R语言实现  184
5.4 指数平滑  185
5.4.1 一次指数平滑  186
5.4.2 二次指数平滑  187
5.4.3 三次指数平滑  191
5.5 ARIMA模型  194
5.5.1 自相关性  194
5.5.2 平稳性和白噪声  199
5.5.3 MA滑动平均过程  200
5.5.4 AR自回归过程  202
5.5.5 ARMA自回归滑动平均混合过程  203
5.5.6 检验模型质量  205
5.5.7 非平稳时间序列的ARIMA过程  208
第6章 连续指标建模:回归分析  213
6.1 一元线性回归分析  213
6.1.1 引例  213
6.1.2 一元线性回归分析的原理及R语言实现  214
6.2 多元回归分析  221
6.2.1 引例  222
6.2.2 多元线性回归分析建模  222
6.2.3 模型修正函数update()  223
6.2.4 逐步回归分析函数step()  226
6.2.5 自变量中包含分类型数据的回归分析  228
6.3 Logic回归分析  230
6.3.1 引例及数据  230
6.3.2 logic分析的原理  230
6.3.3 R语言实现  232
6.4 回归树CART  237
6.4.1 rpart函数  237
6.4.2 预测及模型性能衡量  240
6.4.3 过度拟合和剪枝  240
第7章 分类指标建模:分类分析  243
7.1 决策树分类分析  243
7.1.1 概述  243
7.1.2 C4.5算法  247
7.1.3 CART算法  258
7.1.4 条件推理决策树算法  265
7.1.5 随机森林算法  267
7.2 贝叶斯分类  268
7.2.1 贝叶斯定理  268
7.2.2 朴素贝叶斯分类器  270
7.3 支持向量机SVM  271
7.3.1 原理  271
7.3.2 在R语言中实现非线性SVM分析  273
7.4 人工神经网络  274
7.4.1 神经元  274
7.4.2 两层网络  275
7.4.3 反向传播算法  276
7.4.4 R语言实现  282
7.4.5 隐藏层中神经单元数目的确定  283
7.5 分类器的性能评估  284
7.5.1 混淆矩阵  284
7.5.2 ROC曲线和AUC  287
7.5.3 提升度和提升曲线  291
7.5.4 洛伦兹曲线  292
第8章 样本细分  293
8.1 数据降维  293
8.1.1 问题引入  293
8.1.2 因子分析概述  294
8.1.3 factanal函数  296
8.1.4 实例:问卷调查的因子分析  297
8.2 聚类分析  303
8.2.1 距离  303
8.2.2 层次聚类  313
8.2.3 kmeans聚类  318
8.3 样本判别  321
8.3.1 knn(k最近邻分类)算法  323
8.3.2 实例:基于knn算法的商品推荐系统  324
第9章 样本间的关系  329
9.1 关联分析  329
9.1.1 关联分析的原理  329
9.1.2 Apriori算法的R语言实现  331
9.2 序列模式关联分析  334
9.2.1 序列模式关联分析的原理  334
9.2.2 序列模式关联分析的R语言实现  336
9.2.3 实例:用户点击页面的行为分析  338
9.3 关系网络分析  346
9.3.1 网络关系分析的基本概念  346
9.3.2 中心度  356
9.3.3 中心势  362
9.3.4 社群发现  363
9.3.5 实例:分析微博的传播特性  367
9.3.6 实例:购物车商品分类分析  370
第10章 文本分析  378
10.1 数据处理  378
10.1.1 数据引例  378
10.1.2 分词和词条  380
10.1.3 语料库和文档  381
10.1.4 词条—文档关系矩阵  384
10.2 实例:QQ群消息历史分析  387
10.2.1 数据集  387
10.2.2 数据集格式转化  389
10.2.3 留言文本的分词操作  390
10.2.4 分析常用话题词汇  391
10.2.5 建立用户–词条间的网络关系图  392
10.2.6 绘制重点词条和用户的网络图  392
10.3 XML包爬取网页数据  394
10.3.1 htmlParse函数  395
10.3.2 getNodeSet函数  395
10.3.3 xmlValue函数  396
10.3.4 xmlGetAttr函数  396
10.3.5 实例:爬取某电商网站衬衫类目商品的部分信息  397
第11章 网站指标监控系统的搭建  400
11.1 gWidgets包基础  400
11.1.1 环境搭建  400
11.1.2 引例  401
11.1.3 常用控件  406
11.2 实例:商品搜索算法参数配置监控GUI系统  414
11.2.1 商品搜索算法概述  414
11.2.2 原始商品信息  415
11.2.3 系统概述  417
11.2.4 模块布局  418
11.2.5 计算除关键字匹配以外的指标得分  420
11.2.6 模拟一次搜索行为数据  421
11.2.7 模拟多次搜索行为数据  423
11.2.8 绘图  423
第12章 基于RFM模型的客户价值系统  427
12.1 马尔科夫链  427
12.1.1 引例  427
12.1.2 概念  428
12.1.3 预测实例  428
12.2 RFM模型  431
12.2.1 RFM的概念  431
12.2.2 数据集  431
12.2.3 购买行为随机模型  432
12.3 结合马尔科夫链的RFM模型  436
12.3.1 购买状态转移矩阵  437
12.3.2 预测用户购买状态  445

教学资源推荐
作者: 李必信 廖力 王璐璐 孔祥龙 周颖 编著
作者: [美]琼·詹姆里奇·帕森斯(June Jamrich Parsons) 著
作者: 李云 葛桂萍 史庭俊 编著
作者: (美)塞巴斯蒂安·拉施卡(Sebastian Raschka),瓦希德·米尔贾利利(Vahid Mirjalili)著
参考读物推荐
作者: Dave Shreiner;The Khronos OpenGL Architecture Review Board
作者: 中国计算机学会 主编
作者: (美)希贝尔?德伦?古勒尔(Sibel Deren Guler),玛德琳?甘农(Madeline Gannon),凯特?西基奥(Kate Sicchio) 著