参考读物 – 图书教辅

扩展信息

语种 : 简体中文

页数 : 567

开本 : 16

原书名 : 无

原出版社: 无

属性分类: 店面

包含CD : 无CD

绝版 : 未绝版

图书简介

内容简介
这是一本将数据分析技术与数据使用场景深度结合的著作，从实战角度讲解了如何利用Python进行数据分析和数据化运营。
畅销书全新、大幅升级，第1版近乎100%的好评，第2版不仅将Python升级到了最新的版本，而且对具体内容进行了大幅度的补充和优化。作者是有10余年数据分析与数据化运营的资深大数据专家，书中对50余个数据工作流知识点、14个数据分析与挖掘主题、4个数据化运营主题、8个综合性案例进行了全面的讲解，能让数据化运营结合数据使用场景360°落地。
全书一共9章，分为两个部分：
第一部分（第1-4章） Python数据分析与挖掘
首先介绍了Python和数据化运营的基本知识，然后详细讲解了Python数据获取（结构化和非结构化）、预处理、分析和挖掘的关键技术和经验，包含10大类预处理经验、14个数据分析与挖掘主题，50余个知识点。
第二部分（第5~9章） Python数据化运营
这是本书的核心，详细讲解了会员运营、商品运营、流量运营和内容运营4大主题，以及提升数据化运营价值的方法。每个运营主题中都包含了基本知识、评估指标、应用场景、数据分析模型、数据分析小技巧、数据分析大实话以及2个综合性的应用案例。
------
添加作者微信（TonySong2013）可在线获取实时解答，同时加入本书沟通群（作者拉入群），交流更多数据工作的感悟和心得并认识更多同行从业者；本书提供案例数据和源代码（中文注释）下载，供读者实操时使用。

图书特色

Data Analysis and Data Operation with Python　( Second Edition )
Python数据分析
与数据化运营
（第2版）宋天龙 ◎ 著
14个数据分析与挖掘主题，4个数据化运营主题
8个综合性案例，360°结合数据场景落地

畅销书大幅升级，资深大数据专家撰写
国内一线数据分析专家和数据分析组织联袂推荐

图书前言

为什么要写这本书
随着商业竞争形势的日益严峻，企业需要不断寻找提高利润率、降低成本、提高产出价值的有效方法，而数据化运营恰好是满足企业这一需求的关键武器。数据化运营包含了运营和数据两种要素，前者需要较多的业务经验，而后者对数据分析提出了更高的要求。只有把二者结合起来，在技能、经验和技术的支持下，数据化运营才能在企业内部真正落地、生根、发芽。
对数据化运营而言，各企业普遍关注的结构化数据分析、挖掘的场景非常丰富，例如销售预测、会员生命周期维护、商品结构分析等，这些普遍的共同认知为本书提供了接地气的基础。但除了这些“传统内容”外，还有很多非结构化的数据主题，它们在数据化运营过程中的作用越来越重要，例如主题挖掘、图片分析、文本挖掘、图像识别、语音识别等，这些内容拓展了数据化运营发挥价值的场景基础。
Python作为数据工作领域的关键武器之一，具有开源、多场景应用、快速上手、完善的生态和服务体系等特征，这些特征使其在数据分析与数据化运营的任何场景中都能游刃有余；即使在其为数不多的短板功能上，Python仍然可以基于“胶水”的特征，引入对应的第三方工具、库、程序等来实现全场景、全应用的覆盖。在海量数据背景下，Python对超大数据规模的支持性能、数据分析处理能力、建模的专业程度及开发便捷性的综合能力方面要远远高于其他工具。因此，Python几乎是数据化运营工作的不二之选。
纵观整个国内技术书籍市场，有关Python的书籍不少，但普遍都是基于工具层面的介绍，且侧重于工具本身的方法、参数、调用、实例，与真正实践结合的较少；而有关数据化运营的书籍，目前市场上还为数不多，现有的数据化运营方面的书籍大多是基于Excel等工具的入门级别的分析类书籍。因此，本书结合Python和数据化运营两个方面，在数据分析工作流程和数据化运营主题结合的基础上，通过指标、模型、方法、案例配合工具的形式，详细介绍了如何使用Python来支持数据化运营，尤其是传统工具无法满足的应用场景。
本书第1版上市后，得到来自各行各业很多好友和读者的支持和反馈，在此致以感谢！第2版在第1版基础上做了很多优化甚至重写，还新增了很多内容。
优化以及重写的内容
全部代码基于Python 3做优化或重写，书中的Python版本是Python 3.7。
基于Jupyter做调试、分析和应用，更适合数据分析师的应用场景，包括探索性分析、数据预处理、结果可视化展示、交互式演示等。
网页数据解析中基于Class做功能封装和处理，便于以网页对象为主体的数据工作。
PIL/Pollow的替换和方法应用介绍，多用于图像处理工作。
第4章数据挖掘的案例部分，每一个案例都经过重写，并增加了很多知识点，以实际案例为需求，实际应用数据挖掘算法做建模和分析应用。
Matplotlib调用3D图形展示多个维度的信息，并可通过拖曳展示不同角度下数据的分布情况。
第5章第1个案例是RFM代码的重构，以及针对不同分组的精细化运营策略的制定。
第5章第2个案例是基于嵌套Pipeline和FeatureUnion复合数据工作流的营销响应预测，并基于复合（两层管道）的Pipeline做数据工作流管理。
第6章第2个案例是基于集成算法GBDT和RandomForest的投票组合模型的异常检测，GBDT和RandomForest是两个典型的代表模型“准确度”和“稳定度”的算法，这种兼顾“准”和“稳”的模型搭配更符合实际需求。
第7章基于自动节点树的数据异常原因来下探分析树形图的内容和可视化，优化了代码和样式，可视化效果更好，并能获得更多信息，包括维度分解过程、主因子、其他因子和潜在因子等。
新增的内容
基于Anaconda的Python环境的安装和配置，更方便初学者快速搭建Python应用环境。
Jupyter基础工具的用法，包括安装、启动、基础操作、魔术命令、新内核安装和使用、执行shell命令、扩展和插件使用、系统基础配置等。
基于Pandas的get_dummies做标志转换，即OneHotEncode转换。
特征选择的降维中新增feature_selection配合SelectPercentile、VarianceThreshold、RFE、SelectFromModel做特征选择。
特征转换的降维中新增PCA、LDA、FA、ICA这几个数据转换和降维的具体方法。
特征组合的降维中新增基于GBDT、PolynomialFeatures、gplearn的genetic方法做组合特征。
第4章的分类算法中新增使用XGboost做分类应用，以及配合graphviz输出矢量图形。
pyecharts的数据可视化的应用和操作，尤其是关联关系图的应用。
Python通过rpy2调用R程序，实现关联算法的挖掘，包括直接执行程序文件、代码段、变量使用等。
Python通过rpy2调用auto.airma实现自动ARIMA的应用，降低Python在时间序列算法应用时的门槛。
自动化学习：增加了对于自动化数据挖掘与机器学习的理论、流程、知识和应用库介绍，并基于TPOT做自动化回归和分类学习案例演示。
我希望能尽自己的微薄之力，将过往所学、所感、所知提炼出来供更多人了解。如果读者能从本书中感悟一二，我将倍感欣慰；如果读者能将其用于工作实践，这将是本书以及数据工作之福！
读者对象
本书旨在提供有关数据与运营的综合知识的介绍和应用，虽然基础工具是Python，但本书并没有就Python基础规则和语法做详细介绍，因此希望读者具有一定的Python基础。相信我，只要你认真看过Python教学视频（网络上有很多），只需大概2个小时就能具备这种基础。
本书对读者的知识背景没有特定要求，书中的内容都尽量言简意赅、深入浅出。本书适合以下几类读者阅读：
企业运营人员。本书的核心命题就是运营，其中涉及会员运营、商品运营、流量运营和内容运营四大主题，无论运营人员希望获得运营知识，还是希望获得数据分析和挖掘方法，都可以从书中找到。
数据分析师。毫无疑问，数据分析师是本书的核心受众群体之一，书中介绍的数据抽取、预处理和分析挖掘经验一定能为数据分析师带来很多“不一样”的收获，每个运营主题下的小技巧、模型和案例更能激发数据分析师的灵感—原来数据工作还能这样做。
Python工程师。坦白讲，本书不是一本专门介绍Python语法、规则的书籍。但Python作为一种“万能”工具，在数据分析和挖掘领域具有举足轻重的地位，对于任何一位工作领域中涉及数据（或大数据）的Python工程师来说，本书的价值会成倍增长。书中对Python数据处理、计算和挖掘库的应用介绍，以及对有关工具库的用法、注意点和小知识的介绍一定会使Python工程师的工作和能力更上一层楼。
数据挖掘工程师。数据分析与挖掘在实际运营中都是不分家的，本书没有冠以“挖掘”之名，但并不意味着没有挖掘（或机器学习）算法。本书第4章基本都是围绕常用算法展开的知识介绍，其中各个算法类的“大坑”都是笔者多年经验的总结；在运营主题的案例中几乎都用到了算法来解决实际问题。除了基本的数据挖掘以外，本书还涉及自然语言处理、日志处理、文本挖掘、图像处理等相关知识。
如何阅读本书
本书内容从逻辑上共分为两大部分，第一部分是有关数据分析类的主题，第二部分是有关数据化运营的主题。
第一部分包括第1～4章和附录，主要介绍了Python和数据化运营的基本知识、数据来源获取、数据预处理，以及数据分析和挖掘的关键经验。其中：
第1章是Python和数据化运营的基本知识介绍。
第2章对传统的结构化和非结构化数据来源及获取、读取和解析进行了介绍，包括数据文件、数据库、API、流式数据、外部公开数据等，也提到了如何读取网页、文本、图片、视频、语音等类型的数据。
第3章总结了10个有关数据化运营过程的数据预处理经验，涵盖了常见的数据清洗、标志转换、数据降维、样本不均衡、数据源冲突、抽样、共线性、相关性分析、数据标准化、数据离散化等内容，并在扩展内容中简单介绍了有关网页、日志、图像、自然语言的文本预处理工作，作为拓展知识阅读。
第4章总结了数据分析、挖掘和网站分析方法的8个主题类，内容涵盖聚类、回归、分类、关联、异常检测、时间序列、路径分析、漏斗分析、归因分析、热力图分析及其他统计分析相关话题，各个类别中都以关键经验为基础，围绕应用误区、注意事项和应用方法展开详细介绍。
第二部分包括第5～9章，分别介绍了会员运营、商品运营、流量运营和内容运营四大主题，以及提升数据化运营价值的方法。在每个数据化运营主题中都包含了基本知识、关键指标、应用场景、数据分析模型、数据分析小技巧、数据分析“大实话”及两个应用案例。
基本知识：有关运营主题的基本内涵、价值、用途等方面的介绍。
关键指标：运营主题的主要评估和矩阵指标，按类别拆分和归纳。
应用场景：总结数据对于运营的价值落地在哪些场景中。
数据分析模型：“大型”的数据分析方法，包括统计分析、数据挖掘、网站分析、数学模型。
数据分析小技巧：“小型”的数据分析方法，看起来相对简单但非常有效。
数据分析“大实话”：有关运营或数据分析的潜在规律的解释及介绍。
应用案例：每个运营主题都包含两个应用案例，基本上每个案例的应用算法和技巧都不相同，目的是呈现不同算法在不同场景下的差异化应用。
除了以上内容外，以下信息是对本书中涉及特定内容的解释和说明。
渐进式的内容：本书的Python代码和实现部分，在不同章节可能会具有不同的代码风格，包括定义规则、注释、功能实现等，这是因为笔者试图遵循循序渐进的原则，先介绍功能实现，然后再介绍其他的备选方案，以及规范、原则等来辅助Python的实现。这样做一方面是希望尽量多地展示解决同一类问题的不同方法，让读者能根据自身实际情况选择最“合适”的用法示例；另一方面是因为，考虑到可能有很多读者不具备较强的Python基础知识，笔者不希望一上来就让这些读者感觉到使用Python会受到各种“条条框框”的限制，从而打击他们使用Python的信心，毕竟，能实现功能需求是第一位的。
内容延伸：本书第1～4章都有内容延伸章节，其内容是有关非结构化主题的读取、分析、处理。由于每个主题展开来都能写成一本书，因此仅在内容延伸中抛砖引玉，有兴趣的读者可以了解和学习。
相关知识点：本书很多章节中都有“相关知识点”部分，其内容是关于特定工具、知识、算法、库等方面的较为详细的介绍，充当了本书的知识堡垒。
本章小结：每章的结尾都有“本章小结”，在小结中包含4部分内容。
内容小结：有关本章内容的总结。
重点知识：本章需要读者重点掌握的知识和内容。
外部参考：本章提到但是无法详细介绍的内容，有兴趣的读者可以基于外部参考构建自己的知识图谱。
应用实践：基于本章内容给出在实践中落地的建议。
提示：对于知识点的重要提示和应用技巧，相对“相关知识点”而言，每条提示信息内容量较少，一般都是经验类的总结。
注意：特定知识需要引起注意的点，这些注意点是应用过程中需要避免的“大坑”。
特定名词的混用：本书提到了库和包、模型和算法等词，虽然有含义差异，但书中并没有划清它们的界限，因此在很多时候它们都是等价的。
关于附录的使用方法：除了第9章外（该章节没有代码），本书的每一章都有对应源数据和完整代码，该内容可在本书附件中找到，附件可以在华章网站（http://www.hzbook.com）或者笔者网站—数据常青藤（http://www.dataivy.cn/book/python_book_v2.zip）下载。需要注意的是，为了让读者更好地了解每行代码的含义，笔者在注释信息中都使用了中文标注，每个程序文件的编码格式都是UTF-8。
勘误和支持
由于笔者水平有限，加之撰写时间也有限，书中难免会出现一些错误或者不准确的地方，恳请读者批评指正。读者可通过以下途径联系并反馈建议或意见：
微信沟通：本书已建立讨论群，读者可先添加笔者个人微信（TonySong2013），后续笔者会将读者加入本书的讨论群中。
网站讨论区：在笔者网站—数据常青藤的书籍讨论区（http://www.dataivy.cn/python-data-analysis-and-data-operations/）留言。
电子邮箱：发送E-mail到517699029@qq.com。
致谢
在本书撰写过程中，得到了来自多方的指导、帮助和支持。
首先，感谢彭亮先生和史研先生。彭亮先生使我感受到什么是高度和专注，并促使我的数据工作从真正意义上步入正途。史研先生对于大数据的广博认知和敏锐洞察力，让我有更多机会深入到不同的数据分支，去探索未曾了解的领域。
其次，感谢机械工业出版社华章分社第二事业部的杨福川老师，杨老师在我出版了两本书之后鼓励我继续撰写本书，并为本书的撰写提供了方向和思路指导。另外，感谢全程参与审核、校验等工作的李艺老师及其他背后默默支持的出版工作者，他们的辛勤付出保证了本书的顺利面世。
再次，感谢在各个数据项目和工作中提供支持的领导、朋友、伙伴，尤其是田学锋，他是我的良师益友，他有着非比寻常的视野、胸怀和独到的见解，在我的人生道路上给予了我非常多的指导和启迪。还要感谢跟我一起工作的小伙伴（排名不分先后）：庞程程、徐子东、赵光娟、王成、吕兆星、郑传峰、杨晓鹏、陈骏、江涛、曹佳佳、麻建昕、史晓春、杨勇等。
最后，感谢我的父母、家人和朋友，尤其是我的夫人姜丽女士，是她在我写书的这段期间把家里的一切料理得井井有条，使得我有精力完成本书的全部撰写工作。
谨以此书献给热爱数据工作并为之奋斗的朋友们，愿大家身体健康、生活美满、事业有成！

宋天龙（Tony Song）

上架指导

计算机/数据分析

封底文字

数据分析师精通一两个工具是非常必要的，而Python是数据分析工具中的重器。这是一本将Python与数据分析、数据营运结合得很好的一本书，一些常用的分析方法在书中都有具体讲解。书中大量的案列也能丰富读者的使用场景，如果认真实操，一定会显著提高自己的数据分析和运营能力。
——黄成明（@数据化管理）数据化管理咨询顾问和培训师
本书深入浅出地解析了数据分析和数据化运营的方方面面，每个知识点都是作者宝贵经验的总结。市场上不缺工具书，但是纯粹并具有深度的经验总结却少之又少，因为这需要足够的行业和职业积累。从这点上来讲，本书是经验的传递而非简单的“知识堆砌”，因此更加可贵。
——宋星 “网站分析在中国”创始人/阳狮锐奇数据解决方案总经理
本书不仅从技术角度介绍了数据采集、清洗、分析的相关工具与方法论，而且对其在运营方面的业务应用也进行了体系化的介绍，并辅以典型案例说明，是一本拿来即可用的书籍。
——田学峰猪八戒金融副总经理
近年来，不论是零售、银行、保险还是证券，各行业对数据分析技术的需求越来越强烈，Python作为大家熟知的数据挖分析工具，被广泛应用。对任何数据从业者来说，本书绝对是个惊喜，结构完整，案例丰富，假以时日，必成经典。
——宫鑫　射手学院创始人
数据化运营方面的书籍越来越多，但令人唏嘘的是理论多过实践，故事多过案例。本书有很多的实际操作讲解和案例分析，强调动手，而不仅仅是强调认知，难能可贵。推荐阅读，更建议跟随书中的内容亲自动手。
——王晓东 TrueMetrics创始人

作者简介

宋天龙著：作者简介
宋天龙(TonySong)
大数据技术专家，触脉咨询合伙人兼副总裁，前Webtrekk中国区技术和咨询负责人（Webtrekk，德国最大的在线数据分析服务提供商）。
擅长数据挖掘、建模、分析与运营，精通端到端数据价值场景设计、业务需求转换、数据结构梳理、数据建模与学习以及数据工程交付。在电子商务、零售、银行、保险等多个行业拥有丰富的数据项目工作经验，参与过集团和企业级数据体系规划、DMP与数据仓库建设、大数据产品开发、网站流量系统建设、个性化智能推荐与精准营销、企业大数据智能等。参与实施客户案例包括联合利华、Webpower、德国OTTO集团电子商务（中国）、Esprit中国、猪八戒网、顺丰优选、乐视商城、泰康人寿、酒仙网、国美在线、迪信通等。
著有多部畅销书：
《Python数据分析与数据化运营》
《网站数据挖掘与分析：系统方法与商业实践》
《企业大数据系统构建实战：技术、架构、实施与应用》

图书目录

前言
第1章　Python和数据化运营1
1.1　用Python做数据化运营1
1.1.1　Python是什么1
1.1.2　数据化运营是什么2
1.1.3　Python用于数据化运营5
1.2　数据化运营所需的Python相关工具和组件5
1.2.1　Python程序6
1.2.2　Python交互环境Jupyter7
1.2.3　Python第三方库23
1.2.4　数据库和客户端29
1.2.5　SSH远程客户端30
1.3　内容延伸：Python的OCR和tensorflow31
1.3.1　OCR工具：Tesseract-ocr31
1.3.2　机器学习框架：TensorFlow31
1.4　第1个用Python实现的数据化运营分析实例、销售预测32
1.4.1　案例概述32
1.4.2　案例过程32
1.4.3　案例小结36
1.5　本章小结37
第2章　数据化运营的数据来源40
2.1　数据化运营的数据来源类型40
2.1.1　数据文件40
2.1.2　数据库41
2.1.3　API42
2.1.4　流式数据43
2.1.5　外部公开数据43
2.1.6　其他来源44
2.2　使用Python获取运营数据44
2.2.1　从文本文件读取运营数据44
2.2.2　从Excel获取运营数据55
2.2.3　从关系型数据库MySQL读取运营数据57
2.2.4　从非关系型数据库MongoDB读取运营数据64
2.2.5　从API获取运营数据68
2.3　内容延伸：读取非结构化网页、文本、图像、视频、语音72
2.3.1　从网页中获取运营数据72
2.3.2　读取非结构化文本数据73
2.3.3　读取图像数据74
2.3.4　读取视频数据78
2.3.5　读取语音数据81
2.4　本章小结85
第3章　10条数据化运营不得不知道的数据预处理经验87
3.1　数据清洗：缺失值、异常值和重复值的处理87
3.1.1　数据列缺失的4种处理方法87
3.1.2　不要轻易抛弃异常数据89
3.1.3　数据重复就需要去重吗90
3.1.4　代码实操：Python数据清洗92
3.2　将分类数据和顺序数据转换为标志变量100
3.2.1　分类数据和顺序数据是什么100
3.2.2　运用标志方法处理分类和顺序变量101
3.2.3　代码实操：Python标志转换101
3.3　大数据时代的数据降维104
3.3.1　需要数据降维的情况104
3.3.2　基于特征选择的降维105
3.3.3　基于特征转换的降维106
3.3.4　基于特征组合的降维112
3.3.5　代码实操：Python数据降维114
3.4　解决样本类别分布不均衡的问题123
3.4.1　哪些运营场景中容易出现样本不均衡124
3.4.2　通过过抽样和欠抽样解决样本不均衡124
3.4.3　通过正负样本的惩罚权重解决样本不均衡124
3.4.4　通过组合/集成方法解决样本不均衡125
3.4.5　通过特征选择解决样本不均衡125
3.4.6　代码实操：Python处理样本不均衡125
3.5　数据化运营要抽样还是全量数据128
3.5.1　什么时候需要抽样128
3.5.2　如何进行抽样129
3.5.3　抽样需要注意的几个问题130
3.5.4　代码实操：Python数据抽样131
3.6　解决运营数据的共线性问题135
3.6.1　如何检验共线性135
3.6.2　解决共线性的5种常用方法136
3.6.3　代码实操：Python处理共线性问题137
3.7　有关相关性分析的混沌139
3.7.1　相关和因果是一回事吗139
3.7.2　相关系数低就是不相关吗139
3.7.3　代码实操：Python相关性分析140
3.8　标准化，让运营数据落入相同的范围141
3.8.1　实现中心化和正态分布的Z-Score141
3.8.2　实现归一化的Max-Min142
3.8.3　用于稀疏数据的MaxAbs142
3.8.4　针对离群点的RobustScaler142
3.8.5　代码实操：Python数据标准化处理142
3.9　离散化，对运营数据做逻辑分层145
3.9.1　针对时间数据的离散化145
3.9.2　针对多值离散数据的离散化146
3.9.3　针对连续数据的离散化146
3.9.4　针对连续数据的二值化147
3.9.5　代码实操：Python数据离散化处理147
3.10　内容延伸：非结构化数据的预处理151
3.10.1　网页数据解析151
3.10.2　网络用户日志解析159
3.10.3　图像的基本预处理164
3.10.4　自然语言文本预处理169
3.11　本章小结172
第4章　跳过运营数据分析和挖掘的“大坑”174
4.1　聚类分析174
4.1.1　当心数据异常对聚类结果的影响175
4.1.2　超大数据量时应该放弃K均值算法175
4.1.3　聚类不仅是建模的终点，更是重要的中间预处理过程177
4.1.4　高维数据上无法应用聚类吗178
4.1.5　如何选择聚类分析算法179
4.1.6　案例：客户特征的聚类与探索性分析179
4.2　回归分析196
4.2.1　注意回归自变量之间的共线性问题197
4.2.2　相关系数、判定系数和回归系数之间是什么关系197
4.2.3　判定系数是否意味着相应的因果联系197
4.2.4　注意应用回归模型时研究自变量是否产生变化198
4.2.5　如何选择回归分析算法198
4.2.6　案例：大型促销活动前的销售预测199
4.3　分类分析206
4.3.1　防止分类模型的过拟合问题207
4.3.2　使用关联算法做分类分析207
4.3.3　用分类分析来提炼规则、提取变量、处理缺失值208
4.3.4　类别划分：分类算法和聚类算法都是好手209
4.3.5　如何选择分类分析算法210
4.3.6　案例：用户流失预测分析与应用210
4.4　关联分析221
4.4.1　频繁规则不一定是有效规则221
4.4.2　不要被啤酒尿布的故事禁锢你的思维222
4.4.3　被忽略的“负相关”模式真的毫无用武之地吗223
4.4.4　频繁规则只能打包组合应用吗224
4.4.5　关联规则的序列模式224
4.4.6　使用Python和R分别实现商品交叉销售分析225
4.5　异常检测分析240
4.5.1　异常检测中的“新奇检测”模式241
4.5.2　将数据异常与业务异常相分离241
4.5.3　面临维度灾难时，异常检测可能会失效241
4.5.4　异常检测的结果能说明异常吗241
4.5.5　案例：网站广告流量的异常识别与检测242
4.6　时间序列分析253
4.6.1　如果有自变量，为什么还要用时间序列253
4.6.2　时间序列不适合商业环境复杂的企业254
4.6.3　时间序列预测的整合、横向和纵向模式255
4.6.4　案例：未来10天的整体销售预测255
4.7　路径、漏斗、归因和热力图分析267
4.7.1　不要轻易相信用户的页面访问路径269
4.7.2　如何将路径应用于更多用户行为模式的挖掘270
4.7.3　为什么很多数据都显示了多渠道路径的价值很小271
4.7.4　点击热力图真的反映了用户的点击喜好吗271
4.7.5　为什么归因分析主要存在于线上的转化行为272
4.7.6　漏斗分析和路径分析有什么区别273
4.8　其他数据分析和挖掘的忠告274
4.8.1　不要忘记数据质量的验证274
4.8.2　不要忽视数据的落地性274
4.8.3　不要把数据陈列当作数据结论275
4.8.4　数据结论不要产生于单一指标276
4.8.5　数据分析不要预设价值立场276
4.8.6　不要忽视数据与业务的需求冲突问题277
4.9　内容延伸1：非结构化数据的分析与挖掘278
4.9.1　词频统计278
4.9.2　词性标注281
4.9.3　关键字提取284
4.9.4　文本聚类286
4.10　内容延伸2：AutoML—自动化数据挖掘与机器学习289
4.10.1　自动化数据挖掘与机器学习概述289
4.10.2　TPOT自动化学习简介290
4.10.3　使用TPOT做自动化学习292
4.11　本章小结298
第5章　会员数据化运营300
5.1　会员数据化运营概述300
5.2　会员数据化运营关键指标301
5.2.1　会员整体指标301
5.2.2　会员营销指标301
5.2.3　会员活跃度指标303
5.2.4　会员价值度指标305
5.2.5　会员终生价值指标305
5.2.6　会员异动指标306
5.3　会员数据化运营应用场景307
5.3.1　会员营销307
5.3.2　会员关怀307
5.4　会员数据化运营分析模型307
5.4.1　会员细分模型307
5.4.2　会员活跃度模型309
5.4.3　会员价值度模型309
5.4.4　会员流失预测模型310
5.4.5　会员特征分析模型311
5.4.6　营销响应预测模型312
5.5　会员数据化运营分析小技巧313
5.5.1　使用留存分析做新用户质量分析313
5.5.2　使用AARRR做App用户生命周期分析314
5.5.3　借助动态数据流关注会员状态的轮转315
5.5.4　使用协同过滤算法为新会员分析推送个性化信息316
5.6　会员数据化运营分析的“大实话”318
5.6.1　企业“不差钱”，还有必要做会员精准营销吗318
5.6.2　用户满意度取决于期望和给予的匹配程度319
5.6.3　用户不购买就是流失了吗319
5.6.4　来自调研问卷的用户信息可信吗320
5.6.5　不要盲目相信二八法则321
5.7　案例：基于RFM的精细化用户管理322
5.7.1　案例背景322
5.7.2　案例主要应用技术322
5.7.3　案例数据323
5.7.4　案例过程323
5.7.5　案例数据结论337
5.7.6　案例应用和部署341
5.7.7　案例注意点341
5.7.8　案例引申思考342
5.8　案例：基于嵌套Pipeline和Fea-tureUnion复合数据工作流的营销响应预测342
5.8.1　案例背景342
5.8.2　案例主要应用技术343
5.8.3　案例数据343
5.8.4　案例过程344
5.8.5　案例数据结论353
5.8.6　案例应用和部署353
5.8.7　案例注意点354
5.8.8　案例引申思考355
5.9　本章小结355
第6章　商品数据化运营357
6.1　商品数据化运营概述357
6.2　商品数据化运营关键指标357
6.2.1　销售指标357
6.2.2　促销活动指标360
6.2.3　供应链指标361
6.3　商品数据化运营应用场景363
6.3.1　销售预测363
6.3.2　库存分析363
6.3.3　市场分析363
6.3.4　促销分析364
6.4　商品数据化运营分析模型364
6.4.1　商品价格敏感度模型364
6.4.2　新产品市场定位模型365
6.4.3　销售预测模型366
6.4.4　商品关联销售模型367
6.4.5　异常订单检测368
6.4.6　商品规划的最优组合368
6.5　商品数据化运营分析小技巧370
6.5.1　使用层次分析法将定量与定性分析结合370
6.5.2　通过假设检验做促销拉动分析373
6.5.3　使用BCG矩阵做商品结构分析374
6.5.4　巧用4P分析建立完善的商品运营分析结构376
6.6　商品数据化运营分析的“大实话”376
6.6.1　为什么很多企业会以低于进价的价格大量销售商品376
6.6.2　促销活动真的是在促进商品销售吗378
6.6.3　用户关注的商品就是要买的商品吗379
6.6.4　提供的选择过多其实不利于商品销售380
6.7　案例：基于Gradient Boosting的自动超参数优化的销售预测381
6.7.1　案例背景381
6.7.2　案例主要应用技术381
6.7.3　案例数据381
6.7.4　案例过程382
6.7.5　案例数据结论389
6.7.6　案例应用和部署389
6.7.7　案例注意点389
6.7.8　案例引申思考389
6.8　案例：基于集成算法GBDT和RandomForest的投票组合模型的异常检测390
6.8.1　案例背景390
6.8.2　案例主要应用技术390
6.8.3　案例数据391
6.8.4　案例过程391
6.8.5　案例数据结论397
6.8.6　案例应用和部署398
6.8.7　案例注意点398
6.8.8　案例引申思考399
6.9　本章小结400
第7章　流量数据化运营402
7.1　流量数据化运营概述402
7.2　八大流量分析工具402
7.2.1　Adobe Analytics403
7.2.2　Webtrekk Suite403
7.2.3　Webtrends403
7.2.4　Google Analytics404
7.2.5　IBM Coremetrics404
7.2.6　百度统计404
7.2.7　Flurry404
7.2.8　友盟405
7.2.9　如何选择第三方流量分析工具405
7.3　流量采集分析系统的工作机制408
7.3.1　流量数据采集409
7.3.2　流量数据处理411
7.3.3　流量数据应用412
7.4　流量数据与企业数据的整合413
7.4.1　流量数据整合的意义413
7.4.2　流量数据整合的范畴414
7.4.3　流量数据整合的方法414
7.5　流量数据化运营指标415
7.5.1　站外营销推广指标415
7.5.2　网站流量数量指标417
7.5.3　网站流量质量指标418
7.6　流量数据化运营应用场景421
7.6.1　流量采购421
7.6.2　流量分发423
7.7　流量数据化运营分析模型423
7.7.1　流量波动检测423
7.7.2　渠道特征聚类425
7.7.3　广告整合传播模型425
7.7.4　流量预测模型428
7.8　流量数据化运营分析小技巧429
7.8.1　给老板提供一页纸的流量dashboard429
7.8.2　关注趋势、重要事件和潜在因素是日常报告的核心431
7.8.3　使用从细分到多层下钻数据分析431
7.8.4　通过跨屏追踪解决用户跨设备和浏览器的访问行为432
7.8.5　基于时间序列的用户群体过滤434
7.9　流量数据化运营分析的“大实话”436
7.9.1　流量数据分析的价值其实没那么大436
7.9.2　如何将流量的实时分析价值最大化437
7.9.3　营销流量的质量评估是难点工作438
7.9.4　个性化的媒体投放仍然面临很多问题438
7.9.5　传统的网站分析方法到底缺少了什么439
7.10　案例：基于自动节点树的数据异常原因下探分析444
7.10.1　案例背景444
7.10.2　案例主要应用技术444
7.10.3　案例数据445
7.10.4　案例过程446
7.10.5　案例数据结论459
7.10.6　案例应用和部署460
7.10.7　案例注意点460
7.10.8　案例引申思考461
7.11　案例：基于自动K值的KMeans广告效果聚类分析461
7.11.1　案例背景461
7.11.2　案例主要应用技术462
7.11.3　案例数据462
7.11.4　案例过程463
7.11.5　案例数据结论474
7.11.6　案例应用和部署475
7.11.7　案例注意点476
7.11.8　案例引申思考477
7.12　本章小结477
第8章　内容数据化运营480
8.1　内容数据化运营概述480
8.2　内容数据化运营指标481
8.2.1　内容质量指标481
8.2.2　SEO类指标481
8.2.3　内容流量指标482
8.2.4　内容互动指标482
8.2.5　目标转化指标483
8.3　内容数据化运营应用场景484
8.3.1　内容采集484
8.3.2　内容创作484
8.3.3　内容分发485
8.3.4　内容管理485
8.4　内容数据化运营分析模型485
8.4.1　情感分析模型485
8.4.2　搜索优化模型 486
8.4.3　文章关键字模型486
8.4.4　主题模型487
8.4.5　垃圾信息检测模型488
8.5　内容数据化运营分析小技巧488
8.5.1　通过AB测试和多变量测试找到最佳内容版本488
8.5.2　通过屏幕浏览占比了解用户到底看了页面多少内容490
8.5.3　通过数据分析系统与CMS打通实现个性化内容运营491
8.5.4　将个性化推荐从网站应用到App端494
8.6　内容数据化运营分析的“大实话”495
8.6.1　个性化内容运营不仅是整合CMS和数据系统495
8.6.2　用户在着陆页上不只有跳出和继续两种状态495
8.6.3　“人工组合”的内容运营价值最大化并非不能实现496
8.6.4　影响内容点击率的因素不仅有位置497
8.7　案例：基于潜在狄利克雷分配的内容主题挖掘498
8.7.1　案例背景498
8.7.2　案例主要应用技术498
8.7.3　案例数据498
8.7.4　案例过程498
8.7.5　案例数据结论506
8.7.6　案例应用和部署507
8.7.7　案例注意点507
8.7.8　案例引申思考508
8.8　案例：基于多项式贝叶斯的增量学习的文本分类508
8.8.1　案例背景508
8.8.2　案例主要应用技术508
8.8.3　案例数据509
8.8.4　案例过程509
8.8.5　案例数据结论517
8.8.6　案例应用和部署517
8.8.7　案例注意点517
8.8.8　案例引申思考517
8.9　本章小结518
第9章　数据化运营分析的终极秘籍520
9.1　撰写出彩的数据分析报告的5个建议520
9.1.1　完整的报告结构520
9.1.2　精致的页面版式521
9.1.3　漂亮的可视化图形523
9.1.4　突出报告的关键信息524
9.1.5　用报告对象习惯的方式撰写报告525
9.2　数据化运营支持的4种扩展方式526
9.2.1　数据API526
9.2.2　数据模型526
9.2.3　数据产品527
9.2.4　运营产品527
9.3　提升数据化运营价值度的5种途径528
9.3.1　数据源：不只有结构化的数据528
9.3.2　自动化：建立自动工作机制529
9.3.3　未卜先知：建立智能预警模型529
9.3.4　智能化：向BI-AI的方向走530
9.3.5　场景化：将数据嵌入运营环节之中531
9.4　本章小结531
附录533
附录A　公开数据集533
附录B　Python数据工具箱540