首页>参考读物>计算机科学与技术>数据库

Python数据分析与数据化运营
作者 : 宋天龙 著
出版日期 : 2017-11-14
ISBN : 978-7-111-58460-5
定价 : 99.00元
扩展资源下载
扩展信息
语种 : 简体中文
页数 : 539
开本 : 16
原书名 :
原出版社:
属性分类: 店面
包含CD : 无CD
绝版 : 未绝版
图书简介

内容介绍
这是一部从实战角度讲解如何利用Python进行数据分析、挖掘和数据化运营的著作,不仅对数据分析的关键技术和技巧进行了总结,更重要的是对会员、商品、流量、内容4个主题的数据化运营进行了系统讲解。
作者是国内一线资深的数据分析师和大数据专家,在数据分析和数据化运营领域有近10年的经验,在业内颇具知名度和影响力。本书不仅得到了宋星、黄成明、宫鑫等近14位资深专家的好评和推荐,还得了天善智能、中国统计网等多个数据科学相关机构的支持和高度认可。
全书的内容在逻辑上共分为两大部分:
第一部分(第1~4章):Python数据分析与挖掘
着重讲解了Python和数据化运营的基本知识,以及Python数据获取(结构化和非结构化)、预处理、分析和挖掘的关键技术和经验。包含11条数据预处理经验、39个数据预处理知识点、14个数据分析和挖掘的建模主题。
第二部分(第5~9章):Python数据化运营
这是本书的核心,详细讲解了会员运营、商品运营、流量运营和内容运营四个大主题,以及提升数据化运营价值的方法。在每个运营主题中都包含了基本知识、评估指标、应用场景、数据分析模型、数据分析小技巧、数据分析大实话以及2个综合性的应用案例。
本书提供案例数据和源代码(中文注释)下载,供读者实操时使用。

图书特色

数据分析师精通一两个工具是非常必要的,而Python是数据分析工具中的重器。我认为这是一本将Python与数据分析、数据化运营结合得非常好的一本书,一些常用的分析方法在书中都有具体的讲解。而书中大量的案例也能丰富读者的使用场景,提高读者的数据分析和运营能力,值得大家仔细阅读,认真实操。
——黄成明(@数据化管理) 数据化管理的咨询顾问及培训师
本书深入浅出地解析了有关数据分析和数据化运营的主要轮廓和流程,每个知识点都是作者宝贵经验的总结。当前市场上不缺工具书,但是纯粹并具有深度经验总结的工具书却少之又少,因为这需要足够的行业和职业积累。从这点上来讲,本书在进行经验的传递而非简单的“知识堆砌”,因此更加可贵。
——宋星 “网站分析在中国”创始人/阳狮锐奇数据解决方案总经理
本书不仅从技术角度介绍了用于数据采集、清洗、分析的相关工具与方法论,而且对其在运营方面的业务应用也进行了体系化的介绍,并辅以典型案例说明,是一本拿来即可用的书籍。
——田学峰 猪八戒金融副总经理
近年来,不论是零售、银行、保险还是证券,各行业对数据挖掘技术的需求越来越强烈,Python语言作为大家熟知的数据挖掘建模工具,有着非常广泛的应用前景。对任何数据从业者来说,宋天龙老师的这本书绝对是个惊喜,结构完整,案例丰富。在书中,宋老师展示了他在数据挖掘这一领域长远、广阔的视野和流畅简洁的文笔,假以时日,必成经典。
——宫鑫 射手学院创始人
围绕着数据化运营的话题和书籍越来越多,但令人唏嘘的是理论多过实践,故事多过案例。天龙的书总是有着很多的实际操作讲解和案例分析,强调动手,而不仅仅是强调认知。我认为这很是难能可贵的。推荐阅读,更建议读者跟随书籍的内容亲自动手实操。
——王晓东 TrueMetrics 创始人

内容简介
这是一部从实战角度讲解如何利用Python进行数据分析、挖掘和数据化运营的著作,不仅对数据分析的关键技术和技巧进行了总结,更重要的是对会员、商品、流量、内容4个主题的数据化运营进行了系统讲解。
作者是国内一线数据分析师和大数据专家,在数据分析和数据化运营领域有近10年的经验,在业内颇具知名度和影响力。本书不仅得到了宋星、黄成明、宫鑫等14位资深专家的好评和推荐,还得到了天善智能、中国统计网等多个数据科学相关机构的支持和高度认可。
全书的内容在逻辑上共分为两大部分:
第一部分(第1~4章):Python数据分析与挖掘
着重讲解了Python和数据化运营的基本知识,以及Python数据获取(结构化和非结构化)、预处理、分析和挖掘的关键技术和经验。包含11条数据预处理经验、39个数据预处理知识点、14个数据分析和挖掘的建模主题。
第二部分(第5~9章):Python数据化运营
这是本书的核心,详细讲解了会员运营、商品运营、流量运营和内容运营4大主题,以及提升数据化运营价值的方法。在每个运营主题中都包含了基本知识、评估指标、应用场景、数据分析模型、数据分析小技巧、数据分析大实话以及2个综合性的应用案例。
本书提供案例数据和源代码(中文注释)下载,供读者实操时使用。

作者简介

宋天龙(TonySong)
大数据技术专家,历任软通动力集团大数据研究院数据总监、Webtrekk(德国最大的网站数据分析服务提供商)中国区技术和咨询负责人、国美在线大数据中心经理。
擅长数据挖掘、建模、分析与运营,精通端到端的数据价值场景设计、业务需求转换、数据结构梳理、数据建模与学习,以及数据工程交付。拥有丰富的数据项目工作经验,参与过集团和企业级数据体系规划、大数据产品开发、网站流量系统建设、网站智能推荐、企业大数据智能等大型数据工作项目。参与实施多个客户案例,包括Webpower、德国OTTO集团电子商务(中国)、Esprit中国、猪八戒网、顺丰优选、乐视商城、泰康人寿、酒仙网,国美在线、迪信通等。
著有《网站数据挖掘与分析:系统方法与商业实践》《企业大数据系统构建实战:技术、架构、实施与应用》。

图书前言

为什么要写这本书
随着商业竞争形式的日益严峻,企业需要不断寻找提高利润率、降低成本、提高产出价值的有效方法,而数据化运营恰好是满足企业这一需求的关键武器。数据化运营包含了运营和数据两种要素,前者需要较多的业务经验,而后者对数据分析提出了更高的要求。只有把二者结合起来,在技能、经验和技术的支持下,数据化运营才能在企业内部真正落地、生根、发芽。
对数据化运营而言,各企业普遍关注的结构化数据分析、挖掘的场景非常丰富,例如销售预测、会员生命周期维护、商品结构分析等,这些普遍的共同认知为本书提供了接地气的基础;但除了这些“传统内容”外,还有很多非结构化的数据主题,它们在数据化运营过程中的作用越来越重要,例如主题挖掘、图片分析、文本挖掘、图像识别、语音识别等,这些内容拓展了数据化运营发挥价值的场景基础。
Python作为数据工作领域的关键武器之一,具有开源、多场景应用、快速上手、完善的生态和服务体系等特征,使其在数据分析与数据化运营中的任何场景都能游刃有余;即使是在为数不多的短板上,Python仍然可以基于其“胶水”的特征,引入对应的第三方工具、库、程序等来实现全场景、全应用的覆盖。在海量数据背景下,Python对超大数据规模的支持性能、数据分析处理能力、建模的专业程度及开发便捷性的综合能力方面要远远高于其他工具。因此,Python几乎是数据化运营工作的不二之选。
纵观整个国内市场,有关Python的书籍不少,但普遍的思路都是基于工具层面的介绍,而且侧重于工具本身的方法、参数、调用、实例,与真正实践结合的较少;有关数据化运营的书籍,目前市场上还为数不多,现有的数据化运营方面的书籍大多是基于Excel等工具的入门级别的分析类书籍。本书结合了Python和数据化运营两个方面,在结合了数据分析工作流程和数据化运营主题的基础上,通过指标、模型、方法、案例配合工具的形式,详细介绍了如何使用Python来支持数据化运营,尤其是传统工具无法满足的应用场景。
我希望能尽自己的微薄之力,将过往所学、所感、所知提炼出来供更多人了解。如果读者能从本书中感悟一二,我将倍感欣慰;如果读者能将其用于工作实践,这将是本书以及数据工作之福!
读者对象
本书定位于提供数据与运营结合的相关知识,虽然基础工具是Python,但本书并没有就Python基础规则和语法做详细介绍,因此要求读者具有一定的Python基础。相信我,只要你认真看Python教学视频(网络上很多),只需大概2个小时就能具备这种基础。
本书对读者的知识背景没有特定要求,书中的内容都尽量言简意赅、深入浅出。本书适合以下几类读者阅读:
企业运营人员。本书的核心命题就是运营,其中涉及会员运营、商品运营、流量运营和内容运营四大主题,无论运营人员希望获得运营知识,还是希望获得数据分析和挖掘方法,都可以从书中获益。
数据分析师。毫无疑问,数据分析师是本书的核心受众群体之一,本书中介绍的数据抽取、预处理和分析挖掘经验一定能为数据分析师带来很多“不一样”的收获,每个运营主题下的小技巧、模型和案例更能激发数据分析师的灵感—原来数据工作还能这样做。
Python工程师。坦白讲,本书不是一本专门介绍Python语法、规则的书籍。但Python作为一种“万能”工具,在数据分析和挖掘领域具有举足轻重的地位,任何一个Python工程师如果工作领域中涉及数据(或大数据),那么本书的价值会成倍增长。本书中对Python数据处理、计算和挖掘库的应用介绍,以及对有关工具库的用法、注意点和小知识的介绍一定会使Python工程师的工作和认知更上一层楼。
数据挖掘工程师。数据分析与挖掘在实际运营中是不分家的,本书没有冠以“挖掘”之名但并不意味着没有挖掘(或机器学习)算法。本书第4章基本都是围绕常用算法展开的,其中各个算法类的“大坑”都是笔者多年经验的总结;在运营主题中提到的基于超参数优化的Gradient Boosting的预测,基于LogisticRegression、RandomForest、Bagging概率投票组合模型的异常检测,基于自动K值的KMeans聚类分析,基于潜在狄利克雷分配(LDA)的内容主题挖掘,基于多项式贝叶斯的增量学习的文本分类等都是与“挖掘算法”相关的应用。算法是数据工作的核心部分,其介绍必不可少。
如何阅读本书
本书内容从逻辑上共分为两大部分,第一部分是有关数据分析类的主题,第二部分是有关数据化运营的主题。
第一部分的内容包括第1~4章和附录,主要介绍了Python和数据化运营的基本知识、数据来源获取、数据预处理,以及数据分析和挖掘的关键经验。其中:
第2章对传统的结构化和非结构化数据来源及获取方法进行了介绍,包括数据文件、数据库、API、流式数据、外部公开数据等,也提到了如何读取网页、文本、图片、视频、语音等类型的数据。
第3章总结了常用的11条结构化数据的预处理经验,并介绍了有关网页数据解析、日志解析、图像预处理和自然语言预处理的内容。
第4章总结了数据分析、挖掘和网站分析方法的8个主题类,各个类别中都以关键经验为基础展开详细介绍。
第二部分的内容包括第5~9章,分别介绍了会员运营、商品运营、流量运营和内容运营四大主题,以及提升数据化运营价值度的方法。在每个数据化运营主题中都包含了基本知识、评估指标、应用场景、数据分析模型、数据分析小技巧、数据分析大实话及2个应用案例。
基本知识:有关运营主题的基本内涵、价值、用途等方面的介绍。
评估指标:运营主题的评估指标,按类别拆分和归纳。
应用场景:总结数据对于运营的价值落地在哪些场景中。
数据分析模型:“大型”的数据分析方法,包括统计分析、数据挖掘、网站分析、数学模型。
数据分析小技巧:“小型”的数据分析方法,看起来相对简单但非常有效。
数据分析大实话:有关运营或数据分析的潜在规律的解释及介绍。
应用案例:每个运营主题都包含2个应用案例,基本上每个案例的应用算法和技巧都不相同,目的是呈现不同算法在不同场景下的差异化应用。
除了以上内容外,以下信息是在本书中涉及特定内容的解释和说明:
渐进式的内容:本书的Python代码和实现部分,在不同章节可能会具有不同代码风格的写法,包括定义规则、注释、功能实现等,这是因为笔者试图遵循循序渐进的原则,先介绍功能实现,然后再介绍其他的备选方案,以及规范、原则等来辅助Python的实现。这种做法一方面是希望尽量多地展示解决同一类问题的不同方法,让读者能根据自身实际情况选择最“合适”的用法示例;另一方面,可能有很多读者不具备较强的Python基础知识,因此笔者不希望一上来就让这些读者感觉到要用Python工作会受到各种“条条框框”的限制,从而打击他们使用Python的信心,毕竟,能实现功能需求是第一要素。
内容延伸:本书第1~4章都有内容延伸章节,其内容是有关非结构化主题的读取、分析、处理,由于每个主题展开来写都能成一本书,因此仅在内容延伸中抛砖引玉,有兴趣的读者可以了解和学习。
相关知识点:本书很多章节中都有“相关知识点”部分,其内容是关于特定工具、知识、算法、库等方面的较为详细的介绍,充当了本书的知识堡垒。
本章小结:每章的结尾都有“本章小结”,在小结中包含4部分内容:
内容小结:有关本章内容的总结
重点知识:本章需要读者重点掌握的知识和内容
外部参考:本章提到但是无法详细介绍的内容,都在外部参考中列出,有兴趣的读者可以基于外部参考构建自己的知识图谱。
应用实践:基于本章内容给出的读者在实践中落地的建议。
提示:对于知识点的重要提示和应用技巧,相对“相关知识点”而言,每条提示信息内容量较少,一般都是经验类的总结。
注意:特定知识需要引起注意的方面,这些注意点是应用过程中需要避免的“大坑”。
特定名词的混用:本书中提到了库和包、模型和算法等词,虽然含义有差异,但本书并没有划清它们的界限,因此在很多时候它们都是等价的。
关于附件的使用方法:除了第9章外,本书的每一章都有对应源数据和完整代码,该内容可在本书附件中找到,附件可以在华章网站http://www.hzbook.com或者笔者网站—数据常青藤http://www.dataivy.cn/book/python_book.zip下载。需要注意的是,为了更好地让读者了解每行代码的含义,笔者在注释信息中都使用了中文标注,每个程序文件的编码格式都是UTF-8。
勘误和支持
由于笔者水平有限,加之撰稿时间也有限,书中难免会出现一些错误或者不准确的地方,恳请读者批评指正。读者可通过以下途径联系并反馈建议或意见:
即时通信:添加个人QQ(517699029)或微信(TonySong2013)反馈问题。
直接扫描二维码添加个人微信。

网站讨论区:在笔者网站—数据常青藤的书籍讨论区http://www.dataivy.cn/python-data-analysis-and-data-operations/留言。
电子邮件:发送email到517699029@qq.com。
致谢
在本书的撰写过程中,得到了多方的指导、帮助和支持。
首先,感谢彭亮先生和史研先生。彭亮先生使我感受到什么是高度和专注,并促使我的数据工作真正意义上步入正途。史研先生对于大数据的广博认知和敏锐洞察力,让我有更多机会深入到不同的数据分支去探索未曾了解的领域。
其次,感谢的是机械工业出版社华章分社的总编辑杨福川老师,杨老师在我出版了两本书之后鼓励我继续撰写本书,并为此书的撰写提供了方向和思路指导。另外,感谢全程参与审核、校验等工作的孙海亮老师以及其他背后默默支持的出版工作者,他们的辛勤付出保证了本书的顺利面世。
再次,感谢在各个数据项目和工作中提供支持的领导、朋友、伙伴,尤其是田学锋,他是我的良师益友,他有着非比寻常的视野、胸怀和独到的见解,在我的人生道路上给与了我非常多的指导和启迪;其他还有很多一起工作的小伙伴(排名不分先后):庞程程、徐子东、赵光娟、王成、吕兆星、郑传峰、杨晓鹏、陈骏、江涛、曹佳佳、麻建昕、史晓春、杨勇等。
最后,感谢我的父母、家人和朋友,尤其是我的夫人姜丽女士,是她在我写书的这段期间里把家里的一切料理得井井有条,使得我有精力完成本书的全部撰写工作。
谨以此书献给热爱数据工作并为之奋斗的朋友们,愿大家身体健康、生活美满、事业有成!

宋天龙(Tony Song)

上架指导

计算机/数据分析

封底文字

数据分析师精通一两个工具是非常必要的,而Python是数据分析工具中的重器。我认为这是一本将Python与数据分析、数据营运结合得最好的一本书,一些常用的分析方法在书中都有具体的讲解。而书中大量的案列也能丰富读者的使用场景,值得大家仔细阅读,认真实操,一定会显著地提高自己的数据分析和运营能力。
——黄成明(@数据化管理) 数据化管理的咨询顾问及培训师
本书深入浅出地解析了有关数据分析和数据化运营的主要轮廓和流程,每个知识点都是其宝贵经验的总结。当前市场上不缺工具书,但是纯粹并具有深度的经验总结却少之又少,因为这需要足够的行业和职业积累。从这点上来讲,本书是经验的传递而非简单的“知识堆砌”,因此更加可贵。
——宋星 “网站分析在中国”创始人/阳狮锐奇数据解决方案总经理
本书不仅从技术角度介绍了数据采集、清洗、分析的相关工具与方法论,而且对其在运营方面的业务应用也进行了体系化的介绍,并辅以典型案例说明,是一本拿来即可用的书籍。
——田学峰 猪八戒金融副总经理
近年来,不论是零售、银行、保险还是证券,各行业对数据挖掘技术的需求越来越强烈,Python语言作为大家熟知的数据挖掘建模工具,有着非常广泛的应用前景。对任何数据从业者来说,宋天龙老师的这本书绝对是个惊喜,结构完整,案例丰富。在书中,宋老师展示了他在数据挖掘这一领域长远、广阔的视野和流畅简洁的文笔,假以时日,必成经典。
——宫鑫 射手学院 创始人
围绕着数据化运营的话题和书籍越来越多,但令人唏嘘的是理论多过实践,故事多过案例。天龙的书总是有着很多的实际操作讲解和案例分析,强调动手,而不仅仅是强调认知。我认为这很是难得可贵。推荐阅读,更建议跟随书籍的内容亲自动手。
——王晓东 TrueMetrics 创始人

作者简介

宋天龙 著:
作者宋天龙,TonySong,现任Webtrekk Business Consultant,网站分析和数据的从业者和爱好者,前国美在线数据分析经理,百度文库认证作者,站长之家和互联网分析沙龙专栏作家。

图书目录

赞誉
前言
第1章 Python和数据化运营1
1.1 用Python做数据化运营1
1.1.1 Python是什么1
1.1.2 数据化运营是什么2
1.1.3 Python用于数据化运营5
1.2 数据化运营所需的Python相关工具和组件6
1.2.1 Python程序6
1.2.2 Python IDE7
1.2.3 Python第三方库8
1.2.4 数据库和客户端16
1.2.5 SSH远程客户端18
1.3 内容延伸:Python的OCR和TensorFlow18
1.3.1 OCR工具:Tesseract-OCR18
1.3.2 机器学习框架—TensorFlow19
1.4 第一个用Python实现的数据化运营分析实例—销售预测20
1.4.1 案例概述20
1.4.2 案例过程20
1.4.3 案例小结28
1.5 本章小结28
第2章 数据化运营的数据来源31
2.1 数据化运营的数据来源类型31
2.1.1 数据文件31
2.1.2 数据库32
2.1.3 API33
2.1.4 流式数据34
2.1.5 外部公开数据34
2.1.6 其他35
2.2 使用Python获取运营数据35
2.2.1 从文本文件读取运营数据35
2.2.2 从Excel获取运营数据46
2.2.3 从关系型数据库MySQL读取运营数据48
2.2.4 从非关系型数据库MongoDB读取运营数据56
2.2.5 从API获取运营数据59
2.3 内容延伸:读取非结构化网页、文本、图像、视频、语音64
2.3.1 从网页中爬取运营数据64
2.3.2 读取非结构化文本数据65
2.3.3 读取图像数据65
2.3.4 读取视频数据68
2.3.5 读取语音数据70
2.4 本章小结75
第3章 11条数据化运营不得不知道的数据预处理经验76
3.1 数据清洗:缺失值、异常值和重复值的处理76
3.1.1 数据列缺失的4种处理方法76
3.1.2 不要轻易抛弃异常数据78
3.1.3  数据重复就需要去重吗79
3.1.4 代码实操:Python数据清洗81
3.2 将分类数据和顺序数据转换为标志变量89
3.2.1 分类数据和顺序数据是什么89
3.2.2 运用标志方法处理分类和顺序数据90
3.2.3 代码实操:Python标志转换90
3.3 大数据时代的数据降维94
3.3.1 需要数据降维的情况94
3.3.2 基于特征选择的降维94
3.3.3 基于维度转换的降维96
3.3.4 代码实操:Python数据降维97
3.4 解决样本类别分布不均衡的问题100
3.4.1 哪些运营场景中容易出现样本不均衡100
3.4.2 通过过抽样和欠抽样解决样本不均衡101
3.4.3 通过正负样本的惩罚权重解决样本不均衡101
3.4.4 通过组合/集成方法解决样本不均衡102
3.4.5 通过特征选择解决样本不均衡102
3.4.6 代码实操:Python处理样本不均衡102
3.5 如何解决运营数据源的冲突问题106
3.5.1 为什么会出现多数据源的冲突107
3.5.2 如何应对多数据源的冲突问题109
3.6 数据化运营要抽样还是全量数据109
3.6.1 什么时候需要抽样110
3.6.2 如何进行抽样110
3.6.3 抽样需要注意的几个问题111
3.6.4 代码实操:Python数据抽样113
3.7 解决运营数据的共线性问题116
3.7.1 如何检验共线性117
3.7.2 解决共线性的5种常用方法117
3.7.3 代码实操:Python处理共线性问题118
3.8 有关相关性分析的混沌120
3.8.1 相关和因果是一回事吗120
3.8.2 相关系数低就是不相关吗121
3.8.3 代码实操:Python相关性分析121
3.9 标准化,让运营数据落入相同的范围122
3.9.1 实现中心化和正态分布的Z-Score122
3.9.2 实现归一化的Max-Min123
3.9.3 用于稀疏数据的MaxAbs123
3.9.4 针对离群点的RobustScaler123
3.9.5 代码实操:Python数据标准化处理123
3.10 离散化,对运营数据做逻辑分层126
3.10.1 针对时间数据的离散化127
3.10.2 针对多值离散数据的离散化127
3.10.3 针对连续数据的离散化127
3.10.4 针对连续数据的二值化128
3.10.5 代码实操:Python数据离散化处理128
3.11 数据处理应该考虑哪些运营业务因素133
3.11.1 考虑固定和突发运营周期133
3.11.2 考虑运营需求的有效性134
3.11.3 考虑交付时要贴合运营落地场景134
3.11.4 不要忽视业务专家经验135
3.11.5 考虑业务需求的变动因素136
3.12 内容延伸:非结构化数据的预处理137
3.12.1 网页数据解析137
3.12.2 网络用户日志解析144
3.12.3 图像的基本预处理148
3.12.4 自然语言文本预处理154
3.13 本章小结157
第4章 跳过运营数据分析和挖掘的“大坑”159
4.1 聚类分析159
4.1.1 当心数据异常对聚类结果的影响160
4.1.2 超大数据量时应该放弃K均值算法160
4.1.3 聚类不仅是建模的终点,更是重要的中间预处理过程162
4.1.4 高维数据上无法应用聚类吗163
4.1.5 如何选择聚类分析算法164
4.1.6 代码实操:Python聚类分析164
4.2 回归分析172
4.2.1 注意回归自变量之间的共线性问题172
4.2.2 相关系数、判定系数和回归系数之间到底什么关系172
4.2.3 判定系数是否意味着相应的因果联系173
4.2.4 注意应用回归模型时研究自变量是否产生变化173
4.2.5 如何选择回归分析算法174
4.2.6 代码实操:Python回归分析174
4.3 分类分析183
4.3.1 防止分类模型的过拟合问题183
4.3.2 使用关联算法做分类分析183
4.3.3 用分类分析来提炼规则、提取变量、处理缺失值184
4.3.4 类别划分-分类算法和聚类算法都是好手185
4.3.5 如何选择分类分析算法186
4.3.6 代码实操:Python分类分析187
4.4 关联分析195
4.4.1 频繁规则不一定是有效规则195
4.4.2 不要被啤酒尿布的故事紧固你的思维196
4.4.3 被忽略的“负相关”模式真的毫无用武之地吗197
4.4.4 频繁规则只能打包组合应用吗198
4.4.5 关联规则的序列模式199
4.4.6 代码实操:Python关联分析200
4.5 异常检测分析206
4.5.1 异常检测中的“新奇检测”模式207
4.5.2 将数据异常与业务异常相分离207
4.5.3 面临维度灾难时,异常检测可能会失效208
4.5.4 异常检测的结果能说明异常吗208
4.5.5 代码实操:Python异常检测分析208
4.6 时间序列分析212
4.6.1 如果有自变量,为什么还要用时间序列212
4.6.2 时间序列不适合商业环境复杂的企业213
4.6.3 时间序列预测的整合、横向和纵向模式214
4.6.4 代码实操:Python时间序列分析214
4.7 路径、漏斗、归因和热力图分析234
4.7.1 不要轻易相信用户的页面访问路径237
4.7.2 如何将路径应用于更多用户行为模式的挖掘?237
4.7.3 为什么很多数据都显示多渠道路径的价值很小?238
4.7.4 点击热力图真的反映了用户的点击喜好?239
4.7.5 为什么归因分析主要存在于线上的转化行为240
4.7.6 漏斗分析和路径分析有什么区别240
4.8 其他数据分析和挖掘的忠告241
4.8.1 不要忘记数据质量的验证241
4.8.2 不要忽视数据的落地性242
4.8.3 不要把数据陈列当作数据结论242
4.8.4 数据结论不要产生于单一指标244
4.8.5 数据分析不要预设价值立场244
4.8.6 不要忽视数据与业务的需求冲突问题245
4.9 内容延伸:非结构化数据的分析与挖掘246
4.9.1 词频统计246
4.9.2 词性标注249
4.9.3 关键字提取253
4.9.4 文本聚类255
4.10 本章小结258
第5章 会员数据化运营260
5.1 会员数据化运营概述260
5.2 会员数据化运营关键指标261
5.2.1 会员整体指标261
5.2.2 会员营销指标261
5.2.3 会员活跃度指标263
5.2.4 会员价值度指标265
5.2.5 会员终生价值指标266
5.2.6 会员异动指标266
5.3 会员数据化运营应用场景267
5.3.1 会员营销267
5.3.2 会员关怀267
5.4 会员数据化运营分析模型268
5.4.1 会员细分模型268
5.4.2 会员价值度模型269
5.4.3 会员活跃度模型270
5.4.4 会员流失预测模型271
5.4.5 会员特征分析模型272
5.4.6 营销响应预测模型273
5.5 会员数据化运营分析小技巧274
5.5.1 使用留存分析新用户质量274
5.5.2 使用AARRR做APP用户生命周期分析275
5.5.3 借助动态数据流关注会员状态的轮转276
5.5.4 使用协同过滤算法为新会员分析推送个性化信息277
5.6 会员数据化运营分析的“大实话”279
5.6.1 企业“不差钱”,还有必要做会员精准营销吗279
5.6.2 用户满意度取决于期望和给予的匹配程度280
5.6.3 用户不购买就是流失了吗280
5.6.4 来自调研问卷的用户信息可信吗281
5.6.5 不要盲目相信二八法则283
5.7 案例:基于RFM的用户价值度分析283
5.7.1 案例背景283
5.7.2 案例主要应用技术284
5.7.3 案例数据284
5.7.4 案例过程284
5.7.5 案例数据结论294
5.7.6 案例应用和部署295
5.7.7 案例注意点295
5.7.8 案例引申思考296
5.8 案例:基于AdaBoost的营销响应预测297
5.8.1 案例背景297
5.8.2 案例主要应用技术297
5.8.3 案例数据298
5.8.4 案例过程298
5.8.5 案例数据结论313
5.8.6 案例应用和部署313
5.8.7 案例注意点314
5.8.8 案例引申思考315
5.9 本章小结315
第6章 商品数据化运营317
6.1  商品数据化运营概述317
6.2 商品数据化运营关键指标317
6.2.1 销售类指标317
6.2.2 促销活动指标320
6.2.3 供应链指标321
6.3 商品数据化运营应用场景323
6.3.1 销售预测323
6.3.2 库存分析323
6.3.3 市场分析324
6.3.4 促销分析324
6.4 商品数据化运营分析模型325
6.4.1 商品价格敏感度模型325
6.4.2 新产品市场定位模型326
6.4.3 销售预测模型327
6.4.4 商品关联销售模型327
6.4.5 异常订单检测328
6.4.6 商品规划的最优组合328
6.5 商品数据化运营分析小技巧330
6.5.1 使用层次分析法将定量与定性分析结合331
6.5.2 通过假设检验做促销拉动分析333
6.5.3 使用BCG矩阵做商品结构分析334
6.5.4 巧用4P分析建立完善的商品运营分析结构336
6.6 商品数据化运营分析的“大实话”337
6.6.1 为什么很多企业会以低于进价的价格大量销售商品337
6.6.2 促销活动真的是在促进商品销售吗339
6.6.3 用户关注的商品就是要买的商品吗340
6.6.4 提供的选择过多其实不利于商品销售341
6.7 案例:基于超参数优化的Gradient Boosting的销售预测341
6.7.1 案例背景341
6.7.2 案例主要应用技术341
6.7.3 案例数据342
6.7.4 案例过程343
6.7.5 案例数据结论351
6.7.6 案例应用和部署351
6.7.7 案例注意点351
6.7.8 案例引申思考351
6.8 案例:基于LogisticRegression、
   RandomForest、Bagging概率投票
   组合模型的异常检测352
6.8.1 案例背景352
6.8.2 案例主要应用技术352
6.8.3 案例数据353
6.8.4 案例过程353
6.8.5 案例数据结论364
6.8.6 案例应用和部署364
6.8.7 案例注意点365
6.8.8 案例引申思考365
6.9 本章小结367
第7章 流量数据化运营369
7.1 流量数据化运营概述369
7.2 8大流量分析工具369
7.3 如何选择第三方流量分析工具372
7.4 流量采集分析系统的工作机制375
7.4.1 流量数据采集376
7.4.2 流量数据处理379
7.4.3 流量数据应用380
7.5 流量数据与企业数据的整合381
7.5.1 流量数据整合的意义381
7.5.2 流量数据整合的范畴382
7.5.3 流量数据整合的方法382
7.6 流量数据化运营指标383
7.6.1 站外营销推广指标383
7.6.2 网站流量数量指标385
7.6.3 网站流量质量指标386
7.7 流量数据化运营应用场景389
7.7.1 流量采购389
7.7.2 流量分发391
7.8 流量数据化运营分析模型391
7.8.1 流量波动检测392
7.8.2 渠道特征聚类393
7.8.3 广告整合传播模型393
7.8.4 流量预测模型397
7.9 流量数据化运营分析小技巧398
7.9.1 给老板提供一页纸的流量dashboard398
7.9.2 关注趋势、重要事件和潜在因素是日常报告的核心400
7.9.3 使用从细分到多层下钻数据分析400
7.9.4 通过跨屏追踪解决用户跨设备和浏览器的访问行为401
7.9.5 基于时间序列的用户群体过滤403
7.10 流量数据化运营分析的“大实话”406
7.10.1 流量数据分析的价值其实没那么大406
7.10.2 如何将流量的实时分析价值最大化406
7.10.3 营销流量的质量评估是难点工作407
7.10.4 个性化的媒体投放仍然面临很多问题408
7.10.5 传统的网站分析方法到底缺少了什么409
7.11 案例:基于自动节点树的数据异常原因下探分析413
7.11.1 案例背景413
7.11.2 案例主要应用技术414
7.11.3 案例数据415
7.11.4 案例过程416
7.11.5 案例数据结论430
7.11.6 案例应用和部署431
7.11.7 案例注意点432
7.11.8 案例引申思考432
7.12 案例:基于自动K值的KMeans广告效果聚类分析433
7.12.1 案例背景433
7.12.2 案例主要应用技术433
7.12.3 案例数据434
7.12.4 案例过程434
7.12.5 案例数据结论446
7.12.6 案例应用和部署447
7.12.7 案例注意点448
7.12.8 案例引申思考448
7.13 本章小结449
第8章 内容数据化运营451
8.1 内容数据化运营概述451
8.2 内容数据化运营指标452
8.3 内容数据化运营应用场景455
8.4 内容数据化运营分析模型456
8.4.1 情感分析模型456
8.4.2 搜索优化模型 457
8.4.3 文章关键字模型457
8.4.4 主题模型458
8.4.5 垃圾信息检测模型459
8.5 内容数据化运营分析小技巧460
8.5.1 通过AB测试和多变量测试找到最佳内容版本460
8.5.2 通过屏幕浏览占比了解用户到底看了页面多少内容461
8.5.3 通过数据分析系统与CMS打通实现个性化内容运营462
8.5.4 将个性化推荐从网站应用到APP端466
8.6 内容数据化运营分析的“大实话”467
8.6.1 个性化内容运营不仅是整合CMS和数据系统467
8.6.2 用户在着陆页上不只有跳出和继续两种状态467
8.6.3 “人工组合”的内容运营价值最大化并非不能实现468
8.6.4 影响内容点击率的因素不仅有位置469
8.7 案例:基于潜在狄利克雷分配(LDA)的内容主题挖掘470
8.7.1 案例背景470
8.7.2 案例主要应用技术470
8.7.3 案例数据471
8.7.4 案例过程471
8.7.5 案例数据结论480
8.7.6 案例应用和部署481
8.7.7 案例注意点481
8.7.8 案例引申思考481
8.8 案例:基于多项式贝叶斯的增量学习的文本分类482
8.8.1 案例背景482
8.8.2 案例主要应用技术482
8.8.3 案例数据482
8.8.4 案例过程483
8.8.5 案例数据结论491
8.8.6 案例应用和部署491
8.8.7 案例注意点491
8.8.8 案例引申思考492
8.9 本章小结492
第9章 数据化运营分析的终极秘籍495
9.1 撰写出彩的数据分析报告的5个建议495
9.1.1 完整的报告结构495
9.1.2 精致的页面版式496
9.1.3 漂亮的可视化图形498
9.1.4 突出报告的关键信息500
9.1.5 用报告对象习惯的方式撰写报告501
9.2 数据化运营支持的4种扩展方式502
9.2.1 数据API502
9.2.2 数据模型503
9.2.3 数据产品503
9.2.4 运营产品504
9.3 提升数据化运营价值度的5种途径504
9.3.1 数据源:不只有结构化的数据,还有文本、图片、视频、语音504
9.3.2 自动化:建立自动任务,解除重复劳动505
9.3.3 未卜先知:建立智能预警模型,不要让运营先找你505
9.3.4 智能化:向BI-AI的方向走507
9.3.5 场景化:将数据嵌入运营环节之中507
9.4 本章小结508
附录509
附录A 公开数据集509
附录B Python数据工具箱516

教学资源推荐
作者: Jeffrey D.Ullman, Jennifer Widom
作者: 何宁 黄文斌 熊建强
作者: (美)W.H.Inmon
作者: 马义玲 汪令江 曾勇 曾新
参考读物推荐
作者: (美)Michael Abbey Michael Corey Ian Abramson
作者: (美)Shankaran Iyer
作者: 黄健宏 著
作者: 嬴图团队 著