首页>参考读物>计算机科学与技术>计算机文化用品

Python与数据挖掘
作者 : 张良均 杨海宏 何子健 杨征  等著
丛书名 : 大数据技术丛书
出版日期 : 2016-11-17
ISBN : 978-7-111-55261-1
定价 : 49.00元
扩展资源下载
扩展信息
语种 : 简体中文
页数 : 185
开本 : 16
原书名 :
原出版社:
属性分类: 店面
包含CD :
绝版 : 未绝版
图书简介

本书主要分为两大部分,基础篇和建模应用篇。基础篇介绍了有关Python开发环境的搭建、Python基础入门、函数、面向对象编程、实用模块和图表绘制等基础知识。建模应用篇主要介绍了目前在数据挖掘中的常用的建模方法在Python中的实现函数,并对输出结果进行了解释,有助于读者快速掌握应用Python进行分析挖掘建模的方法。图书配套提供了程序代码及数据,读者可通过上机实验,快速掌握书中所介绍的Python的使用方法。
第一部分是基础篇(1~7章),第1章旨在让读者从全局把握数据挖掘、常用工具对比和Python的优劣;第2章对Python开发环境的搭建以及本书的习惯作必要的介绍;第3章正式开始讲解Python的基础知识,包括操作符、变量类型、流程控制、数据结构等内容;第4、5章主要对Python面向对象的特性进行介绍,包括函数、类与对象等基本概念;第6章介绍主流的数据分析与挖掘的模块,以及其中具体的方法及对应的功能,旨在让读者对各个模块建立强大的直觉;第七章继续拓展了模块的相关内容,提及图表绘制的专用模块:Matplotlib和Bokeh,展示如何方便地绘制点、线、图等,深入浅出。
第二部分是建模应用篇(8~12章),第8~11章主要对数据挖掘中的常用算法进行介绍,强调在Python中对应函数的使用方法及其结果的解释说明。内容涵盖四大主流的数据挖掘算法,包括分类与预测、聚类分析、关联规则和智能推荐。按照模型建立至模型评价的架构进行介绍,使读者能熟练的掌握从建模到对模型评价的完整建模过程。最后一章则介绍调用API的方式,通过对两个热门应用(Twitter & Linkdin)进行社交网络分析,激发读者对数据挖掘的进一步兴趣。

图书特色

10余位数据挖掘领域资深专家和科研人员,10余年大数据挖掘咨询与实施经验结晶。本书注重易用性和实践性,旨在让读者快速掌握运用Python语言进行数据分析与挖掘的方法,从应用层面讲解初学者最急切需要了解的功能,深入浅出地介绍了数据挖掘中常用的建模实现函数

随着云时代的来临,大数据技术将具有越来越重要的战略意义。作为数据存储和挖掘分析的前沿技术,大数据分析已广泛应用于各行业及业务职能领域,尤其是物联网、云计算、移动互联网等战略性新兴产业,帮助企业用户在合理时间内管理、攫取、整理海量数据,为企业经营决策提供数据指导。
为了满足当前社会对大数据分析人才的学习需求,本书从初学者的角度,从大家熟知的数据挖掘建模工具Python展开,深入浅出地介绍了数据挖掘中常用建模方法在Python语言中的实现函数,并对输出结果进行了详尽阐述,同时结合具体实例,通过理论+实践的方式,讲解了分类与预测、聚类分析、关联规则、智能推荐和时间序列等分析算法,帮助读者快速掌握应用Python进行挖掘建模的方法。此外,本书提供了配套的示例代码及数据文件,读者可通过上机实验,快速掌握书中所介绍的Python的使用方法。

内容简介
这是一本适合教学和零基础自学的Python与数据挖掘的教程,即便你完全没有Python编程基础和数据挖掘基础,根据本书中的理论知识和上机实践,也能迅速掌握如何使用Python进行数据挖掘。本书已经被多所高校预定为教材,为了便于教学,书中还提供了大量的上机实验和教学资源。

本书主要分为两篇:
基础篇(第1~6章):第1章旨在让读者从全局把握数据挖掘、建模工具以及Python开发环境的搭建;第2章正式讲解Python的基础知识,包括操作符、变量类型、流程控制、数据结构等内容;第3、4章主要对Python面向对象的特性进行介绍,包括函数、类与对象等基本概念;第5章介绍主流的数据分析与挖掘的模块,及其具体的方法及对应的功能;第6章继续拓展了模块的相关内容,介绍图表绘制的专用模块(Matplotlib和Bokeh),深入浅出地展示如何方便地绘制点、线、图等。
建模应用篇(第7~11章):主要对数据挖掘中的常用算法进行介绍,强调在Python中对应函数的使用方法及其结果的解释说明。内容涵盖五大主流的数据挖掘算法,包括分类与预测、聚类分析建模、关联规则分析、智能推荐和时间序列分析。按照从模型建立到模型评价的架构进行介绍,使读者熟练掌握从建模到对模型评价的完整建模过程。

作者简介
张良均,中国大数据挖掘培训教父,高级信息系统项目管理师,有近20年的大数据挖掘应用、咨询和培训经验,“泰迪杯”全国数据挖掘挑战赛(www.tipdm.org)的发起人。为电信、电力、互联网、生产制造、零售、银行、生物、化工、医药等多个行业上百家大型企业及政府相关部门提供过数据挖掘应用与咨询服务,实践经验非常丰富。
现任广东工业大学、华南师范大学、华南农业大学、贵州师范学院、韩山师范学院、广东技术师范学院、广西科技大学的兼职教授。著有《神经网络实用教程》《数据挖掘:实用案例分析》《MATLAB数据分析与挖掘实战》《R语言数据分析与挖掘实战》《Python数据分析与挖掘实战》《Hadoop大数据分析与挖掘实战》《R语言与数据挖掘》等畅销图书。

图书前言

为什么要写本书?
Python是什么?
Python是一种带有动态语义的、解释性的、面向对象的高级编程语言。其高级内置数据结构,结合动态类型和动态绑定,使其对于敏捷软件开发非常具有吸引力。同时,Python作为脚本型(胶水)语言连接现有的组件也十分高效。Python语法简洁,可读性强,从而能降低程序的维护成本。不仅如此,Python支持模块和包,鼓励程序模块化和代码重用。
Python语言的解释性使其语法更接近人类的表达和思维过程,开发程序的效率极高。习惯使用Python者,总习惯在介绍Python时强调一句话:“人生苦短,我用Python。”由于没有编译步骤,“写代码—测试—调试”的流程能被快速地反复执行。
作为一款用途广泛的语言,Python在数据分析与机器学习领域的表现,称得上“一任群芳妒”。2016年3月,国外知名技术问答社区StackOverflow发布了《2016年开发者调查报告》。此调查号称是有史以来最为全面的开发者调查。其中,数据科学家的十大技术栈中,有7个包含Python。具体来说,数据科学家中有63%正在使用Python,44%正在使用R语言。而且,27%的人同时使用这两种语言。Python还在“最多人使用的技术”“最受欢迎技术”“需求度最高技术”等榜单中名列前十。
Python的明显优势:
Python作为一款优雅、简洁的开源编程语言,吸引了世界各地顶尖的编程爱好者的注意力。每天都有数量众多的开源项目更新自己的功能,作为第三方模块为其他开发者提供更加高效、便利的支持。
Python提供了丰富的API和工具,以便程序员能够轻松地使用C、C++、Cython来编写扩充模块,从而集成多种语言的代码,协同工作。一些算法在底层用C实现后,封装在Python模块中,性能非常高效。
Python受到世界各地开发者的一致喜爱,在世界范围内被广泛使用。这意味着读者可以通过查看代码范例,快速学习和掌握相关内容。
Python语言简单易学,语法清晰。Python开发者的哲学是“用一种方法,最好是只有一种方法来做一件事”。通常,相较其他语言,Python的源代码被认为具有更好的可读性。
2004年,Python 已在Google 内部使用,他们的宗旨是:Python where we can,C++ where we must,即在操控硬件的场合使用C++,在快速开发时使用Python。
总的来说,Python是一款用于数据统计、分析、可视化等任务,以及机器学习、人工智能等领域的高效开发语言。它能满足几乎所有数据挖掘下所需的数据处理、统计模型和图表绘制等功能需求。大量的第三方模块所支持的内容涵盖了从统计计算到机器学习,从金融分析到生物信息,从社会网络分析到自然语言处理,从各种数据库各种语言接口到高性能计算模型等领域。随着大数据时代的来临,数据挖掘将更加广泛地渗透到各行各业中去,而Python作为数据挖掘里的热门工具,将会有更多不同行业的人加入到Python爱好者的行列中来。完全面向对象的Python的教学工作也将成为高校中数学与统计学专业的重点发展对象,这是大数据时代下的必然趋势。
本书特色
笔者从实际应用出发,结合实际例子及应用场景,深入浅出地介绍Python开发环境的搭建、Python基础入门、函数、面向对象编程、实用模块和图表绘制及常用的建模算法在Python中的实现方式。本书的编排以Python语言的函数应用为主,先介绍了函数的应用场景及使用格式,再给出函数的实际使用示例,最后对函数的运行结果做出了解释,将掌握函数应用的所需知识点按照实际使用的流程展示出来。
为方便读者理解Python语言中相关函数的使用,本书配套提供了书中使用的示例的代码及所用的数据,读者可以从“泰迪杯”全国数据挖掘挑战赛网站(http://www.tipdm.org/ts/755.jhtml)上免费下载。读者也可通过热线电话(40068-40020)、企业QQ(40068-40020)或以下微信公众号咨询获取。
   
TipDM 张良均〈大数据挖掘产品与服务〉
本书适用对象
开设有数据挖掘课程的高校教师和学生。
目前国内不少高校将数据挖掘引入本科教学中,在数学、计算机、自动化、电子信息、金融等专业开设了数据挖掘技术相关的课程,但目前这一课程的教学使用的工具仍然为SPSS、SAS等传统统计工具,并没有使用Python作为教学工具。本书提供了有关Python语言的从安装到使用的一系列知识,将能有效指导高校教师和学生使用Python。
数据挖掘开发人员。
这类人员可以在理解数据挖掘应用需求和设计方案的基础上,结合本书提供的Python的使用方法快速入门并完成数据挖掘应用的编程实现。
进行数据挖掘应用研究的科研人员。
许多科研院所为了更好地对科研工作进行管理,纷纷开发了适应自身特点的科研业务管理系统,并在使用过程中积累了大量的科研信息数据。Python可以提供一个优异的环境对这些数据进行挖掘分析应用。
关注高级数据分析的人员。
Python作为一个广泛用于数据挖掘领域的编程语言,能为数据分析人员提供快速的、可靠的分析依据。
如何阅读本书
本书主要分为两大部分,基础篇和建模应用篇。基础篇介绍了有关Python开发环境的搭建、Python基础入门、函数、面向对象编程、实用模块和图表绘制等基础知识。建模应用篇主要介绍了目前数据挖掘中常用的建模方法在Python中的实现函数,并对输出结果进行了解释,有助于读者快速掌握应用Python进行分析挖掘建模的方法。读者可结合本书提供的示例代码及数据进行上机实验,快速掌握书中所介绍的Python的使用方法。
第一部分是基础篇(1~6章)。第1章旨在让读者从全局把握数据挖掘、常用工具对比、Python开发环境的搭建以及本书的写作习惯;第2章正式开始讲解Python的基础知识,包括操作符、变量类型、流程控制、数据结构等内容;第3、4章主要对Python面向对象的特性进行介绍,包括函数、类与对象等基本概念;第5章介绍主流的数据分析与挖掘的模块,以及其中具体的方法及对应的功能,旨在让读者对各个模块建立强大的直觉;第6章继续拓展了模块的相关内容,提及图表绘制的专用模块(Matplotlib和Bokeh),深入浅出地展示如何方便地绘制点、线、图等。
第二部分是建模应用篇(7~11章)。本部分主要对数据挖掘中的常用算法进行介绍,强调在Python中对应函数的使用方法及其结果的解释说明。内容涵盖五大主流的数据挖掘算法,包括分类与预测、聚类分析建模、关联规则分析、智能推荐和时间序列分析。按照模型建立至模型评价的架构进行介绍,使读者能熟练掌握从建模到对模型评价的完整建模过程。
勘误和支持
除封面署名外,参加本书编写工作的还有杨坦、刘名军、陈婷婷、陈玉辉、施兴、黄博、王路、黄东鑫等。由于水平有限,编写时间仓促,书中难免会出现一些错误或者不准确的地方,恳请读者批评指正。本书内容的更新将及时在“泰迪杯”全国数据挖掘挑战赛网站(www.tipdm.org)上发布。读者可通过作者微信公众号TipDM(微信号:TipDataMining)、TipDM官网(www.tipdm.com)反馈有关问题。也可通过热线电话(40068-40020)或企业QQ(40068-40020)进行咨询。
如果您有更多的宝贵意见,欢迎发送邮件至邮箱13560356095@qq.com,期待能够得到您的真挚反馈。
致谢
本书编写过程中得到了广大高校师生的大力支持!在此谨向华南农业大学、华南师范大学、广东工业大学、广东技术师范学院、华南理工大学、韩山师范学院、中山大学、贵州师范学院等单位给予支持的领导及师生致以深深的谢意。
在本书的编辑和出版过程中还得到了参与“泰迪杯”全国数据挖掘挑战赛(http://www.tipdm.org)的众多师生及机械工业出版社杨福川老师无私的帮助与支持,在此一并表示感谢。

张良均

上架指导

计算机课程/大数据

封底文字

英文名:Python and Data Mining

随着云时代来临,大数据技术将具有越来越重要的战略意义。作为数据存储和挖掘分析的前沿技术,大数据分析已广泛应用于各行业及业务职能领域,尤其是物联网、云计算、移动互联网等战略性新兴产业,帮助企业用户在合理时间内攫取、管理、处理、整理海量数据,为企业经营决策提供数据指导。
为了满足当前大数据分析人才的学习需求,本书从初学者的角度,以大家熟知的数据挖掘建模工具Python展开,深入浅出地介绍了数据挖掘中常用建模方法在Python语言中的实现函数,并对输出结果进行了详尽阐述,同时结合具体实例,通过理论+实践的方式,讲解了分类与预测、聚类分析、关联规则、智能推荐和时间序列等分析算法,帮助读者快速掌握应用Python进行挖掘建模的方法。此外,本书提供了配套的示例代码及数据文件,读者可通过上机实验,快速掌握书中所介绍的Python的使用方法。

作者简介

张良均 杨海宏 何子健 杨征  等著:暂无简介

图书目录

前言
第一部分 基础篇
第1章 数据挖掘概述 2
1.1 数据挖掘简介 2
1.2 工具简介 3
1.2.1 WEKA 3
1.2.2 RapidMiner 4
1.2.3 Python 5
1.2.4 R 5
1.3 Python开发环境的搭建 6
1.3.1 Python安装 6
1.3.2 Python初识 11
1.3.3 与读者的约定 14
1.4 小结 15
第2章 Python基础入门 16
2.1 常用操作符 16
2.1.1 算术操作符 17
2.1.2 赋值操作符 17
2.1.3 比较操作符 18
2.1.4 逻辑操作符 18
2.1.5 操作符优先级 18
2.2 数字数据 19
2.2.1 变量与赋值 19
2.2.2 数字数据类型 20
2.3 流程控制 20
2.3.1 if语句 21
2.3.2 while循环 23
2.3.3 for循环 25
2.4 数据结构 27
2.4.1 列表 28
2.4.2 字符串 31
2.4.3 元组 35
2.4.4 字典 36
2.4.5 集合 39
2.5 文件的读写 40
2.5.1 改变工作目录 40
2.5.2 txt文件读取 41
2.5.3 csv文件读取 42
2.5.4 文件输出 43
2.5.5 使用JSON处理数据 43
2.6 上机实验 44
第3章 函数 47
3.1 创建函数 48
3.2 函数参数 50
3.3 可变对象与不可变对象 52
3.4 作用域 53
3.5 上机实验 55
第4章 面向对象编程 56
4.1 简介 56
4.2 类与对象 58
4.3 __init__方法 59
4.4 对象的方法 61
4.5 继承 65
4.6 上机实验 68
第5章 Python实用模块 69
5.1 什么是模块 69
5.2 NumPy 70
5.3 Pandas 75
5.4 SciPy 81
5.5 scikit-learn 84
5.6 其他Python常用模块 87
5.7 小结 88
5.8 上机实验 88
第6章 图表绘制入门 89
6.1 Matplotlib 89
6.2 Bokeh 94
6.3 其他优秀的绘图模块 97
6.4 小结 97
6.5 上机实验 97
第二部分 建模应用篇
第7章 分类与预测 100
7.1 回归分析 100
7.1.1 线性回归 101
7.1.2 逻辑回归 104
7.2 决策树 107
7.2.1 ID3算法 107
7.2.2 其他树模型 111
7.3 人工神经网络 113
7.4 kNN算法 122
7.5 朴素贝叶斯分类算法 124
7.6 小结 127
7.7 上机实验 127
第8章 聚类分析建模 129
8.1 K-Means聚类分析函数 129
8.2 系统聚类算法 133
8.3 DBSCAN聚类算法 138
8.4 上机实验 142
第9章 关联规则分析 144
9.1 Apriori关联规则算法 145
9.2 Apriori在Python中的实现 146
9.3 小结 149
9.4 上机实验 149
第10章 智能推荐 151
10.1 基于用户的协同过滤算法 152
10.2 基于用户的协同过滤算法在Python中的实现 154
10.3 小结 157
10.4 上机实验 157
第11章 时间序列分析 159
11.1 ARIMA模型 159
11.2 小结 171
11.3 上机实验  172
参考文献 174

教学资源推荐
作者: [澳大利亚] 拉库马·布亚(Rajkumar Buyya)[爱沙尼亚] 萨蒂什·纳拉亚纳·斯里拉马(Satish Narayana Srirama) 等编著