参考读物 – 图书教辅

扩展信息

语种 : 简体中文

页数 : 272

开本 : 16

原书名 : Practical Data Science with SAP: Machine Learning Techniques for Enterprise Data

原出版社: O'Reilly Media, Inc.

属性分类: 店面

包含CD : 无CD

绝版 : 未绝版

图书简介

本书向SAP专业人员介绍了机器学习和神经网络等数据科学基本原理，也向数据科学家介绍了SAP系统的数据结构和数据服务等概念和过程。接着介绍了数据探索性分析和异常检测这两个非常基础又十分重要的数据准备阶段，然后通过模拟Big Bonanza Warehouse的业务场景，进行基于时间序列的销量预测分析、基于聚类的客户细分、基于关联规则的数据挖掘和基于自然语言处理的情感分析等实际分析过程。

图书特色

无

图书前言

数据科学和人工智能的未来从未像现在这样光明。现在，人工智能（AI）在多种游戏中都能击败人类，从紧张的游戏Pong到需要深入思考的围棋游戏等。深度学习模型识别物体的能力几乎和人类不相上下。甚至有人说，自动驾驶汽车的表现比那些注意力不集中的人还要好。过去十年来，数据量、存储容量和计算能力的大幅提升，使数据科学得以快速发展。
当然，现在技术已经渗透到业务的各个方面，从财务、销售到生产和物流。然而，业务的每一部分都是由数据科学和人工智能驱动的吗？很可能不是。尽管这些技术非常好，但如果你的工作不是设计自动驾驶汽车或预测客户行为，你可能就不会用到它们。
许多组织可能会从SAP之类的企业资源计划（ERP）系统访问业务数据，你所在的组织可能也不例外。来自SAP这样的业务系统的数据在很大程度上是完美的，因为在允许将其保存到数据库之前，通常会进行验证和检查（数据科学家最重要、回报率最少的一个任务就是数据清洗）。这意味着SAP中的ERP数据已经“成熟”，而数据科学就是来收获果实的！
让我们来看一个假设的场景。Big Bonanza Warehouse公司的SAP团队一直在不断地进行流程改进。他们知道如何配置SAP系统以完成用户想要的任务，像拉小提琴一样操作着这个系统，尽职尽责地接受请求并提供解决方案。然而，在报告和分析方面存在一些问题。他们有一个数据仓库和商业智能系统，但开发报告是一个耗时几个月的过程。该团队经常使用标准的ALV（ABAP列表查看器）报告，因为需要开发人员来编写代码，所以功能相当有限。此外，利用可与SAP结合使用的公共数据也很困难。与许多其他企业一样，Big Bonanza Warehouse公司的SAP数据就像一座孤岛，孤立在自己的系统中。不使用SAP系统的团队不了解这些数据，而那些使用SAP的团队要花费大量的时间维护系统，以至于没有机会查看系统外部的数据。
可是，SAP数据不应该是一个孤岛。团队人员了解他们的数据，知道如何找到这些数据，也知道用这些数据能做些什么。然而，要分析这些数据时，每个人都被长达数月的报告开发过程所束缚。
故事听起来是不是很熟悉？几乎所有我们工作过的SAP现场都是如此。在我们30多年的工作经历中，这样的事例比比皆是。
我们希望为SAP团队（当然包括你的团队）提供一些现代工具和技术，让团队人员无须定义数据立方、数据仓库对象或学习复杂的前沿报告就能使用这些技术。在本书中，我们将介绍一些简单的场景，比如直接将数据从SAP转储到平面文件，并导入报表工具中。这对于特别的报告和调查非常有用。我们也会考虑更复杂的场景，包括使用云中的数据抽取工具和神经网络模型，以SAP或当前数据仓库中不可能的方式来分析数据。
如何阅读本书
你需要从概念的角度来理解本书。我们提出了分析业务数据的替代技术，要求读者以全新的、有趣的方式来思考业务数据（尤其是SAP数据）。本书旨在缩小你所拥有的特定业务数据分析技术和先进数据科学技术之间的差距，既不需要你是精于计算神经网络中梯度下降这样的复杂算法的专家，也不需要你是业务数据方面的专家。但是，你需要有跨越这两个阵营的强烈愿望，并想在这个过程中获得乐趣注。
从数据科学家的角度来看，本书中的数据科学原理只是一个入门介绍。如果你很熟悉sigmoid、tanh、relu等激活函数，就可以跳过这些部分。我们将重点关注SAP，展示如何从系统中提取数据，并演示如何使用真实的业务数据。
从SAP专业人员的角度来看，你将突破传统的报表和分析模式，学会思考业务应用，并用机器学习和深度学习的术语来生成报告。这听起来可能很神秘，但到本书结束时，你将拥有迈出这一步所需的工具。在此过程中，你将自动检测销售数据中的异常，根据历史数据预测未来，将文本处理为自然语言，将客户细分为智能群组，将所有这些东西出色地可视化，并教会机器使用业务数据。
在人工智能和数据科学的世界里，对数据提出同样的老问题是陈腐和幼稚的，更坦率地说是无聊的。我们希望你对自己的数据提出这样的问题，即连你自己都不知道能够问出的问题。也许中国的茶叶价格真的会对你的销售产生巨大的影响。
从开发者的角度来看，你会深受启发，去学习Python和R等美妙的编程语言。我们不教你这些语言，但鼓励你学习这些语言。如果你已经是一个有经验的R或Python开发人员，则可以很好地完成代码部分的学习。如果你是R或Python语言的新手，我们将为你提供资源，帮助你入门。如果你倾向于使用Java等其他语言，也不要觉得自己被排除在外了，本书的根本目标是让你以不同的方式来思考业务数据，如果你想使用Java，请尽情使用吧。
数据科学的实施本身就可以写成一本书。我们会经常涉及如何实现我们提出的想法，但是深入探讨创建鲁棒的数据科学流程超出了本书的讨论范围。
数据科学家可以跳过本书第2章，SAP专业人员可以跳过本书第3章。本书后面的内容融合了这两个门类，所以，我们希望来自两方的读者都能够有效地学习本书。
致谢
感谢本书的技术审校者Hau Ngo、Jesse Stiff、Franco Rizzo、Brad Barker和Christoph Wertz，他们宝贵的反馈意见使每一章都变得更好。
我们的编辑Nicole帮助我们保持冷静，让我们在写作过程中脚踏实地。如果没有他的指导，我们会迷失在复杂的数据科学和混乱的代码中。他让每一章的可读性都更好。
Greg要感谢他的妻子Alycia，谢谢她的耐心、支持和洞见。Greg也要感谢他的兄弟Cory对本书绘图的帮助。当然，还要感谢合作者Paul Modderman的远见卓识、聪明才智和踏上这段旅程的勇气。
Paul要感谢他的妻子Christa Modderman的智慧和力量，感谢他的祖母Lois Stratmann以卓越人生所树立的榜样，感谢他的父母Mark和Linda。此外，感谢Tony Vanderpoel、Dean Stoffel和Gavin Quinn，他们的鼓励、信任和启迪使他在专业上更好地提升自己。由衷感谢合作者Greg，他是一位杰出的作家，从不放弃质量。Eleanor Modderman永远都是他的最爱。
特别感谢Wade Krzmarzick对CRM场景提供的帮助。
排版约定
本书中使用以下排版约定：
斜体（Italic）
表示新的术语、URL、电子邮件地址、文件名和文件扩展名。
等宽字体（Constant width）
用于程序清单，以及段落中的程序元素，例如变量名、函数名、数据库、数据类型、环境变量、语句以及关键字。
等宽粗体（Constant width bold）
表示应由用户直接输入的命令或其他文本。
等宽斜体（Constant width italic）
表示应由用户提供的值或由上下文确定的值替换的文本。
该图示表示提示或建议。
该图示表示一般性说明。
该图示表示警告或注意。
示例代码
这里的代码是为了帮助你更好地理解本书的内容。通常，可以在程序或文档中使用本书中的代码，而不需要联系O扲eilly获得许可，除非需要大段地复制代码。例如，使用本书中所提供的几个代码片段来编写一个程序不需要得到我们的许可，但销售或发布O扲eilly的示例代码则需要获得许可。引用本书的示例代码来回答问题也不需要许可，将本书中的很大一部分示例代码放到自己的产品文档中则需要获得许可。
非常欢迎读者使用本书中的代码，希望（但不强制）注明出处。注明出处的形式包含书名、作者、出版社和ISBN，例如：
Practical Data Science with SAP，作者Greg Foss和Paul Modderman，由O扲eilly出版，书号978-1-492-04644-8
如果读者觉得对示例代码的使用超出了上面所给出的许可范围，欢迎通过permission@oreilly.com联系我们。
O扲eilly在线学习平台（O'Reilly Online Learning）
40多年来，O'Reilly Media致力于提供技术和商业培训、知识和卓越见解，来帮助众多公司取得成功。
我们拥有独一无二的专家和革新者组成的庞大网络，他们通过图书、文章、会议和我们的在线学习平台分享他们的知识和经验。O扲eilly的在线学习平台允许你按需访问现场培训课程、深入的学习路径、交互式编程环境，以及O扲eilly和200多家其他出版商提供的大量文本和视频资源。有关的更多信息，请访问http://oreilly.com。
如何联系我们
对于本书，如果有任何意见或疑问，请按照以下地址联系本书出版商。
美国：
O'Reilly Media，Inc.
1005 Gravenstein Highway North
Sebastopol，CA 95472
中国：
北京市西城区西直门南大街2号成铭大厦C座807室（100035）
奥莱利技术咨询（北京）有限公司
要询问技术问题或对本书提出建议，请发送电子邮件至bookquestions@oreilly.com。
本书配套网站https://oreil.ly/practical-data-sci-sap上列出了勘误表、示例以及其他信息。
关于书籍、课程、会议和新闻的更多信息，请访问我们的网站http://www.oreilly.com。
我们在Facebook上的地址：http://facebook.com/oreilly
我们在Twitter上的地址：http://twitter.com/oreillymedia
我们在YouTube上的地址：http://www.youtube.com/oreillymedia

上架指导

计算机\数据科学

封底文字

你是否正在使用SAP ERP，并急切地想释放其数据的巨大价值？通过这本实用指南，资深SAP专家Greg Foss和Paul Modderman展示了如何使用多种数据分析工具来解决有关SAP数据的问题。在本书中，你将跟随一家虚构的公司处理真实的业务场景。
使用真实数据创建示例代码并进行可视化，SAP业务分析师将学到一些实用方法来获取对业务数据更深入的洞见，数据工程师和数据科学家将探索添加SAP数据到分析流程的方法。通过对SAP流程和数据科学工具的基础讲解，你将学习揭示数据真相的强大方法。
? 使用数据讲述关于客户的有启发性的故事。
? 利用探索性数据分析建立请购数据模型。
? 创建SAP销售订单的异常检测系统。
? 使用R和Python进行销售数据预测。
? 根据购买行为进行客户聚类和细分。
? 使用关联规则挖掘客户购买模式。
? 应用NLP发现最需要回应的客户投诉。
“ 我很喜欢这种形式，首先根据业务需求提出方案，然后确定数据提取流程，接着再探索数据。在全世界运行SAP的组织中，有大量未开发的数据正等待我们去探索。”
——Jesse Stiff
Upsher-Smith实验室的
SAP业务分析师
Greg Foss是Blue Diesel Data Science公司的创始人，也是医药智能平台VisionaryRX的主要开发人员和架构师。
Paul Modderman是Mindset Consulting公司的数字体验架构师，他创建了CloudSimple和Analytics for BW等认证解决方案。

译者序

“数据科学和人工智能的未来从未像现在这样光明！”（请允许我直接引用原书的开场白。）“这是最美好的时代，这是最糟糕的时代。”英国著名作家狄更斯在《双城记》开篇这样写道。无数经典名著和故事都给人们留下了深刻的印象，本书作者在开篇也给我们讲述了讲好故事的重要性。用数据讲述故事，你得确定好：想从数据中得到什么，你的听众是业务人员还是管理人员，你的数据来自哪里，采用什么工具和方法使你的故事更精彩。从一定程度上来说，数据科学不仅是科学也是艺术。
随着数据科学和人工智能的发展，就像石油是一种重要的能源和矿产一样，数据已经成为推动数字经济发展的核心生产要素。在本书中，作者虚拟了一个Big Bonanza Warehouse公司，针对传统SAP系统的典型应用场景，阐述了现代机器学习分析方法，具有很好的真实企业场景的代入感。所以，无论是机器学习的爱好者、SAP系统的业务分析师、数据科学的咨询师还是企业管理人员，都能从本书中看到自己的影子，都能通过本书体验到从数据资源中挖掘财富的乐趣。
我们在市场上见过很多关于数据库和机器学习的图书，但是真正将两者有机结合，实现企业数据分析的实用教材却少得可怜，本书就属于这种精心组织又难得一见的实用指导书。本书首先向SAP专业人员介绍了机器学习和神经网络等数据科学基本原理，也向数据科学家介绍了SAP系统的数据结构和数据服务等概念，使初学者不至于被陌生的概念吓到。接着，进入了数据探索性分析和异常检测这两个非常基础又十分重要的数据准备阶段。最后，通过模拟Big Bonanza Warehouse公司的业务场景，带领我们学习基于时间序列的销量预测分析、基于聚类的客户细分、基于关联规则的数据挖掘和基于自然语言处理的情感分析等实际分析过程。
本书示例生动、代码简洁、图表丰富，可帮助你快速掌握数据获取、数据处理和机器学习建模的相关过程，为你的分析报告和科学发现助力添彩。本书可以作为高等院校数据科学、机器学习、人工智能和企业管理等学科的教材，也可以作为SAP业务分析人员、R语言和Python语言开发人员的参考书。
本书第5章由解放军信息工程大学刘楠副教授翻译，其余章节由河南工业大学人工智能与大数据学院于俊伟副教授翻译。本书的翻译工作得到河南工业大学第二批青年骨干教师培育计划和2021年度河南省重点研发与推广专项（科技公关）项目的资助。感谢机械工业出版社华章分社对本书出版的高度重视，特别感谢李忠明编辑对本书翻译和出版提供的帮助。由于译者水平有限，错误和疏漏在所难免，欢迎广大读者提出宝贵意见。

于俊伟刘楠
2020年6月

图书目录

前言1
第1章绪论7
1.1 用数据讲述更好的故事7
1.2 面向SAP专业人员的数据科学9
1.3 面向数据科学家的SAP11
1.4 角色与职责15
1.5 小结16
第2章面向SAP专业人员的数据科学17
2.1 机器学习18
2.2 神经网络26
2.3 小结38
第3章面向数据科学家的SAP40
3.1 SAP入门41
3.2 ABAP数据字典43
3.3 OData服务56
3.4 核心数据服务65
3.5 小结74
第4章用R语言进行探索性数据分析76
4.1 EDA的四个阶段77
4.2 阶段1：数据收集78
4.3 阶段2：数据清洗86
4.4 删除多余的列87
4.5 阶段3：数据分析88
4.6 阶段4：数据建模97
4.7 小结106
第5章使用R和Python进行异常检测108
5.1 异常的类型109
5.2 R中的工具110
5.3 发现异常144
5.4 小结156
第6章使用R和Python进行预测分析157
6.1 使用R预测销量158
6.2 使用Python预测销量174
6.3 小结184
第7章使用R进行聚类和细分186
7.1 理解聚类和细分187
7.2 步骤1：数据收集193
7.3 步骤2：数据清洗193
7.4 步骤3：数据分析199
7.5 步骤4：结果报告215
7.6 小结218
第8章关联规则挖掘221
8.1 了解关联规则挖掘222
8.2 操作化概述224
8.3 收集数据224
8.4 清洗数据229
8.5 分析数据229
8.6 小结238
第9章使用谷歌云自然语言API进行自然语言处理239
9.1 理解自然语言处理240
9.2 准备云API242
9.3 收集数据246
9.4 分析数据249
9.5 小结251
第10章结语253
10.1 不忘初心253
10.2 内容回顾254
10.3 提示和建议255
10.4 保持联系256