首页>参考读物>计算机科学与技术>软件与程序设计

Apache Kylin权威指南
作者 : Apache Kylin核心团队 著
丛书名 : 大数据技术丛书
出版日期 : 2017-01-12
ISBN : 978-7-111-55701-2
定价 : 49.00元
扩展资源下载
扩展信息
语种 : 简体中文
页数 : 204
开本 : 16
原书名 :
原出版社:
属性分类: 店面
包含CD :
绝版 : 未绝版
图书简介

本书首先介绍Kylin的历史、技术原理和产品定位,帮助用户了解何时和为何使用Kylin。然后第二章通过一个具体的案例快速入门,讲解Kylin核心概念、Cube建模和SQL连接查询这些基本使用。接着第三、第四章讲解增量构建和进一步的流式构建,是大多数案例典型配置。第五、第六章是针对查询可视化和Cube性能调优的两个专门章节,适合较高级的用户。第七章是一系列有行业特点的具体案例分析,贯穿之前的所有概念,在具体例子中展现。第八、第九两章讲Kylin的扩展和企业级高级功能,技术性较强,会有较多的代码示例。第十章讲运维管理,从安装配置,监控维护,到常见的问题和修复。全书最后谈Kylin开源社区和项目发展规划。

图书特色

Apache Kylin是首个中国人贡献的
Apache顶级开源项目

Apache Kylin是令人惊喜的,首个由中国团队主导的Apache顶级项目。不仅具有很强的技术领先性,也具有较好的市场价值,它已经成为多个企业的大数据分析平台的关键组成部分。本书将打开国内开发者的一扇窗,不仅详细地介绍Kylin的技术内容,还能让开发者获得建立成功开源项目的经验。


Apache Kylin在国美数据化运营的实践中提供了非常完美的解决方案。借此机会表示深深的感谢!国美在线作为国内主力电商之一,大数据部门每日都需处理海量数据。如何对大数据快速剥茧抽丝,从而为管理层提供决策支持,同时指导业务高效运营是我们之前面临的一个重大挑战。Apache Kylin是我们评估了诸多方案后最终的选择,实践证明也是最符合我们电商场景的OLAP引擎。目前从网站前端行为数据到后端的商业数据的贯通,从T+1的批量场景到实时计算,我们都从Apache Kylin找到了很好的解决方案,并最终成就了国美运营参谋的产品。相信本书一定会帮到在超大规模数据集上做需求交互式分析的同仁。


大数据的OLAP应用极具挑战,也是困扰我们良久的问题,而Apache Kylin恰好填补了这个空白领域。所以Kylin很快就在网易各大互联网业务中大范围应用, 其海量数据秒级分析能力广受业务团队好评。本书来自Apache核心团队, 是不可多得的权威著作。

Apache Kylin是Apache 软件基金会社区中荣耀绽放的“中国花朵”,是韩卿团队在多维数据仓库技术领域多年实践创新积累的精华。该项技术的成熟应用为Hadoop组件的生态构建提供了新思路,注入了新活力。更为难得的是,韩卿等人还积极推动国内大数据相关技术开源运动,为技术传播和进一步创新提供更大的空间。
—— 马慧民
上海大数据联盟常务副秘书长、经济学博士

Apache Kylin是基于Hadoop大数据平台的开源OLAP引擎,为超大规模数据集提供快速交互式分析能力,在万亿规模数据上提供亚秒级的查询性能。本书由Apache Kylin核心团队(PMC member)编写,系统地介绍了Apache Kylin的背景、原理、基础知识、调优、运维、二次开发等各个方面,是关于Apache Kylin的权威指南。

2013年9月,Kylin OLAP项目在eBay中国研发中心正式启动
2014年10月,Kylin项目在github.com开源,并迅速获得了业界认可
2014年11月, Kylin加入Apache 软件基金会成为孵化器项目,且正式更名为Apache Kylin
2015年9月,Apache Kylin v1.0正式发布,标志着项目进一步成熟和完善
2015年9月,Apache Kylin荣获InfoWorld Bossie Award最佳开源大数据工具奖
2015年11月,Apache Kylin顺利毕业,成为Apache 顶级项目,也是首个由中国人贡献的顶级开源项目,韩卿先生成为首个来自中国的Apache软件基金会副总裁
2016年3月,由Apache Kylin核心团队组建的Kyligence公司正式成立,公司名字来自于Kylin+Intelligence
2016年9月,Apache Kylin再次荣获InfoWorld Bossie Award最佳开源大数据工具奖

图书前言

“麒麟出没,必有祥瑞。”
——中国古谚语
“于我而言,与Apache Kylin团队一起合作使Kylin通过孵化成为顶级项目是非常激动人心的,诚然,Kylin在技术方面非常振奋人心,但同样令人兴奋的是Kylin代表了亚洲国家,特别是中国,在开源社区中越来越高的参与度。”
——Ted Dunning Apache孵化项目副总裁,MapR首席应用架构师
今天,随着移动互联网、物联网、AI等技术的快速兴起,数据成为了所有这些技术背后最重要,也是最有价值的“资产”。如何从数据中获得有价值的信息?这个问题驱动了相关技术的发展,从最初的基于文件的检索、分析程序,到数据仓库理念的诞生,再到基于数据库的商业智能分析。而现在,这一问题已经变成了如何从海量的超大规模数据中快速获取有价值的信息,新的时代、新的挑战、新的技术必然应运而生。
在数据分析领域,大部分的技术都诞生在国外,特别是美国,从最初的数据库,到以Hadoop为首的大数据技术,再到今天各种DL(Deep Learning)、AI,等等。但我国拥有着世界上独一无二的“大”数据,最多的人口、最多的移动设备、最活跃的应用市场、最复杂的网络环境等,应对这些挑战,我们需要有自己的核心技术,特别是在基础领域的突破和研发方面。今天,以Apache Kylin为首的各种来自中国的先进技术不断涌现,甚至在很多方面都大大超越了国外的其他技术,这一点也彰显了中国的技术实力。
自Hadoop选取大象伊始,上百个项目,以动物居之者为多,而其中唯有Apache Kylin(麒麟)来自中国,在众多项目中分外突出。在全球最大的开源基金会——Apache软件基金会(Apache Software Foundation,ASF)的160多个顶级项目中,Apache Kylin是唯一一个来自中国的顶级开源项目,与Apache Hadoop、Apache Spark、Apache Kafka、Apache Tomcat、Apache Struts、Apache Maven等顶级项目一起以The Apache Way构建了开源大数据领域的国际社区,并拓展了生态系统。
大数据与传统技术最大的区别就在于数据的体量对查询带来的巨大挑战。从最早使用大数据技术来做批量处理,到现在越来越多地需要大数据平台也能够如传统数据仓库技术一样支持交互式分析。随着数据量的不断膨胀,数据平民化的不断推进,低延迟、高并发地在Hadoop之上提供标准SQL查询的能力成为必须要攻破的技术难题。而Apache Kylin的诞生正是基于这个背景,并成功地完成了很多人认为不可能实现的突破。Apache Kylin最初诞生于eBay中国研发中心(坐落于上海浦东新区的德国中心),在2013年9月底,eBay中国研发中心的技术人员开始对此进行POC并组建团队,经过一年的艰苦开发和测试,于2014年9月30日使其正式上线,并在第二天(2014年10月1日)正式开源。
在这个过程中,使用何种技术,如何进行架构,如何突破那些看似无法完成的挑战,整个开发团队和用户一起经历了一段艰难的历程。今天呈现出的Apache Kylin已经经历了上千亿乃至上万亿规模数据量的分析请求,以及上百家公司的实际生产环境的检验,成为各个公司大数据分析平台不可替代的重要部分。本书将从Apache Kylin的架构和设计、各个模块的使用、与第三方的整合、二次开发及开源实践等方面进行讲解,为各位读者呈现最核心的设计理念和哲学、算法和技术等。
Apache Kylin社区的发展不易,自2014年10月开源到今天已有两年,从最初的几个人发展到今天的几十个贡献者,国内外上百家公司在正式使用,连续两年获得InfoWorld Bossie Awards最佳开源大数据工具奖。来自核心团队、贡献者、用户、导师、基金会等的帮助和无私的奉献铸就了这个活跃的社区,也使得Apache Kylin得以在越来越多的场景下发挥作用。现在,由Apache Kylin核心团队撰写了本书,相信能更好地将相关的理论、设计、技术、架构等展现给各位朋友,希望能够让更多的朋友更加充分地理解Kylin的优点和使用的场景,更多地挖掘出Kylin的潜力。同时也希望本书能够鼓励并吸引更多的人参与Kylin项目和开源项目,影响更多人贡献更多的项目和技术到开源世界来。

韩卿
Apache Kylin联合创建者及项目委员会主席
2016年10月

上架指导

计算机\程序设计

封底文字

Apache Kylin是令人惊喜的,是首个由中国团队主导的Apache顶级项目。不仅具有很强的技术领先性,也具有较好的市场价值,它已经作为多个企业的大数据分析平台的关键组成部分。本书将打开国内开发者的一扇窗,不仅详细的介绍Kylin的技术内容,还能让开发者获得如何建立成功开源项目的经验。
                     ——栗蔚,中国信息通信研究院标准所主任工程师,高级工程师, 云计算开源产业联盟秘书长

Apache Kylin在国美数据化运营的实践中提供了非常完美的解决方案。借此机会表示深深的感谢!国美在线作为国内主力电商之一,大数据部门日需处理海量的数据。如何对大数据剥茧抽丝快速提供管理层决策支持,同时指导业务高效运营是我们之前面临的一个重大挑战。Apache Kylin是我们评估了诸多方案后最终的选择,实践证明也是最符合我们电商场景的LOAP引擎。目前从网站前端行为数据到后端的商业数据的贯通,从T+1的批量场景到实时计算,我们都从Apache Kylin找到了很好的解决方案,并最终成就了国美运营参谋的产品。相信本书一定会帮到在超大规模数据集上做交互式分析需求的同仁。
——于立国,国美大数据研究院总监


大数据的OLAP应用极具挑战,也是困扰我们良久的问题,而Apache Kylin恰好填补了这个空白领域。所以Kylin很快就在网易各大互联网业务中大范围应用, 其海量数据秒级分析能力广受业务好评。本书来自Apache核心团队, 是不可多得的权威著作。
——余利华,网易数据科学中心 技术总监

作者简介

Apache Kylin核心团队 著:暂无简介

推荐序

Foreword?推荐序一
2016年早些时候,我曾经写过一篇有关联通Hadoop的文章,在其中的“展望篇”里谈到过OLAP on Hadoop的新技术Apache Kylin。今天《Apache Kylin权威指南》一书即将出版,我也有幸受本书作者之一韩卿(Luke)的邀请来写推荐序。
联通集团的BI是2010年建设的,由于全国有4亿用户的明细数据需要集中处理,再加上对移动互联网用户流量日志的采集,使得数据量急增。截至2013年已达PB级规模,并仍以指数级速度增长,传统数据仓库不堪重负,数据的存储和批量处理成了瓶颈。另一方面BI上提供的面向用户的数据查询和多维分析服务,使得后台生产的Cube越来越多,几年下来已有七八千个。用户需求对某一维度的改变往往会造成一个新Cube的产生,耗费资源不说,也为管理带来了极大的不便。2013年年底我们在传统数据仓库之外搭建了第一个Hadoop平台,节点数也从最初的几十个发展到了今天的3500个,大大提高了系统的存储及计算能力,为联通大数据对内对外的发展都起到了至关重要的作用。美中不足的是分布式存储和并行计算只解决了系统的性能问题,尽管我们也部署了像Hive、Impala这样的SQL on Hadoop技术,但在Hadoop体系上的多维联机分析(OLAP)却始终得不到满意的结果。Oracle + Hadoop的混搭架构还因为有对OLAP的需求而继续维持着,零散的Cube数还在继续增长,架构师们还在继续寻找奇迹方案的出现。
Apache Kylin就是在这种大背景下出现在我们的视野中的。一个好的产品首先要有一个清晰的定位,要有一套能够明确解决行业痛点的方案。Kylin在这点上做得非常好,它把自己定义为Hadoop大数据平台上的一个开源OLAP引擎。三个关键词:Hadoop、开源、OLAP,使它的定位一目了然,不用过多地解释。同时,Kylin也是透明的,不像许多产品把自己使用的技术搞得很神秘,Kylin沿用了原来数据仓库技术中的Cube概念,把无限数据按有限的维度进行“预处理”,然后将结果(Cube)加载到HBase里,供用户查询使用,使得现有的分析师和业务人员能够快速理解和掌握。相比于IOE时代的BI,它非常巧妙地使用了Hadoop的分布式存储与并行计算能力,用横向可扩展的硬件资源来换取计算性能的极大提高。
为了能够将Kylin真正融入到联通的大数据架构中,我们正在紧锣密鼓地组织系统测试。比如对单用户级的数据查询、第三方可视化工具的集成、多维Cube建立的维度数极限等的测试。我们还计划用Kafka来导入数据,用Spark来加工Cube,用其他产品来代替HBase进而提高数据读取性能,用Kylin的路由选择来桥接新老Cube,等等。这时出版的《Apache Kylin权威指南》一书,对于我们来说无疑是雪中之炭,我们的许多疑惑都会在这本指南当中找到权威解答。
联通公司现在经历的这些过程很多企业都会遇到,“坑”我们愿意去填,路希望大家来走。在向读者推荐《Apache Kylin权威指南》一书的同时,我们真诚期望Kylin(作为Apache开源社区第一个由中国人开发并主导的产品)能够成功,能够在不断的实践中提高自己,能够充分利用中国这个占世界数据量20%的大市场,把自己打造成大数据领域的一只独角兽。

范济安
国家千人计划专家
中国联通集团信息化部CTO



Foreword?推荐序二
我是一个开源软件的爱好者,算是开源届的一名老兵。从1995年到美国留学起,就开始接触开源软件,当时的GNU、Linux、FreeBSD和Emacs等自由软件让刚出国门的我感到惊艳万分。从那时开始,我就再没有和自由软件、开源软件分开过:从读博士期间一直参与研发自由软件XSB、因个人爱好参与贡献GNU Emacs、在IBM工作期间基于一系列开源软件为团队开发DocBook文档写作工具链,到后来在LinkedIn工作期间研究作为5个核心成员开源的分布式实时搜索系统SenseiDB,再到近几年在小米大力推动开源战略,打造基于开源软件的小米云计算、大数据和机器学习技术及团队。20多年来,对开源软件的热爱,让我逐渐从一名早期的自由软件爱好者、信仰者、贡献者和管理者,变成了一名坚定的开源软件倡导者。在这期间,我见证了开源技术的萌芽、兴起和今天的繁荣,也经历了国内外不同文化下的开源发展历程。
作为一名参与开源软件较早的中国人,我也深深地感受到了最初西方世界对中国人使用开源技术、参与开源软件开发的质疑和冷落。因为互联网和自由软件进入我国较晚,也因为中国人在英语上的不足和东西方文化的差异,还因为早期国内的一些开源爱好者对开源软件的理解不足,使得在开源方面较为领先的西方开源人士对国人在开源上的使用和贡献存在极大偏见。中国开源力量融入国际开源社区的过程是缓慢和艰苦的,幸运的是,近四五年来,随着GitHub的兴起和多个开源社区的迅猛发展,中国每年产生的计算机人才也多了起来,中国越来越多的互联网公司开始正确地拥抱开源,中国工程师在国际开源社区的贡献和影响力也越来越大(比如,作为一个很年轻的创业公司,小米就在不到一年半的时间里推出了3个HBase committer),这确实不是一件容易的事。但是,今天不管是在云计算、大数据,还是容器等诸多开源技术领域,真正由中国人自己主导、从零开始、自主研发、最后贡献到国际开源社区并成为顶级开源项目的,应该就只有Apache Kylin一个。Apache Kylin是2013年由eBay在上海的一个中国工程师团队发起的、基于Hadoop大数据平台的开源OLAP引擎,它利用空间换时间的方法,把很多分钟级别乃至小时级别的大数据查询速度一下子提升到了亚秒级别,极大地提高了数据分析的效率,填补了业界在这方面的空白。
我非常高兴能够看到一个来自国内的团队开源一个项目,并在短短不到一年的时间里顺利使其毕业,也使其成为Apache软件基金会的顶级项目,取得了可以和Hadoop、Spark等重大开源软件相提并论的成就。一支来自国内的工程师团队能够快速融入国际开源社区,被全球最大的开源软件基金会接纳并成功占领一席之地,这是一件非常不容易的事情,足以让国人欣慰和骄傲。这一切都和Apache Kylin项目背后的负责人韩卿(Luke)密不可分。我是在QCon北京2014全球软件开发大会上认识韩卿的,并由此第一次知道了Kylin这个项目,和韩卿开始交谈不久,我就觉得他是当时国内为数不多的、真正懂得开源软件打法的一个人。那次的交谈非常愉快,从此我也开始关注这个项目并极度看好它。
开源项目,并不是将代码公开就完事了,团队需要做更多艰苦的工作来不断推广技术、经营社区和营销品牌,使得项目能够被广泛接纳和使用。韩卿及Kylin团队在这方面做得非常出色,在各种国内外的技术大会上、很多开源社区里都可以看到他们忙碌的身影。在短短的两年时间里,我就看到Kylin项目从Apache孵化器项目毕业成为顶级项目,也看到这个团队离开eBay并创立了Kyligence这家创业公司。今天,很多成功的重大开源项目背后都有一两个伟大的创业公司:Hadoop背后是Cloudera和Hortonworks、Spark后面是Databricks,等等。我也看好Apache Kylin后面的Kyligence!
小米不仅仅是一家手机公司,更是一个大数据公司,公司内部的很多产品和业务都深度依赖大数据分析,我们所面对的数据量、挑战和困难都是空前的。Apache Kylin独特的数据查询性能优势在小米中有很多应用场景,我希望将来我们能够更多地用到Apache Kylin技术,也希望和Kyligence能有深度的技术合作。
今年,深度学习和大数据引发了人工智能的热潮,人工智能的热潮反过来也会推动大数据领域相关技术的发展和演进,大数据领域必将诞生更多的新技术和新产品。相信在不久的未来,会有更多的、类似于Apache Kylin的、由中国人主导的项目从实际需求中产生、开源并被贡献到国际开源社区,向世界输出我们的技术实力。在将本书推荐给读者的同时,我也希望更多的读者、团队和公司能一起参与、贡献和拥抱开源,努力提高我国技术人员在国际开源社区的影响力。Apache Kylin项目相关的经验也非常值得其他技术人员学习和借鉴!

崔宝秋
小米首席架构师
小米云平台负责人



Foreword?推荐序三
在大数据处理技术领域,用户最普遍的诉求就是希望以很简易的方式从大数据平台上快速获取查询结果,同时也希望传统的商务智能工具能够直接和大数据平台连接起来,以便使用这些工具做数据分析。目前已经出现了很多优秀的SQL on Hadoop引擎,包括Hive、Impala及SparkSQL等,这些技术的出现和应用极大地降低了用户使用Hadoop平台的难度。为了进一步满足“在高并发、大数据量的情况下,使用标准SQL查询聚合结果集能够达到毫秒级”这一应用场景,Apache Kylin应运而生,在eBay孵化并最终贡献给开源社区。Apache Kylin是一种分布式分析引擎,提供Hadoop之上的标准SQL查询接口及多维分析(OLAP)功能。
Apache Kylin通过空间换时间的方式,实现在亚秒级别延迟的情况下,对Hadoop上的大规模数据集进行交互式查询;Kylin通过预计算,把计算结果集保存在HBase中,原有的基于行的关系模型被转换成基于键值对的列式存储;通过维度组合作为HBase的Rowkey,在查询访问时不再需要昂贵的表扫描,这为高速高并发分析带来了可能;Kylin提供了标准SQL查询接口,支持大多数的SQL函数,同时也支持ODBC/JDBC的方式和主流的BI产品无缝集成。
同时,Apache Kylin是目前国内少有的几个通过了Cloudera公司产品工程认证的大数据分析和查询引擎。Cloudera公司相信,作为唯一一个来自中国的Apache顶级开源项目,Apache Kylin不仅仅代表了中国对国际开源社区的参与,同时也将为我国及全球企业用户探索大数据的价值的进程做出卓越的贡献。
在过去的一年中,我们有机会与Kyligence公司合作,共同为国内的企业客户提供基于Cloudera Hadoop平台上的大数据应用。本书的出版为开发人员和数据分析人员利用这一技术提供了极大的便利。更重要的是,这本书不仅能够指导开发人员安装和使用Apache Kylin,而且还深入探讨了Apache Kylin的核心技术架构,并且通过丰富的案例展示了如何通过优化来提升大数据的应用性能。本书的作者之一韩卿先生是Apache Kylin的主要创建者和项目委员会主席(PMC chair),对于Kylin的技术架构、应用及未来发展都有深刻的理解。我相信本书对于Kylin使用者和开发者来说,是及时的且不可或缺的。

凌琦
Cloudera全球副总裁兼大中华区总经理



Foreword?推荐序四
大数据在近几年已经成为一个火爆的名词,而企业针对数据的分析也从未停止过。从早些年传统企业的数据仓库、BI,到近些年互联网公司的广告推荐、产品分析,再到现在基于IoT硬件的线下用户行为画像,无论是互联网企业还是传统企业,一直都在尝试通过数据帮助企业或企业的用户提升工作效率和体验。从过去的决策支持,到现在普及的精准推荐,乃至未来的基于实时分析的AI交互,大数据及相关技术将一直是这些业务发展的基石,因而在最近的10年,大数据技术有了日新月异的发展。
从海量数据的批量计算到实时分析,从精准推荐到OLAP查询,业界涌现了大量优秀的开源项目。Apache Kylin就是其中一颗由国人研发的璀璨的明星,是国内第一个Apache顶级开源项目(与Kafka、Spark齐名),它解决了海量数据下OLAP查询的关键技术。大数据本身并不能产生价值,针对数据的分析和运用才可以产生价值,而OLAP是企业对数据做深度分析必用的组件。在过去,它能帮助企业从不同维度汇总、下钻看到企业不同部门、地区的差异及发展趋势;现在,它能帮助企业针对不同用户画像的人群做相关行为分析、排行,也可以针对不同的点击事件深入分析不同渠道的转化率、客单价。OLAP技术曾经在百亿数据集、PB级别规模的时候,遇到了很大的瓶颈,无论是并行计算还是近似计算,都对
I/O、CPU和查询时长带来了挑战。Kylin运用它独有的技术,在数据存储不产生指数级增长的情况下,采用预计算技术以空间换回了时间,在百亿甚至万亿级别数据集上实现了毫秒级的查询响应速度。同时也利用了模糊计算等技术在允许一定误差的情况下,对10亿级别用户、几千种用户行为标签的数据实现了用户行为的即时查询,帮助企业极大地降低了大数据OLAP实施的门槛,也降低了大数据平台实施的TCO,是企业建设大数据平台的优质OLAP 引擎。本书可以帮助企业的技术管理者、开发者详细了解Kylin并将应用部署到自己的企业当中,规避其中的实施风险、提高部署与处理效率。
数据是一种新的能源,它与石油、电力不同,产生于企业和用户的行为,能通过不断地深入使用和反复分析利用来帮助企业增收、节支、提效、避险,其中各个环节都要有适用的工具,Apache Kylin就是其中之一。大数据从过去的批量数据处理发展到现在的实时数据分析,我非常高兴地看到Kylin也支持了相关特性,让数据不止是用于实时计算,还可以帮助管理者看到实时的联机分析处理结果。当然,数据的实时OLAP只是实时分析中的一种,要结合数据实时采集、数据实时计算、数据流挖掘、实时场景引擎等技术,才可以让企业从T+1的分析发展到实时数据分析,进而实现实时决策与反馈,最终实现企业自身的智能分析与交互。数据的实时分析是每个企业实现AI的必经之路,而数据实时分析的应用又离不开Kylin这样的OLAP引擎。
最后,很荣幸可以为本书写推荐序,本书作者之一韩卿(Luke)也是我多年的好友,从他在eBay之时我们就有很多交流,我也有幸看着Apache Kylin项目逐步成为国际著名的开源项目。大数据的发展不是一个项目或一个企业就可以独立推动的,也希望更多的人才和企业加入大数据分析的行业中来,使得我国能够涌现出更多像Apache Kylin一样的优秀项目,让数据成为每一个企业的再生能源!

郭炜
易观CTO

图书目录

推荐序一
推荐序二
推荐序三
推荐序四
前 言
第1章 Apache Kylin概述 1
1.1 背景和历史 1
1.2 Apache Kylin的使命 3
1.2.1 为什么要使用Apache Kylin 3
1.2.2 Apache Kylin怎样解决关键问题 4
1.3 Apache Kylin的工作原理 5
1.3.1 维度和度量简介 5
1.3.2 Cube和Cuboid 5
1.3.3 工作原理 6
1.4 Apache Kylin的技术架构 7
1.5 Apache Kylin的主要特点 9
1.5.1 标准SQL接口 9
1.5.2 支持超大数据集 9
1.5.3 亚秒级响应 10
1.5.4 可伸缩性和高吞吐率 10
1.5.5 BI及可视化工具集成 11
1.6 与其他开源产品比较 11
1.7 小结 12
第2章 快速入门 13
2.1 核心概念 13
2.1.1 数据仓库、OLAP与BI 13
2.1.2 维度和度量 14
2.1.3 事实表和维度表 14
2.1.4 Cube、Cuboid和Cube Segment 15
2.2 在Hive中准备数据 15
2.2.1 星形模型 15
2.2.2 维度表的设计 16
2.2.3 Hive表分区 16
2.2.4 了解维度的基数 17
2.2.5 Sample Data 17
2.3 设计Cube 17
2.3.1 导入Hive表定义 18
2.3.2 创建数据模型 18
2.3.3 创建Cube 21
2.4 构建Cube 25
2.4.1 全量构建和增量构建 27
2.4.2 历史数据刷新 28
2.4.3 合并 29
2.5 查询Cube 30
2.6 SQL参考 31
2.7 小结 32
第3章 增量构建 33
3.1 为什么要增量构建 33
3.2 设计增量Cube 35
3.2.1 设计增量Cube的前提 35
3.2.2 增量Cube的创建 36
3.3 触发增量构建 37
3.3.1 Web GUI触发 37
3.3.2 构建相关的Rest API 39
3.4 管理Cube碎片 45
3.4.1 合并Segment 46
3.4.2 自动合并 47
3.4.3 保留Segment 48
3.4.4 数据持续更新 49
3.5 小结 50
第4章 流式构建 51
4.1 为什么要流式构建 51
4.2 准备流式数据 52
4.2.1 数据格式 52
4.2.2 消息队列 53
4.2.3 创建Schema 53
4.3 设计流式Cube 56
4.3.1 创建Model 56
4.3.2 创建Cube 57
4.4 流式构建原理 59
4.5 触发流式构建 61
4.5.1 单次触发 61
4.5.2 自动化多次触发 61
4.5.3 出错处理 62
4.6 小结 63
第5章 查询和可视化 64
5.1 Web GUI 64
5.1.1 查询 64
5.1.2 显示结果 65
5.2 Rest API 67
5.2.1 查询认证 67
5.2.2 查询请求参数 67
5.2.3 查询返回结果 68
5.3 ODBC 69
5.4 JDBC 71
5.4.1 获得驱动包 71
5.4.2 认证 71
5.4.3 URL格式 71
5.4.4 获取元数据信息 72
5.5 通过Tableau访问Kylin 72
5.5.1 连接Kylin数据源 73
5.5.2 设计数据模型 73
5.5.3 通过Live方式连接 73
5.5.4 自定义SQL 75
5.5.5 可视化 75
5.5.6 发布到Tableau Server 76
5.6 Zeppelin集成 77
5.6.1 Zeppelin架构简介 77
5.6.2 KylinInterpreter的工作原理 77
5.6.3 如何使用Zeppelin访问Kylin 78
5.7 小结 80
第6章 Cube优化 81
6.1 Cuboid剪枝优化 81
6.1.1 维度的诅咒 81
6.1.2 检查Cuboid数量 82
6.1.3 检查Cube大小 83
6.1.4 空间与时间的平衡 84
6.2 剪枝优化的工具 85
6.2.1 使用衍生维度 85
6.2.2 使用聚合组 87
6.3 并发粒度优化 89
6.4 Rowkeys优化 90
6.4.1 编码 90
6.4.2 按维度分片 91
6.4.3 调整Rowkeys顺序 92
6.5 其他优化 93
6.5.1 降低度量精度 93
6.5.2 及时清理无用的Segment 94
6.6 小结 94
第7章 应用案例分析 95
7.1 基本多维分析 95
7.1.1 数据集 95
7.1.2 数据导入 97
7.1.3 创建数据模型 99
7.1.4 创建Cube 102
7.1.5 构建Cube 108
7.1.6 SQL查询 110
7.2 流式分析 112
7.2.1 Kafka数据源 112
7.2.2 创建数据表 113
7.2.3 创建数据模型 115
7.2.4 创建Cube 117
7.2.5 构建Cube 118
7.2.6 SQL查询 119
7.3 小结 119
第8章 扩展Apache Kylin 120
8.1 可扩展式架构 120
8.1.1 工作原理 121
8.1.2 三大主要接口 122
8.2 计算引擎扩展 124
8.2.1 EngineFactory 124
8.2.2 MRBatchCubingEngine2 125
8.2.3 BatchCubingJobBuilder2 126
8.2.4 IMRInput 128
8.2.5 IMROutput2 129
8.3 数据源扩展 130
8.4 存储扩展 132
8.5 聚合类型扩展 134
8.5.1 聚合的JSON定义 134
8.5.2 聚合类型工厂 135
8.5.3 聚合类型的实现 136
8.6 维度编码扩展 140
8.6.1 维度编码的JSON定义 140
8.6.2 维度编码工厂 141
8.6.3 维度编码的实现 142
8.7 小结 143
第9章 Apache Kylin的企业级功能 144
9.1 身份验证 144
9.1.1 自定义验证 145
9.1.2 LDAP验证 146
9.1.3 单点登录 150
9.2 授权 151
9.3 小结 153
第10章 运维管理 154
10.1 安装和配置 154
10.1.1 必备条件 154
10.1.2 快速启动Apache Kylin 157
10.1.3 配置Apache Kylin 160
10.1.4 企业部署 162
10.2 监控和诊断 165
10.2.1 日志 165
10.2.2 任务报警 167
10.2.3 诊断工具 169
10.3 日常维护 170
10.3.1 基本运维 170
10.3.2 元数据备份 170
10.3.3 元数据恢复 171
10.3.4 系统升级 172
10.3.5 垃圾清理 174
10.4 常见问题和修复 175
10.5 获得社区帮助 176
10.5.1 邮件列表 177
10.5.2 JIRA 177
10.6 小结 177
第11章 参与开源 178
11.1 Apache Kylin的开源历程 178
11.2 为什么参与开源 179
11.3 Apache开源社区简介 179
11.3.1 简介 179
11.3.2 组织构成与运作模式 180
11.3.3 项目角色 181
11.3.4 孵化项目及顶级项目 182
11.4 如何贡献到开源社区 183
11.4.1 什么是贡献 183
11.4.2 如何贡献 183
11.5 礼仪与文化 184
11.6 如何参与Apache Kylin 185
11.7 小结 185
第12章 Apache Kylin的未来 186
12.1 大规模流式构建 186
12.2 拥抱Spark技术栈 187
12.3 更快的存储和查询 187
12.4 前端展现及与BI工具的整合 187
12.5 高级OLAP函数 188
12.6 展望 188

教学资源推荐
作者: [美]戴维 I. 施奈德(David I. Schneider) 著
作者: 施霞萍 王瑾德 史建成 马可幸 张欢欢 编著
作者: [美]梁勇(Y. Daniel Liang) 著
作者: [美] 凯·霍斯特曼(Cay Horstmann) 著
参考读物推荐
作者: Leigh Edwards; Richard Barker 等
作者: Pete Becker
作者: (法)Yves Savourel
作者: 刘金亮