首页>参考读物>计算机科学与技术>软件与程序设计

ANTLR 4权威指南
作者 : [美]特恩斯?帕尔(Terence Parr)著
译者 : 张博 译
丛书名 : 华章程序员书库
出版日期 : 2017-05-22
ISBN : 978-7-111-56648-9
定价 : 69.00元
扩展资源下载
扩展信息
语种 : 简体中文
页数 : 377
开本 : 16
原书名 : The Definitive ANTLR 4 Reference
原出版社: Pragmatic Programmers, LLC
属性分类: 店面
包含CD :
绝版 : 未绝版
图书简介

本书通过丰富的案例,引导读者从简单的语言(如JSON)一直到复杂的编程语言(像R语言)循序渐进地去构建语法,为特定应用领域自定义识别错误处理方法和错误报告,解决Python和XML中一些棘手的识别问题,并实现具体的语言应用。

图书前言

ANTLR是一款强大的语法分析器生成工具,可用于读取、处理、执行和翻译结构化的文本或二进制文件。它被广泛应用于学术领域和工业生产实践,是众多语言、工具和框架的基石。Twitter搜索使用ANTLR进行语法分析,每天处理超过20亿次查询;Hadoop生态系统中的Hive、Pig、数据仓库和分析系统所使用的语言都用到了ANTLR;Lex Machina将ANTLR用于分析法律文本;Oracle公司在SQL开发者IDE和迁移工具中使用了ANTLR;NetBeans公司的IDE使用ANTLR来解析C++;Hibernate对象-关系映射框架(ORM)使用ANTLR来处理HQL语言。
除了这些鼎鼎大名的项目之外,还可以利用ANTLR构建各种各样的实用工具,如配置文件读取器、遗留代码转换器、维基文本渲染器,以及JSON解析器。我编写了一些工具,用于创建数据库的对象-关系映射、描述三维可视化以及在Java源代码中插入性能监控代码。我甚至为一次演讲编写了一个简单的DNA模式匹配程序。
一门语言的正式描述称为语法(grammar),ANTLR能够为该语言生成一个语法分析器,并自动建立语法分析树——一种描述语法与输入文本匹配关系的数据结构。ANTLR也能够自动生成树的遍历器,这样你就可以访问树中的节点,执行自定义的业务逻辑代码。
本书既是ANTLR 4的参考手册,也是解决语言识别问题的指南。你会学到如下知识:
识别语言样例和参考手册中的语法模式,从而编写自定义的语法。
循序渐进地为从简单的JSON到复杂的R语言编写语法。同时还能学会解决XML和Python中棘手的识别问题。
基于语法,通过遍历自动生成的语法分析树,实现自己的语言类应用程序。
在特定的应用领域中,自定义识别过程的错误处理机制和错误报告机制。
通过在语法中嵌入Java动作(action),对语法分析过程进行完全的掌控。
本书并非教科书,所有的讨论都是基于实例的,旨在令你巩固所学的知识,并提供语言类应用程序的基本范例。
本书的读者对象
本书尤其适用于对数据读取器、语言解释器和翻译器感兴趣的开发者。虽然本书主要利用ANTLR来完成这些工作,你仍然可以学到很多有关词法分析器和语法分析器的知识。初学者和专家都需要本书来高效地使用ANTLR 4。如果希望学习第三部分中的高级特性,你需要先了解之前章节中的ANTLR基础知识。此外,读者还需要具备一定的Java功底。
Honey Badger版本
ANTLR 4的版本代号是“Honey Badger”,这个名字来源于一段著名的YouTube短片The Crazy Nastyass Honey Badger(网址为:http://www.youtube.com/watch v=4r7wHMg5Yjg)中
的勇敢无畏的主角——一只蜜獾。它敢吃你给它的任何东西,根本不在乎那是什么!
ANTLR 4有哪些神奇之处
ANTLR 4引入了一些新功能,降低了入门门槛,使得语法和语言类应用程序的开发更加容易。最重要的新特性在于,ANTLR 4几乎能够处理任何语法(除了间接左递归,稍后会提到)。在ANTLR将你的语法转换成可执行的、人类可读的语法分析代码的过程中,语法冲突或者歧义性警告不会再出现。
无论多复杂的语法,只要你提供给ANTLR自动生成的语法分析器的输入是合法的,该语法分析器就能够自动识别之。当然,你需要自行保证该语法能够准确地描述目标语言。
ANTLR语法分析器使用了一种名为自适应LL(*)或者ALL(*)(读作“all star”)的新技术,它是由我和Sam Harwell一起开发的。ALL(*)是ANTLR 3中的LL(*)的扩展,在实际生成的语法分析器执行前,它能够在运行时以动态方式对语法执行分析,而非先前的静态方式。由于ALL(*)语法分析器能够访问实际的输入文本,通过反复分析语法的方式,它最终能够决定如何识别输入文本。相比之下,静态分析必须考虑所有可行的(无限长的)输入序列。
在实践中,拥有ALL(*)意味着你无须像在其他语法分析器生成工具(包括ANTLR 3)中那样,扭曲语法以适应底层的语法分析策略。如果你曾经为ANTLR 3的歧义性警告和yacc的归约/归约冲突(reduce/reduce conflict)而抓狂,ANTLR 4就是你的不二之选!
另外一个强大的新功能是ANTLR 4极大地简化了匹配某些句法结构(如编程语言中的算术表达式)所需的语法规则。长久以来,处理表达式都是ANTLR语法(以及手工编写的递归下降语法分析器)的难题。识别表达式最自然的语法对于传统的自顶向下的语法分析器生成器(如ANTLR 3)是无效的。现在,利用ANTLR 4,你可以通过如下规则匹配表达式:

类似expr的自引用规则是递归的,更准确地说,是左递归(left recursive)的,因为它的至少一个备选分支直接引用了它自己。
ANTLR 4自动将类似expr的左递归规则重写成了等价的非左递归形式。唯一的约束是左递归必须是直接的,也就是说规则直接引用自身。一条规则不能引用另外一条规则,如果后者的备选分支之一在左侧直接引用了前者(而没有匹配一个词法符号)。详见5.4节。
除了上述两项与语法相关的改进,ANTLR 4还使得编写语言类应用程序更加容易。ANTLR生成的语法分析器能够自动建立名为语法分析树(parse tree)的视图,其他程序可以遍历此树,并在所需处理的结构处触发回调函数。在先前的ANTLR 3中,用户需要补充语法来创建树。除了自动建立树结构之外,ANTLR 4还能自动生成语法分析树遍历器的实现:监听器(listener)或者访问器(visitor)。监听器与在XML文档的解析过程中响应SAX事件的处理器相似。
由于拥有以下几点ANTLR 3所不具备的新特性,ANTLR 4显得非常容易上手:
最大的改变是ANTLR 4降低了语法中内嵌动作(代码)的重要性,取而代之的是监听器和访问器。新机制将语法和应用的逻辑代码解耦,使得应用程序本身被封装起来,而非散落在语法的各处。在没有内嵌动作的情况下,你可以在多个程序中复用同一份语法,甚至都无须重新编译生成的语法分析器。虽然ANTLR仍然允许内嵌动作的存在,但是在ANTLR 4中,它们更像是一种进阶用法。这样的行为能够最大程度地掌控语法分析过程,但其代价是语法复用性的丧失。
由于ANTLR能够自动生成语法分析树和树的遍历器,在ANTLR 4中,你无须再编写树语法。取而代之的是一些广为人知的设计模式,如访问者模式。这意味着,在学会了ANTLR语法之后,你就可以重回自己熟悉的Java领域来实现真正的语言类应用程序。
ANTLR 3的LL(*)语法分析策略不如ANTLR 4的ALL(*)强大,所以ANTLR 3为了能够正确识别输入的文本,有时候不得不进行回溯。回溯的存在使得语法的调试格外困难,因为生成的语法分析器会对同样的输入进行(递归的)多趟语法分析。回溯也为语法分析器在面对非法输入时给出错误消息设置了重重障碍。
ANTLR 4是25年前我读研究生时所走的一小段弯路的成果。我想,我也许会稍微改变我曾经的座右铭。
为什么不花5天时间编程,来使你25年的生活自动化呢?
ANTLR 4正是我所期望的语法分析器生成器,现在,我终于能够回头去研究我原先在20世纪80年代试图解决的问题——假如我还记得它的话。
本书的主要内容
本书是你所能找到的有关ANTLR 4的信息源中最好、最完整的。免费的在线文档提供了足够多有关基础语法的句法和语义的资料,不过没有详细解释ANTLR的相关概念。在本书中,识别语言的语法模式和将其表述为ANTLR语法的内容是独一无二的。贯穿全书的示例能够在构建语言类应用程序方面助你一臂之力。本书可帮助你融会贯通,成为ANTLR专家。
本书由四部分组成。
第一部分介绍了ANTLR,提供了一些与语言相关的背景知识,并展示了ANTLR的一些简单应用。在这一部分中,你会了解ANTLR的句法以及主要用途。
第二部分是一部有关设计语法和使用语法来构建语言类应用程序的“百科全书”。
第三部分展示了自定义ANTLR生成的语法分析器的错误处理机制的方法。随后,你会学到在语法中嵌入动作的方法——在某些场景下,这样做比建立树并遍历之更简单,也更有效率。此外,你还将学会使用语义判定(semantic predicate)来修改语法分析器的行为,以便解决一些充满挑战的识别难题。
本部分的最后一章解决了一些充满挑战的识别难题,例如识别XML和Python中的上下文相关的换行符。
第四部分是参考章节,详细列出了ANTLR语法元语言的所有规则和ANTLR运行库的用法。
完全不了解语法和语言识别工具的读者请务必从头开始阅读。具备ANTLR 3使用经验的用户可从第4章开始阅读以学习ANTLR 4的新功能。
有关ANTLR的更多在线学习资料
在http://www.antlr.org上,你可以找到ANTLR、ANTLRWorks2图形界面开发环境、文档、预制的语法、示例、文章,以及文件共享区。技术支持邮件组是一个对初学者十分友好的公开讨论组。

Terence Parr
2012年11月于旧金山大学

上架指导

计算机\编译

作者简介

[美]特恩斯?帕尔(Terence Parr)著:暂无相关简介

译者简介

张博 译:暂无简介

译者序

四年前,我在读研究生时曾经参考龙书编写过一个简单的编译器前端。经过一个星期的实践后,我意识到,从头实现一个编译器前端的难度远远超出了一般开发者的能力。编写编译器前端所需要的理论基础、技术功底和精力都远非普通软件可比。
幸运的是,ANTLR的出现使这个过程变得易如反掌。ANTLR能够根据用户定义的语法文件自动生成词法分析器和语法分析器,并将输入文本处理为(可视化的)语法分析树。这一切都是自动进行的,所需的仅仅是一份描述该语言的语法文件。
一年前,我在为淘宝的一个内部数据分析系统设计DSL时,第一次接触到了ANTLR。使用ANTLR之后,我在一天之内就完成了整个编译器前端的开发工作,从而能够迅速开始处理真正的业务逻辑。从那时起,我就被它强大的功能所深深吸引。简而言之,ANTLR能够解决别的工具无法解决的问题。
软件改变了世界。数十年来,信息化的浪潮在全球颠覆着一个又一个的行业。然而,整个世界的信息化程度还远未达到合理的高度,还有大量传统行业的生产力可以被信息化所解放。在这种看似矛盾的情形背后存在着一条鸿沟:大量从事传统行业的人员拥有在本行业中无与伦比的业务知识和经验,却苦于跟不上现代软件发展的脚步。解决这个问题的根本方法就是DSL(Domain Specific Language),让传统行业的人员能够用严谨的方式与计算机对话。其实,本质上任何编程语言都是一种DSL,殊途同归。
而实现DSL的主要困难就在编译器前端。编译器被称为软件工程皇冠上的明珠。一直以来,对于普通的开发者而言,编译器的设计与实现都如同诗中描述的那样:“白云在青天,可望不可即。”
ANTLR改变了这一切。ANTLR自动生成的编译器前端高效、准确,能够将开发者从繁杂的编译理论中解放出来,集中精力处理自己的业务逻辑。ANTLR 4引入的自动语法分析树创建与遍历机制,极大地提高了语言识别程序的开发效率。
时至今日,ANTLR仍然是Java世界中实现编译器的不二之选,同时,它对其他编程语言也提供了不同程度的支持。在开始学习ANTLR时,我发现国内有关ANTLR的资料较为贫乏,这催生了我翻译本书的念头。我期望通过本书的翻译,让更多的开发者能够更加自如地解决职业生涯中碰到的难题。
本书没有冗长的理论,而是从一些具体的需求出发,由浅入深地介绍了语言的背景知识、ANTLR语法的设计方法以及基于ANTLR 4实现语言识别程序的详细步骤。它尤其适用于对语言识别程序的开发感兴趣的开发者。不过,假如你现在没有这样的需求,我仍然建议你阅读本书,因为它能够开拓你的眼界,让你深入实现层面加深对编程语言的理解。
感谢原作者Terence Parr教授向这个世界贡献了如此优秀的软件。您编写的ANTLR极大地提高了开发效率,这实际上等于延长了广大开发者的生命。
感谢孙岚和石寒舟两位前辈对本书审校付出的心血,您二位的宝贵建议令我受益匪浅。
感谢机械工业出版社华章分社的和静编辑对本书的翻译提供的支持与帮助。
感谢我的妻子张洁珊女士,你的理解和陪伴保障了翻译过程如期完成。
感谢每一位读者,你的潜心研习与融会贯通将会令本书更有价值。
截止本书译完的2016年12月,ANTLR已经演进到了4.6。在这个过程中,一些Breaking Change出现了,本书中的部分示例代码已经不再有效。因此,我尽自己所能,结合勘误表,使用最新版的ANTLR对它们进行了逐个验证。对于失效的代码,我通过译注的方式予以修正。由于译者水平有限,书中出现错误与不妥之处在所难免,恳请读者批评指正。

张 博
2017年1月

图书目录

译者序
前言
致谢
第一部分 ANTLR和计算机语言简介
第1章 初识ANTLR 3
1.1 安装ANTLR 3
1.2 运行ANTLR并测试识别程序 5
第2章 纵观全局 9
2.1 从ANTLR元语言开始 9
2.2 实现一个语法分析器 11
2.3 你再也不能往核反应堆多加水了 13
2.4 使用语法分析树来构建语言类应用程序 15
2.5 语法分析树监听器和访问器 17
第3章 入门的ANTLR项目 20
3.1 ANTLR工具、运行库以及自动生成的代码 21
3.2 测试生成的语法分析器 23
3.3 将生成的语法分析器与Java程序集成 25
3.4 构建一个语言类应用程序 26
第4章 快速指南 29
4.1 匹配算术表达式的语言 30
4.2 利用访问器构建一个计算器 35
4.3 利用监听器构建一个翻译程序 38
4.4 定制语法分析过程 41
4.5 神奇的词法分析特性 45
第二部分 使用ANTLR语法开发语言类应用程序
第5章 设计语法 53
5.1 从编程语言的范例代码中提取语法 54
5.2 以现有的语法规范为指南 56
5.3 使用ANTLR语法识别常见的语言模式 56
5.4 处理优先级、左递归和结合性 62
5.5 识别常见的词法结构 66
5.6 划定词法分析器和语法分析器的界线 71
第6章 探索真实的语法世界 74
6.1 解析CSV文件 75
6.2 解析JSON 77
6.3 解析DOT语言 83
6.4 解析Cymbol语言 88
6.5 解析R语言 91
第7章 将语法和程序的逻辑代码解耦 98
7.1 从内嵌动作到监听器的演进 99
7.2 使用语法分析树监听器编写程序 100
7.3 使用访问器编写程序 103
7.4 标记备选分支以获取精确的事件方法 105
7.5 在事件方法中共享信息 107
第8章 构建真实的语言类应用程序 114
8.1 加载CSV数据 114
8.2 将JSON翻译成XML 117
8.3 生成调用图 121
8.4 验证程序中符号的使用 124
第三部分 高级特性
第9章 错误报告与恢复 133
9.1 错误处理入门 133
9.2 修改和转发ANTLR的错误消息 137
9.3 自动错误恢复机制 141
9.4 勘误备选分支 152
9.5 修改ANTLR的错误处理策略 152
第10章 属性和动作 156
10.1 使用带动作的语法编写一个计算器 157
10.2 访问词法符号和规则的属性 162
10.3 识别关键字不固定的语言 165
第11章 使用语义判定修改语法分析过程 168
11.1 识别编程语言的多种方言 169
11.2 关闭词法符号 172
11.3 识别歧义性文本 174
第12章 掌握词法分析的“黑魔法” 180
12.1 将词法符号送入不同通道 181
12.2 上下文相关的词法问题 184
12.3 字符流中的孤岛 194
12.4 对XML进行语法分析和词法分析 198
第四部分 ANTLR参考文档
第13章 探究运行时API 209
13.1 包结构概览 209
13.2 识别器 210
13.3 输入字符流和词法符号流 212
13.4 词法符号和词法符号工厂 213
13.5 语法分析树 215
13.6 错误监听器和监听策略 216
13.7 提高语法分析器的速度 217
13.8 无缓冲的字符流和词法符号流 217
13.9 修改ANTLR的代码生成机制 219
第14章 移除直接左递归 221
14.1 直接左递归备选分支模式 222
14.2 左递归规则转换 223
第15章 语法参考 226
15.1 语法词汇表 226
15.2 语法结构 229
15.3 文法规则 232
15.4 动作和属性 241
15.5 词法规则 246
15.6 通配符与非贪婪子规则 250
15.7 语义判定 253
15.8 选项 257
15.9 ANTLR命令行参数 259
参考文献 263

参考读物推荐
作者: 张良均 谢佳标 杨坦 肖刚 等著