langcc 是一个工具,它以标准BNF风格的格式获取语言的形式化描述,并自动生成一个编译器前端,包括语言的抽象语法树(AST)和遍历的数据结构定义、一个词典、一个解析器和一个pretty-printer。
langcc 也是以下技术报告的配套软件实现,这些报告描述了对经典LR解析范式的若干创新:
- Zimmerman, Joe. Practical LR Parser Generation. arXiv, 2022.
- Zimmerman, Joe. langcc: A Next-Generation Compiler Compiler. arXiv, 2022.
langcc可以用来替代lex和yacc(或flex和bison)的组合。但langcc提供了许多额外的功能,包括:
- 通过独立的数据类型编译器 (
datacc
) 自动生成 AST 数据结构。 - 完整的 LR 解析器生成作为默认值,而不是更具限制性的 LALR。
- 通过明确的“混淆输入对”,而不是不透明的移位/减少错误,清晰地呈现 LR 冲突。
- LR 自动机的新效率优化。
- LR 范式的扩展,包括递归下降 (RD) 解析操作,从而产生更小、更直观的自动机。
- LR 范式的扩展,包括每个符号属性,这对于许多工业语言结构的有效实现至关重要。
- LR 语法 (CPS) 的一般转换,显着扩展了该工具可以支持的语法类别。
与以前的编译器前端生成器不同,langcc
高效且通用,足以捕获完整的工业编程语言,包括 Python 3.9.12 ( grammars/py.lang ) 和 Golang 1.17.8 ( grammars/go.lang )。在这两种情况下,langcc
自动生成比每种语言的标准库解析器更快的解析器(分别快 1.2 倍和 4.3 倍)。事实上,langcc
所支持的语法类足够通用,该工具是 self-hosting 的:即可以勇“语言的语言”本身中表达“语言的语言”,并用于langcc
生成自己的编译器 front-end。
更多细节可见源码库中 bootstrap.sh 和 grammars/meta.lang 文件。
langcc
是一个研究原型,尚未在生产中广泛使用。但开发团队表示,它本质上是稳定的且功能完整的,并且可以用作独立工具来促进对新编译器和编程语言的快速探索。
评论