跳转到内容

LLVM

本页使用了标题或全文手工转换
维基百科,自由的百科全书
LLVM
原作者Chris Lattner, Vikram Adve
开发者LLVM开发团队
首次发布2003年,​22年前​(2003
当前版本21.1.7[1]在维基数据编辑(2025年12月2日)
源代码库 编辑维基数据链接
编程语言C++
操作系统跨平台
类型编译器
许可协议带有LLVM例外的Apache许可证2.0
网站www.llvm.org

LLVM是一套编译器基础设施项目,为自由软件,以C++写成,包含一系列模块化的编译器组件和工具链,用来开发编译器前端后端。任意一种程式语言通过它实作出来的编译器,都能利用上它在编译时期链结时期执行时期以及“闲置时期”进行的最佳化。

它最早以C/C++为实作对象,而目前它已支援包括ActionScriptAdaD语言FortranGLSLHaskellJava字节码Objective-CSwiftPythonRubyCrystal英语Crystal (programming language)RustScala[2]Standard ML[3]以及C#[4]等语言。

历史

[编辑]

LLVM专案的发展起源于2000年伊利诺伊大学厄巴纳-香槟分校维克拉姆·艾夫(Vikram Adve)与克里斯·拉特纳(Chris Lattner)的研究,他们想要为所有静态及动态语言创造出动态的编译技术。LLVM是以BSD授权来发展的开源软体。2005年,苹果电脑雇用了克里斯·拉特纳及他的团队为苹果电脑开发应用程式系统[5],LLVM为现今macOSiOS开发工具的一部分。

LLVM的命名最早源自于底层虚拟机器Low Level Virtual Machine)的首字母缩写[6],由于这个专案的范围并不局限于建立一个虚拟机器,这个缩写导致了广泛的疑惑。LLVM开始成长之后,成为众多编译工具及低阶工具技术的统称,使得这个名字变得更不贴切,开发者因而决定放弃这个缩写的意涵[7],现今LLVM已单纯成为一个系统,适用于LLVM下的所有专案,包含LLVM中间表示(LLVM IR)、LLVM除错工具、LLVM C++标准函式库等。

因LLVM对产业的贡献,计算机协会于2012年将ACM软件系统奖授与维克拉姆·艾夫克里斯·拉特纳和Evan Cheng[8]

自9.0.0版本开始,LLVM使用带有LLVM额外条款的Apache许可证2.0进行授权[9]。而从2019年10月开始,LLVM项目的代码托管正式迁移到了GitHub[10]

描述

[编辑]

LLVM提供了一套适合编译器系统的中间表示Intermediate Representation,IR),有大量变换和优化都围绕其实现。经过变换和优化后的中间语言,可以转换为目标平台相关的汇编语言代码。LLVM可以和GCC工具链一起工作,允许它与为该项目编写的大量现有编译器一起使用。

LLVM还可以在编译、链接时生成可重定位代码英语Relocation (computing)(Relocatable Code),甚至在运行时生成二进制机器码。

LLVM支援与语言无关的指令集架构类型系统[11]。每个指令都处在静态单赋值形式(SSA)下代表著,每个变数(被称为具有型别的暂存器)仅被赋值一次,这简化了变数间相依性的分析。LLVM允许程式码遵循传统GCC系统的方式而被静态的编译,或者以类似JAVA等后期编译的方式,通过即时编译(JIT)将IF编译成机器码。

LLVM的型别系统包含基本型别(整数或是浮点数)及五个复合型别指标阵列向量结构函数),具体语言的型别,可以在LLVM中用基本型别的组合来表示,举例来说,C++所使用的,可以被表示为结构函数函数指针的阵列的混合。

LLVM JIT编译器可以最佳化程式在执行期之时去除所不需要的静态分支,这在一些部份求值(Partial Evaluation)的案例中相当有效,即当程式有许多选项,而在特定环境下其中多数可被判断为是不需要的。这个特色被使用在Mac OS X Leopard(v10.5)底下OpenGL的管线,当硬体不支援某个功能时依然可以被成功地运作[12]

OpenGL堆栈下的绘图程式被编译为中间表示,接著在机器上执行时被编译,当系统拥有高阶GPU时,这段程式会进行极少的修改并将传递指令给GPU,当系统拥有低阶的GPU时,LLVM将会编译更多的程序,使这段GPU无法执行的指令在本地端的中央处理器执行。LLVM增进了使用Intel GMA晶片等低端机器的效能。一个类似的系统发展于Gallium3D LLVMpipe,它已被合并到GNOME,使其可运行在没有GPU的环境[13]

根据2011年的一项测试,GCC在执行时期的性能平均比LLVM高10%[14][15]。而2013年测试显示,LLVM可以编译出接近GCC相同效能的执行码[16]

组件

[编辑]

LLVM已经成为多个编译器和代码生成相关子项目的母项目。

前端

[编辑]

LLVM最初被用来取代GCC中的程式码产生器[17],许多GCC的前端已经可以与其运行,LLVM目前支援AdaC语言C++D语言FortranHaskellJuliaObjective-CRustSwift的编译,它使用许多的编译器,有些来自4.0.1及4.2的GCC

LLVM引发一些人来为许多语言开发新的编译器,其中一个最引发注意的就是Clang,它是一个新的编译器,同时支援C、Objective-C以及C++。主要来自苹果电脑的支持,Clang的目的用以取代GCC系统底下的C/Objective-C编译器,在当代的系统,他较为容易与集成开发环境(IDE)整合,而且对于线程有更好的支援。Clang从3.8版本开始已经支持OpenMP[18]。GCC底下Objective-C的开发已经停滞,而苹果电脑已经将其支援移至其他的维护分支。

Utrecht Haskell编译器可以产生LLVM使用的程式码,但它还在初期的开发阶段,并且在许多案例,展示他比起C程式码产生器拥有更好的效率[19] Glasgow Haskell Compiler(GHC)拥有一个可以运作的LLVM后端,程式执行效能对比起原先的编译器可以达到30%的加速,它仅比一个由GHC所实现,并拥有多项最佳化技术的编译器还慢[20]

还有其他的元件在不同的开发阶段,包含(但不限于)Java字节码[21]通用中间语言(CIL)、MacRuby英语MacRuby(Ruby 1.9实现)、Standard ML及新的图着色寄存器分配器[22]

中间表示

[编辑]

LLVM的核心是中间表示(Intermediate Representation,IR),一种类似汇编的底层语言。IR是一种强类型精简指令集(RISC),并对目标指令集进行了抽象。例如,目标指令集的函数调用惯例被抽象为callret指令加上明确的参数。另外,IR采用无限个数的暂存器,使用如%0%1等形式表达。LLVM支持三种表达形式:人类可读的汇编格式,适合前端的在内存中的格式和用作序列化的紧密bitcode格式。

例如,一个简单的Hello World程序可以表达为如下的汇编形式。对IR语言的完整描述请参考LLVM官方文档[23]

@.str = internal constant [14 x i8] c"hello, world\0A\00"

declare i32 @printf(i8*, ...)

define i32 @main(i32 %argc, i8** %argv) nounwind {
entry:
    %tmp1 = getelementptr [14 x i8], [14 x i8]* @.str, i32 0, i32 0
    %tmp2 = call i32 (i8*, ...) @printf( i8* %tmp1 ) nounwind
    ret i32 0
}

LLVM计划还介入了另一种类型的中间表示名为MLIR英语MLIR (software)[24],它通过采用叫做“方言”的插件架构来帮助建造可重用且可扩展的编译器下部构造[25]

后端

[编辑]

截至版本16,LLVM已经支持多种后端指令集,包括IA-32x86-64ARMQualcomm HexagonLoongArchM68KMIPSNvidia PTX英语Parallel Thread Execution(在LLVM文档中也称为NVPTX)、PowerPCAMD TeraScale英语TeraScale (microarchitecture)[26]、新近的AMD GPU(在LLVM文档中也叫做AMDGPU)、SPARCSystemZRISC-Vz/Architecture英语z/ArchitectureXCore英语XMOS

LLVM还支持WebAssembly为其目标,使得编译后的程序可以在启用WebAssembly的环境中运行,比如Google Chrome/ChromiumFirefoxMicrosoft EdgeApple Safari或WAVM虚拟机[27]。合规于LLVM的WebAssembly编译器,典型的支持多种语言的几乎不需修改的源代码,包括:C、C++、D、Rust、Nim、Kotlin和其它一些语言。

LLVM包含一个专门的MC模块,将机器指令在文字形式和机器码形式间相互转换。在之前LLVM依靠系统或是平台专门的工具链将汇编翻译为机器码。LLVM机器码的集成汇编器已经支持绝大多数LLVM的目标平台。

链接器

[编辑]

lld链接器子项目旨在为LLVM开发一个内置的,平台独立的链接器[28],去除对所有第三方链接器的依赖。在2017年5月,lld已经支持ELFPE/COFFMach-OWebAssembly。在lld支持不完全的情况下,用户可以使用其他项目,如GNU ld链接器。 lld支持链接时优化。当LLVM链接时优化被启用时,LLVM可以输出bitcode而不是本机代码,而本机代码生成由链接器优化处理。

C++标准库

[编辑]

LLVM项目包含一个C++标准库的实现(libcxx),具有MIT许可证UIUC许可证英语University of Illinois/NCSA Open Source License的双许可协议。[29]

另见

[编辑]

参考文献

[编辑]
  1. ^ Release 21.1.7. 2025年12月2日 [2025年12月2日]. 
  2. ^ Reedy, Geoff. Compiling Scala to LLVM. St. Louis, Missouri, United States. 2012-09-24 [2013-02-19]. (原始内容存档于2020-11-29). 
  3. ^ Standard ML of New Jersey Release Notes Version 2021.1. The MLRISC code generator that we have used for over 25 years has been replaced with one based on the LLVM Libraries. 
    LLVMCodegen. MLton. [26 November 2024]. 
  4. ^ Mono LLVM, [2013-03-10], (原始内容存档于2020-06-15) 
  5. ^ Adam Treat, mkspecs and patches for LLVM compile of Qt4页面存档备份,存于互联网档案馆
  6. ^ 存档副本. [2011-12-22]. (原始内容存档于2012-01-17). 
  7. ^ Chris Lattner discusses the name LLVM. [22 December 2011]. (原始内容存档于2012年1月12日). 
  8. ^ ACM Awards. ACM. [2013-04-28]. (原始内容存档于2012-04-02). 
  9. ^ LLVM 9.0.0 License. [2020-11-14]. (原始内容存档于2020-11-11). 
  10. ^ Migration Proposal. [2020-11-14]. (原始内容存档于2020-11-25). 
  11. ^ LLVM Language Reference Manual. [16 April 2012]. (原始内容存档于2012-06-11). 
  12. ^ Chris Lattner. A cool use of LLVM at Apple: the OpenGL stack. LLVMdev mailing list. 15 August 2006 [26 October 2008]. (原始内容存档于2006年11月4日). 
  13. ^ Michael Larabel, "GNOME Shell Works Without GPU Driver Support"页面存档备份,存于互联网档案馆), phoronix, 6 November 2011
  14. ^ V. Makarov. SPEC2000: Comparison of LLVM-2.9 and GCC4.6.1 on x86. [3 October 2011]. (原始内容存档于2020-08-03). 
  15. ^ V. Makarov. SPEC2000: Comparison of LLVM-2.9 and GCC4.6.1 on x86_64. [3 October 2011]. (原始内容存档于2020-08-03). 
  16. ^ Michael Larabel. LLVM/Clang 3.2 Compiler Competing With GCC. 27 December 2012 [31 March 2013]. (原始内容存档于2020-11-30). 
  17. ^ Lattner, Chris; Vikram Adve. Architecture For a Next-Generation GCC. First Annual GCC Developers' Summit. May 2003 [6 September 2009]. (原始内容存档于2020-07-07). 
  18. ^ Clang 3.8 Release Notes. [August 24, 2016]. (原始内容存档于2016-10-31). 
  19. ^ Compiling Haskell To LLVM (PDF). [26 June 2008]. (原始内容存档 (PDF)于2016-08-06). 
  20. ^ LLVM Project Blog: The Glasgow Haskell Compiler and LLVM. [13 August 2010]. (原始内容存档于2011-06-25). 
  21. ^ Gaël Thomas; et al. VMKit: a substrate for virtual machines. LLVM.org. [2014-09-17]. (原始内容存档于2020-11-09).  VMKit 目前的开发已经停滞,并且只支持和 LLVM 3.3 协同编译。对更高版本的 LLVM,需要对源码做一些修改。VMKit 在编译时需要 LLVM 源码中的lib, include
  22. ^ Jakob Stoklund Olesen. Register Allocation in LLVM 3 (PDF). 
  23. ^ llvm.org/docs/LangRef.html.
  24. ^ MLIR. mlir.llvm.org. [2022-06-07]. 
  25. ^ Dialects - MLIR. mlir.llvm.org. [2022-06-07]. 
  26. ^ Stellard, Tom. [LLVMdev] RFC: R600, a new backend for AMD GPUs. llvm-dev (邮件列表). March 26, 2012 [2019-02-18]. (原始内容存档于2020-12-01). 
  27. ^ WAVM is a WebAssembly virtual machine, designed for use in non-browser applications. 
  28. ^ lld - The LLVM Linker. The LLVM Project. [May 10, 2017]. (原始内容存档于2020-12-29). 
  29. ^ "libc++" C++ Standard Library. [2020-09-26]. (原始内容存档于2017-04-29). 

外部链接

[编辑]