我的网站

耀世注册

联系我们

地址:海南省海口市

邮编:570521

电话:0898-08980898

传真:0898-1230-5678

公司动态

当前位置: 首页 > 耀世资讯 > 公司动态

XLA:优化机器学习编译器

添加时间:2024-07-08 14:18:02

XLA(加速线性代数)是一种针对特定领域的线性代数编译器,能够加快 TensorFlow 模型的运行速度,而且可能完全不需要更改源代码。

它可以提高运行速度并改进内存用量。例如在 BERT 中,如果 MLPerf 提交内容使用 8 伏打 V100 GPU 和 XLA,则性能可提升约 7 倍,并且批次大小可改进约 5 倍:

运行 TensorFlow 程序后,所有操作均由 TensorFlow 执行程序单独执行。每个 TensorFlow 操作都有一个预编译的 GPU 内核实现,可以将执行程序分派给该实现。

XLA 提供了一种运行模型的替代模式:它会将 TensorFlow 图编译成一系列专门为给定模型生成的计算内核。由于这些内核是模型特有的,因此它们可以利用模型专属信息进行优化。以 XLA 在简单的 TensorFlow 计算环境中进行的优化为例:


如果在不使用 XLA 的情况下运行,图会启动三个内核:分别对应于乘法、加法和减法运算。但是,XLA 可以优化该图,使其启动一次内核就能计算结果。它通过将加法、乘法和减法“融合”到一个 GPU 内核中来实现这一点。此外,这种融合操作不会将由 和 生成的中间值写出到内存中;而是直接将这些中间计算的结果“流式传输”给用户,同时将它们完全保留在 GPU 寄存器中。融合是 XLA 采用的最重要的一项优化措施。 内存带宽通常是硬件加速器上最稀缺的资源,因此消除内存操作是提高性能的最佳方法之一。

借助 Explicit compilation API,您可以精细地控制应选择哪些函数进行编译。例如,以下执行 MNIST 训练的 TensorFlow 函数使用 XLA 进行编译:


API 具有必须编译语义:要么使用 XLA 编译整个函数,要么抛出 异常。目前,如果维度无法推断出来,也就是说,无法在不运行完整计算的情况下推断所有张量的维度,那么 XLA 无法编译包含此维度的函数。例如,以下函数将无法编译:


但形状可能会在不同的运行会话中有所不同:


如需查看更详细的用法示例,请参阅教程 Colab;如需了解 的使用方法,请观看教程视频

若要在 TensorFlow 模型中开始使用 XLA 并且无需做出任何更改,最简单的方法是启用“自动聚类”,此功能会自动在可以使用 XLA 进行编译和执行的 TensorFlow 函数中查找聚类(连通的子图)。您可以通过设置 环境变量,在 GPU 上启用自动聚类功能:


自动聚类目前已针对 GPU 工作负载进行了优化,但您也可以通过另外使用 标记在 CPU 上启用它:


如需查看详细的用法示例,请参阅自动聚类教程 Colab

您还可以使用独立的 工具,此工具会将 TensorFlow 图转换为可执行代码(仅适用于 x86-64 CPU)。

XLA 提供了自省工具,您可以利用这些工具检查生成的程序。如需转储生成的程序,请使用环境变量 :


执行转储后,您可以在 中找到以下文件:

  • :生成的 XLA 程序,每个已编译的聚类对应一个。在提交 XLA 错误报告时附加这些文件非常有帮助!

  • :生成的 LLVM 中间表示法文件,其中包含 NVPTX 内建函数。

  • :生成的 PTX 文件。

您还可以使用以下命令,对可视化 TensorFlow 图中 XLA 聚类的嵌入方式的图进行转储:




如果错误报告包含已生成 XLA 程序和已用自动聚类嵌入的转储文件,则更容易重现。如需为使用自动聚类运行的 TensorFlow 程序生成此类报告,请启动以下命令:


提交错误时,请附上 目录(如上所述)的内容。

如果可能,请尝试使用 并在生成的程序上以迭代方式运行它,使错误具体到单个 XLA 程序中。

除了 TensorFlow,还可以通过以下工具生成 XLA 程序:

  • JAX:Python+NumPy 程序的可组合转换
  • Julia:科学计算用到的 Julia 语言
  • PyTorch:PyTorch 框架
  • Nx:适用于 Elixir 编程语言的数值计算库

地址:海南省海口市电话:0898-08980898传真:0898-1230-5678

Copyright © 2012-2018 耀世娱乐-耀世注册登录入口 版权所有ICP备案编号:琼ICP备xxxxxxxx号

平台注册入口