XLA：优化机器学习编译器

添加时间：2024-07-08 14:18:02

XLA（加速线性代数）是一种针对特定领域的线性代数编译器，能够加快 TensorFlow 模型的运行速度，而且可能完全不需要更改源代码。

它可以提高运行速度并改进内存用量。例如在 BERT 中，如果 MLPerf 提交内容使用 8 伏打 V100 GPU 和 XLA，则性能可提升约 7 倍，并且批次大小可改进约 5 倍：

运行 TensorFlow 程序后，所有操作均由 TensorFlow 执行程序单独执行。每个 TensorFlow 操作都有一个预编译的 GPU 内核实现，可以将执行程序分派给该实现。

XLA 提供了一种运行模型的替代模式：它会将 TensorFlow 图编译成一系列专门为给定模型生成的计算内核。由于这些内核是模型特有的，因此它们可以利用模型专属信息进行优化。以 XLA 在简单的 TensorFlow 计算环境中进行的优化为例：

如果在不使用 XLA 的情况下运行，图会启动三个内核：分别对应于乘法、加法和减法运算。但是，XLA 可以优化该图，使其启动一次内核就能计算结果。它通过将加法、乘法和减法“融合”到一个 GPU 内核中来实现这一点。此外，这种融合操作不会将由和生成的中间值写出到内存中；而是直接将这些中间计算的结果“流式传输”给用户，同时将它们完全保留在 GPU 寄存器中。融合是 XLA 采用的最重要的一项优化措施。内存带宽通常是硬件加速器上最稀缺的资源，因此消除内存操作是提高性能的最佳方法之一。

借助 Explicit compilation API，您可以精细地控制应选择哪些函数进行编译。例如，以下执行 MNIST 训练的 TensorFlow 函数使用 XLA 进行编译：

API 具有必须编译语义：要么使用 XLA 编译整个函数，要么抛出异常。目前，如果维度无法推断出来，也就是说，无法在不运行完整计算的情况下推断所有张量的维度，那么 XLA 无法编译包含此维度的函数。例如，以下函数将无法编译：

但形状可能会在不同的运行会话中有所不同：