AI Revolution|人工智能计算的高成本背后

AI Revolution|人工智能计算的高成本背后

AI Revolution|人工智能计算的高成本背后

在这个数字化的新时代,AI革命正在改变我们的世界。计算资源成为了这场革命的核心,它既是挑战,也是机遇。对于那些勇于探索未知、不断创新的人而言,这是一个充满可能性的时代。

人工智能的进化与繁荣是受计算限制的,它的独特属性决定了增加计算才会产生更好的产品。通常来说,研发投资与产品的价值更直接相关,而且这种关系明显是次线性的。但目前人工智能的情况并非如此,因此,当今推动该行业的主要因素只是训练和推理的成本。虽然我们不知道真实的数字,但我们据可靠来源得知,计算的供应非常有限,需求超出了 10 倍!所以现在可以说能够以最低的总成本计算资源已成为人工智能公司成功的决定性因素。事实也是如此,我们已经看到许多公司将其筹集的总资金的 80% 以上用于计算资源。

在当今飞速发展的人工智能领域,一个不容忽视的事实正逐渐浮出水面:尽管技术不断进步,人工智能的进化和繁荣却受限于一项关键资源——计算能力。这个领域的独特之处在于,随着计算能力的增强,我们能够创造出更加先进和精准的智能产品。这种与计算力直接相关的性质,使得人工智能领域与传统研发驱动型行业形成鲜明对比,后者的产品价值和研发投资之间通常呈现出次线性的关系。

但在现实中,人工智能行业面临的情况截然不同。目前推动该行业前进的主要动力并非创新或技术突破,而是与训练和推理直接相关的成本。据可靠来源显示,计算资源的需求量却是供应量的十倍之多。这种资源短缺的现状,促使人工智能公司将筹集的资金的大部分,有时甚至超过 80%,投入到昂贵的计算资源中,从而使得计算成本低化成为企业成功的决定性因素。

今天让我们来尝试分解一下人工智能公司的成本结构和关键因素。当然,绝对数字会随着时间的推移而变化,目前还没有看到人工智能公司受到计算资源访问限制的压力的缓解。希望可以帮大家建立一个思考的框架,更好理解人工智能计算成本的复杂性和它对整个行业的影响。


Image

为什么人工智能模型的计算成本如此之高?

生成式人工智能模型有很多种,推理和训练成本取决于模型的大小和类型。目前最流行的模型大多是基于 Transformer 的架构,其中包括流行的大型语言模型 (LLM),例如 GPT-4、GPT-J 或 BERT。虽然 Transformer 的推理和学习的确切操作数量是特定于模型的,但有一个相当准确的经验法则,仅取决于模型的参数数量(神经网络的权重),模型以及输入和输出标记的数量。

令牌本质上是几个字符的短序列。它们对应于单词或单词的一部分。获得代币直觉的最佳方法是使用公开可用的在线代币化器(例如OpenAI )尝试代币化。对于 GPT-3,令牌的平均长度为 4 个字符。

Transformer的经验法则是,对于具有p 个输入参数和每个长度为n 个标记的输出序列的模型,前向传递(即推理)大约需要2*n*p浮点运算(FLOP)1。对同一模型的训练每个令牌大约需要6*p FLOP(即,额外的向后传递需要另外四次操作 )。那么通过将其乘以训练数据中的令牌数量就可以估算总训练成本。

变压器的内存要求还取决于模型大小。为了进行推理,我们需要将p 个模型参数放入内存中。为了学习(即反向传播),接下来需要在前向和后向传递之间存储每个参数的附加中间值。假设使用 32 位浮点数,则每个参数需要额外的 8 个字节。为了训练 1750 亿个参数的模型,那么则需要在内存中保存超过 1 TB 的数据——这超过了当今现有的任何 GPU,并且需要将模型拆分到多个卡上。推理和训练的内存要求可以通过使用较短长度的浮点值来优化,16 位将变得常见,8 位预计将在不久的将来出现。

Image
Image

上表列出了几种流行模型的大小和计算成本。GPT-3 拥有大约 1750 亿个参数,对于 1,024 个令牌的输入和输出,会导致大约 350 万亿次浮点运算(即 Teraflops / TFLOPs)的计算成本。训练像 GPT-3 这样的模型大约需要 3.14*10^23 次浮点运算。其他模型(如 Meta 的 LLaMA)具有更高的计算要求。训练这样的模型是人类迄今为止承担的计算密集型任务之一。

总结一下:AI模型在计算上非常昂贵,因为底层算法问题的计算难度极大,它们需要大量的计算资源来训练和推理。这些模型通常包含数百万甚至数十亿个参数,需要大量的数据进行训练,以及复杂的计算来进行推理和预测。此外,训练大型AI模型通常需要使用高性能计算资源,如GPU或TPU,以加速计算过程。这些因素共同导致了AI模型的高计算成本。

GPU 的时间和成本

那么计算的复杂度是如何转化为时间的呢?

处理器内核通常每个周期可以执行 1-2 条指令,并且由于Dennard Scaling(科普一下:摩尔定律的一个方面,它描述了集成电路中晶体管尺寸的减小会导致功耗线性减小的现象。这意味着随着晶体管变小,其功耗也会减小,同时性能会提高。然而,随着晶体管尺寸的不断减小,Dennard Scaling 在20世纪末和21世纪初变得越来越难以实现。这是因为当晶体管尺寸减小到一定程度时,由于漏电流的增加和其他因素,功耗不再线性减小,而是呈指数增长。这导致了摩尔定律在某种程度上的失效,因为无法继续依靠晶体管尺寸的减小来提高性能和降低功耗。)的结束,处理器时钟频率在过去 15 年里一直稳定在 3 GHz 左右。在不利用任何并行架构的情况下执行单个 GPT-3 推理操作将花费大约 350 TFLOPs/(3 GHz*1 FLOP) 或 116,000 秒或 32 小时。举个例子,如果没有GPU这样的特殊处理器,单靠普通的处理器核心(每秒能执行大约30亿步计算)要完成一次大型AI模型GPT-3的一次推理操作,可能需要超过32小时。但这在现实生活中是行不通的,我们需要的是迅速的反应和即时的结果,所以我们需要专门的芯片来加速这项任务。

这时候,GPU就大显身手了。举个栗子,NVIDIA A100 GPU,A100 的标称性能为312 TFLOPS,拥有512个“张量核心”,这些是专为AI计算设计的核心。它们可以在单个周期内执行 4×4 矩阵乘法(相当于 64 次乘法和加法,或 128 次 FLOP),能在一次计算周期内执行128个计算步骤。理论上可以将 GPT-3 的推理时间减少到大约 1 秒。

然而,由于多种原因,事实并没有这么简单。首先,对于大多数用例,瓶颈不是 GPU 的计算能力,而是从专用图形内存获取数据到张量核心的能力。其次,1750 亿个权重将占用 700GB,并且无法放入任何 GPU 的图形内存中。需要使用分区和权重流等技术。第三,有许多优化(例如,使用较短的浮点表示形式,例如 FP16、FP8 或稀疏矩阵)用于加速计算。

好了,除了速度,还有存储问题。比如GPT-3模型需要700GB的空间来存储它的参数——这比任何一块GPU的内存都要大。为了解决这个问题,研究人员必须使用分区和数据流技术,将模型拆分到多个GPU上运行。

每个 token 训练 Transformer 模型所需的时间大约是推理所需时间的三倍。然而,考虑到训练数据集比推理提示大约 3 亿倍,训练时间将延长 10 亿倍。在单个 GPU 上,训练需要数十年的时间;实际上,这是在专用数据中心或更可能在云中的大型计算集群上完成的。训练也比推理更难并行化,因为更新的权重必须在节点之间交换。随着高速互连和专用结构的普遍存在,GPU 之间的内存和带宽往往成为更加重要的因素。对于训练非常大的模型,创建合适的网络设置可能是主要挑战。想象一下未来,人工智能加速器甚至可能在卡上甚至芯片上具备联网功能。

那么,这一切计算的复杂性要多少成本呢?以GPT4模型为例,即使是一秒钟的推理,其计算成本也在0.0002美元到0.0014美元之间(1,000个代币)(相比之下,OpenAI 的定价为 0.002 美元/1000 个代币)。也就是说如果你每天需要100次这样的推理,一年的成本大概也就是几美元。这个还是性价比很高的。

然而,训练GPT-3模型就是另外一回事了。根据估算,即使是在最优化的条件下,仅计算上述速率下 3.14*10^23 FLOP 的计算成本,我们就可以估计 A100 卡单次训练运行的成本为 560,000 美元= =!而且,通常在GPU上无法达到100%的效率。

总结一下:虽然我们有了越来越快的GPU,也找到了优化训练的方法,但人工智能的快速扩展抵消了这两种影响啊。未来,我们可能会看到更多的AI加速器,它们在硬件上或者甚至是在芯片上具有网络功能,进一步推动AI的发展。

GPU 比较

高端GPU无疑是性能的王者,但好东西也意味着高昂的价格。因此,选择合适的GPU也是个重要的课题,需要考虑特定应用场景,平衡成本和性能也是个艺术。那么如何选择合适的GPU,既能满足应用程序的需求,又不会拖垮企业的财务?

决定选择哪款GPU并不只是看规格表和价格,还要深入了解技术需求。比如,AI模型训练与推理(inference)的需求大相径庭。训练一个Transformer模型不仅需要考虑模型的权重存储,还要额外存储8字节的训练数据。这意味着一块拥有12GB内存的高端GPU可能勉强能够训练一个参数量为40亿的模型。因此,通常情况下,训练大型模型需要在服务器集群上进行,这些服务器集群应配置有多个GPU、大量的视频随机存取存储器(VRAM),以及高带宽的服务器间连接。

在选择特定型号的GPU时,许多模型可能会在NVIDIA H100上获得最佳性价比。但目前很难找到这款GPU,通常需要long-term commitment (用户需要与供应商签订长期合同或承诺以获得特定产品或服务)。相比之下,NVIDIA A100是目前大多数模型训练的首选,虽然相对容易找到,但对于大型集群来说同样需要长期承诺。

此外,内存需求也是个重要因素。大型语言模型(LLM)的参数数量过多,无法容纳在单张GPU卡中,因此需要将它们分布在多个GPU卡上并进行相应设置,类似于模型训练的方式。然而,较小的模型(如Stable Diffusion)所需的VRAM要少得多。虽然A100仍然非常受欢迎,但我们也看到一些初创公司开始使用A10、A40、A4000、A5000和A6000,甚至是RTX卡,这些GPU适合较小的模型。

除了NVIDIA之外,一些公司也开始尝试其他供应商的GPU产品。最常见的是谷歌的TPU,但英特尔的Gaudi 2似乎也开始受到一些关注。然而,这些选择的挑战在于,模型的性能往往高度依赖于这些芯片的软件优化的可用性,因此可能需要进行性能测试以确定最佳选择。

延迟需求也是选择GPU时的一个关键要素。对于不太关注延迟的工作负载(例如批量数据处理或不需要交互式用户界面响应的应用程序)可以使用性能较低的GPU。这可以将计算成本降低多达3到4倍(比如在AWS上比较A100与A10的成本)。然而,面向用户的应用程序通常需要高端GPU,以提供引人入胜的实时用户体验。因此,通常需要对模型进行优化,以将成本控制在可接受范围内。

最后,由于AI技术的新颖性和吸引人的特性,AI公司经常会经历需求的剧烈波动。根据新产品发布或持续增长的情况,请求量可能在一天之内增加10倍,或者每周增长50%。对于这种情况,使用性能较低的GPU来处理需求通常更容易,因为可以根据需求提供更多的计算节点。如果流量来自参与度较低或保留性较低的用户,那么使用性能略低的资源来服务这类流量通常也是有意义的。

总结一下:选择合适的GPU不仅是一个技术上的决策,也是一个战略决策。正确的选择可以显著降低成本,有时甚至可能是企业商业模式成败的关键因素。

AI基础设施成本将如何演变?

在过去的几年里,我们能看到模型参数和GPU 计算能力呈指数级增长。在不断演进的人工智能领域,有一点是肯定的:成本正在逐日攀升。

如今,人们普遍认为最佳参数数量和训练数据集的大小之间存在关系(大家可以去参考 Deepmind 的Chinchilla工作)。当今最好的LLM接受过Common Crawl(45 亿个网页的集合,约占现有所有网页的 10%)的培训。训练语料库还包括维基百科和书籍集,尽管两者都要小得多(现有书籍总数估计只有1 亿册左右)。可是现实是要找到一个比这座庞然大物大10倍的数据集就像大海捞针一样困难。。然后还有GPU性能的问题。虽然摩尔定律继续推动前进,使得可以拥有更多的晶体管和核心,但它也与功耗和I/O约束发生冲突。我们已经摘下了大部分优化的低挂果实,因此未来的性能提升将步履维艰。

然而,这并不意味着我们预计对计算能力的需求不会增加。因为即使模型和数据集的增长速度减缓,AI行业也在飙升。AI开发者的队伍正在壮大,他们渴望拥有更多和更快的GPU。开发者依赖GPU进行模型开发阶段的测试,而这种需求与他们的人数成正比。结果就是,当前的GPU短缺情况看起来毫无缓解的迹象。

Image
Image

(英伟达未来大致的新GPU路线图)

现在,让我们思考一个问题:这种不断攀升的AI基础设施成本是否会形成一道不可逾越的壕沟,阻止新进者入场?这是一个悬而未决的问题。训练大型语言模型(LLM)的价格标签可能在今天看来是一座坚不可摧的堡垒,但开源模型如Alpaca和Stable Diffusion已经表明,AI领域如同可塑之土。随着时间的推移,新兴人工智能软件堆栈的成本结构可能会开始看起来更像传统软件行业。最终,在AI进程的汹涌推动下,带来的是巨大的创造和机遇。

写在后面:

Sam Altman说未来的货币是算力和能源,确实,能源是算力的基础,算力的运行需要大量的能源。那算力本身也可以被视为一种资源或“能源”。拥有足够的算力,就像拥有了一种能够驱动新技术和应用的“燃料”。能源和算力可以在一定程度上用于交换,例如,公司可能通过购买云计算服务来获取算力,或者通过购买电力来获取能源。那么,掌握关键资源如能源和算力的国家或组织往往拥有更大的影响力。谁的能源资源丰富,拥有先进技术,强大计算能力的国家和公司就是更有话语权。

Image
Image

上周Altman在达沃斯世界经济论坛上接受采访说未来人工智能的发展将取决于核聚变等能源突破。(感兴趣的可以去看一下,)他说人工智能的发展方向是更有利于气候变化的能源,特别是核聚变或更便宜的太阳能以及储能(?)除了倡导核聚变,奥特曼还表示希望全世界接受核裂变作为一种能源来源。。额。。不过他本人在美国开发聚变能源公司Helion Energy投了3.75亿美元,可以说是将核聚变视为可能为AI革命提供所需能源的银弹了。特别是强大的新型模型,预计将消耗比最初预期更多的能量,毕竟宇宙智能数量每18个月翻一番的话,无论有没有做好准备,一个日新月异的时代都开启了。