近日,Groq将在贝莱德领投的新一轮融资中将估值翻番,达到25亿美元。Groq是一家AI芯片研发商,现阶段主要产品是一个单芯片,拥有400TOP/s的性能指标,8TOP/s/W的能效指标,相比于Google TPU,则是Google的4倍多。
今年2月,Groq推出一款AI芯片LPU(语言处理器),并宣称其LPU推理性能是英伟达GPU的10倍,成本仅为其十分之一。
根据 Groq 官网介绍,LPU 是「language processing units(语言处理单元)」的缩写。它是「一种新型端到端处理单元系统,可为人工智能语言应用等具有序列成分的计算密集型应用提供最快的推理」。
LPU(Language Processing Unit)与GPU(Graphics Processing Unit)在设计和应用上存在着显著的差异。以下是关于两者比较的详细分析:
设计目的与架构:
GPU:专为执行复杂的数学计算和图形渲染而设计,内部由多个核心组成,每个核心都能执行独立的计算任务。GPU擅长并行计算,通过并行处理技术显著提高整体计算效率。
LPU:是一种全新的端到端处理单元系统,专为处理具备序列组件的计算密集型应用(如大型语言模型LLM)而设计。其架构并未脱离传统CMOS工艺,但采用了与传统内存相连的SM(Storage Memory)架构,并基于内嵌的SRAM架构进行存储,代替了传统的cache系统和HBM(高带宽内存)。
性能与效率:
GPU:具备强大的并行计算能力、高速传输和精准浮点数计算等特点,在游戏开发、图像处理、生物信息分析等领域发挥着重要作用。然而,在处理大型语言模型等计算密集型应用时,GPU可能面临计算量和内存带宽的瓶颈。
LPU:旨在克服LLM的两大瓶颈——计算量和内存带宽。一个LPU系统的计算能力可以与GPU相媲美或者更强,减少了每个词的计算时间,使文本序列的生成速度更快。LPU的设计消除了对复杂调度硬件的需求,允许有效利用每个时钟周期,确保一致的延迟和吞吐量。此外,LPU提供了更高的能源效率,通过减少与管理多个线程相关的开销并避免核心利用率不足,提供了更多的每瓦计算量。
成本:
GPU:作为广泛应用的计算单元,GPU的成本相对较低,并且已经形成了成熟的产业链和生态系统。
LPU:虽然Groq的LPU在成本上尚未达到GPU的水平,但其高效的性能和能源效率为大规模AI模型的硬件要求提供了更经济的解决方案。随着技术的进一步发展和产量的增加,LPU的成本有望进一步降低。
可扩展性:
GPU:在构建大规模AI模型时,可能需要使用多个GPU进行集群计算。然而,GPU集群中的传统瓶颈可能会限制整体性能的提升。
LPU:Groq的芯片设计允许将多个TSP(可能是指某种处理单元)连接在一起,不会出现GPU集群中的传统瓶颈。这使得LPU具有极高的可扩展性,随着更多LPU的添加,可以实现性能的线性扩展,从而简化大规模AI模型的硬件要求。
应用领域:
GPU:广泛应用于游戏开发、图像处理、生物信息分析等领域,并在深度学习加速器等应用中发挥重要作用。
LPU:专为处理大型语言模型等计算密集型应用而设计,适用于需要高效、快速推理的AI场景。
LPU和GPU在设计目的、性能、成本、可扩展性和应用领域等方面存在显著差异。LPU作为一种新型的处理单元系统,为大规模AI模型的硬件要求提供了更高效、经济的解决方案。然而,GPU作为广泛应用的计算单元,在游戏开发、图像处理等领域仍具有不可替代的地位。
英伟达的竞争对手,从AMD到英特尔,从Groq到华为,每天都在异口同声地陈述同一个观点:推理的门槛没有硬件那么高,英伟达赖以生存的CUDA软件生态以及显卡互联技术在推理端的作用有限,所以在推理端替代英伟达完全可行。事实又是如何?
AMD和英特尔的“AI加速卡”(其实就是推理卡)卖得都不怎么样。其中,AMD的旗舰产品Instinct MI300的单季度销售额不足10亿美元,2024年全年的目标也仅仅是卖出40亿美元;英特尔的旗舰产品Gaudi 3就更惨了,2024年全年的销售目标不足10亿美元。把这两家的AI硬件销售额加起来,恐怕都只有英伟达“中卡”销量的一个零头。