“训练一个 GPT-3 要烧掉 460 万美元?李飞飞团队用一顿火锅钱改写规则!低至 50 美元的 AI 大模型时代,普通人也能玩转黑科技!???”
在 AI 发展的进程中,训练成本始终是高悬于行业头顶的 “达摩克利斯之剑”。OpenAI 训练 GPT-3 时,投入 460 万美元的巨额资金,耗费 355 GPU 年的时间,这般烧钱速度,让外界惊掉了下巴。谷歌的 PaLM 模型亦是如此,单次训练所消耗的电费,竟与 300 户美国家庭一年的用电量相当。这些令人咋舌的数字,将 AI 训练变成了一场只有财大气粗的巨头才有资格参与的 “金钱游戏”。
这一现状直接导致 AI 领域被巨头垄断,只有那些拥有海量资金和丰富资源的大公司,才能在这场激烈的竞赛中肆意驰骋。而普通人和小型团队,面对如此高昂的成本,只能望洋兴叹,AI 似乎成了他们难以触及的 “奢侈品”。
就在众人对 AI 训练的天价成本感到绝望时,李飞飞团队带着他们的 “秘密武器” 横空出世。
他们仅用不到 50 美元的云计算费用,就训练出了一款名为 s1 的人工智能推理模型 ,在数学和编程测试中的表现堪比当前业界领先的 DeepSeek R1 模型。这一颠覆性成果,瞬间打破了行业的固有格局,让人们看到了 AI 训练成本大幅降低的希望。
技术原理剖析
蒸馏法提炼精华:李飞飞团队的 s1 模型通过 “蒸馏法” 从谷歌的 Gemini 2.0 Flash Thinking Experimental 模型中提取精华。这就好比从一大桶酒中提取最香醇的部分,将 Gemini 2.0 的部分能力浓缩并传递给 s1 模型。这种方式避免了大规模强化学习方法中常见的海量数据需求与高昂成本,使得模型能在较小数据集上达到优异表现。
Test-Time Scaling 技术:在模型推理阶段,引入 test-time scaling 方法。这就像是给模型配备了一个智能 “加速器”,在测试时通过动态调整计算资源来延长或缩短模型 “思考” 时间,从而实现性能优化。这使得 s1 模型在多种任务上都能快速、准确地输出答案,尤其在数学问题和编程任务中表现突出。
预算强制技术:团队还采用了预算强制技术,在模型推理过程中,通过控制计算时间和步骤,确保模型不会过度 “思考” 而导致资源浪费。就像给模型设定了一个 “闹钟”,在必要时提醒它适可而止,同时也能在需要时延长计算以提高答案质量。
如果仔细研究斯坦福s1的论文会发现,s1模型的神奇是以通义千问模型为基座进行微调,这1000个样本训练的作用更像是“锦上添花”,而非“从零开始”。
国内某知名大模型公司CEO也向《科创板日报》记者表示:“从论文原文来看,所谓用50美元训练出新的具有推理能力的模型,实际上只是用从谷歌模型中提炼出来的1000个样本,然后对通义千问模型进行监督微调。这种微调的成本确实很低,但明显是站在既有领先模型的‘肩上’才能做到。”
尽管s1模型的低成本训练在某种程度上展示了AI训练的潜力,但其局限性也不容忽视。
首先,这种低成本训练依赖于已有的强大基座模型,如阿里通义千问模型。如果没有这样的基座模型,低成本训练的效果将大打折扣。
其次,1000个样本数据的训练量在大多数情况下是不够的,尤其是在需要处理复杂任务的场景中。
此外,低成本训练的成功也引发了对AI模型知识产权和伦理问题的讨论。如果越来越多的研究依赖于已有的基座模型进行微调,那么这些基座模型的开发者是否应该获得相应的回报?如何确保AI技术的公平使用和共享?这些问题都需要业界进一步探讨和解决。
尽管s1模型的低成本训练引发了争议,但其背后的研究思路无疑为AI领域提供了新的思考方向。