OpenAI 宣布推出其全新产品 OpenAI o1,也就是此前广受期待的代号为“草莓(Strawberry)”模型。
按照官方技术博客说法,o1 在推理能力上代表了人工智能最强的水平。
“o1 在回答问题之前会先思考,它可以在回复用户之前产生很长的内部思考链。”
OpenAI CEO Sam Altman 表示:“OpenAI o1 是一个新范式的开始:可以进行通用复杂推理的 AI。”
准确地来说,o1 是一系列用于解决难题的全新推理模型,经过强化学习训练可以执行复杂的推理,擅长准确生成和调试复杂代码。
目前发布的是 OpenAI o1-preview 版本以及 OpenAI o1-mini。
OpenAI o1-mini 是一种速度更快、成本更低的推理模型,作为一款较小的模型,o1-mini 比 o1-preview 便宜 80%。
OpenAI 表示,对于复杂推理任务而言,新模型代表着 AI 能力的崭新水平,因此值得将计数重置为 1,并将该系列命名为 OpenAI o1,给它一个有别于 “GPT-4” 系列的全新名号。
测试结果表明,OpenAI o1 在竞争性编程问题(Codeforces)中排名第 89 位,在美国数学奥林匹克 (AIME) 预选赛中跻身美国前 500 名学生之列(o1 正确解答了 83% 的题目,而 GPT-4o 仅解答了 13%。),并在物理、生物和化学问题 (GPQA) 基准测试中超越人类博士级准确度。
ChatGPT Plus 和 Team 用户即日起便可以访问 o1-preview 和 o1-mini,每周发送消息次数限制为 o1-preview 30 条消息和 o1-mini 50 条消息。
而 ChatGPT Enterprise 和 Edu 用户将在下周初获得访问权限。
OpenAI 表示,它计划面向所有的 ChatGPT 免费用户提供 o1-mini 访问权限,但尚未确定发布日期。
值得一提的是,与 o1 的前身 GPT-4o 不同,o1 尚无法浏览网页或分析文件。该模型确实具有图像分析功能,但在进一步测试前已被禁用。
价格方面 o1 也相当昂贵。通过 API 使用 o1-preview,输入每百万 token 要收费 15 美元,输出每百万收费 60 美元。相比之下,GPT-4o 的百万 token 输入收费只有 5 美元,输出为 15 美元。
英伟达具身人工智能负责人 Jim Fan 解释了 OpenAI 新推出的 Strawberry(o1) 模型的创新和意义:
o1不再需要像以前那样记住很多信息,而是通过思考和通过调用外部工具(比如上网查资料或验证代码)来获得所需的信息。
模型知道什么时候自己不懂,然后找方法去“查询”或“验证”答案,而不是依赖模型自身储存所有知识。
1、推理时间扩展 (inference-time scaling):传统的大型语言模型通常通过大量的训练数据记住信息,并在回答问题时快速调用这些记忆。
但 Jim Fan 指出,OpenAI o1模型的创新之处在于它专注于推理,而不是记忆。
这意味着,模型不需要非常庞大的参数来记住所有的事实,而是可以通过推理来得出结论。这样做不仅可以提高效率,还可以减少对模型记忆的依赖。
2、推理核心与工具调用:他提到,较小的模型可以通过一个“推理核心”来完成任务。
这个核心通过调用外部工具(例如浏览器或代码验证器)来补充知识,而不是依靠模型本身记住所有细节。这种方法让模型更加灵活,也减少了训练时的计算需求。
换句话说就是:模型知道什么时候自己不懂,然后找方法去“查询”或“验证”答案,而不是依赖模型自身储存所有知识。
3、计算资源的转移:Fan 强调,OpenAIl 01 通过 在推理阶段使用大量计算资源 来滚动出多种策略和场景,并从中选择最佳方案。也就是模型在解决问题时,会模拟各种可能的策略,然后选出最佳答案。
这类似于 AlphaGo 使用 蒙特卡洛树搜索(MCTS)来不断优化决策过程。这意味着,模型不再依赖预训练期间的计算,而是在推理阶段动态调整,解决问题时更加高效。
4、生产中的挑战:尽管学术上的表现已经很好,但在实际生产中使用01模型面临更多挑战。
比如,如何决定搜索过程何时结束,什么样的标准可以判定结果的好坏,以及调用外部工具的计算成本如何控制等。
OpenAI 的 o1 模型不再依赖记忆海量数据来进行推理,而是通过灵活使用工具和优化推理过程来实现高效的决策。这在减少模型规模的同时,还保持了强大的推理能力