12 月 20 日,OpenAI宣布推出 o3 系列模型,作为今年早些时候发布的 o1 模型后续型号。o3 包含 o3 和 o3-mini 两个版本,后者是针对特定任务微调的精简版模型。(跳过 o2 是为了回避同名英国电信运营商。)
OpenAI 声称,o3 在特定条件下展现出接近通用人工智能(AGI)的潜力。与 o1 类似,o3 的主要特点在于推理能力。通过强化学习训练,o3 能够在给出答案之前「思考」,并利用内部的「思维链」进行推理和规划,从而在物理、科学和数学等领域展现出更高的可靠性,但也会导致一定的延迟。
OpenAI 表示,o3 在多项基准测试中表现大幅超越 o1。在 ARC-AGI 测试中,o3 在「高效」模式下取得了 75.7% 的得分,在性能更强但效率更低(172 倍计算量)的模式下则能达到 87.5%。此外,o3 还在编程技能评级、美国数学邀请赛和研究生水平科学问题等测试中取得了优秀的成绩。
OpenAI 强调,该模型仍然可能产生幻觉和错误,将采用一种名「审慎对齐」的新技术来确保 o3 遵循其安全原则。o3-mini 的预览版将从当日起提供给安全研究人员,明年 1 月底发布;o3 的预览版和正式版则将分别稍晚推出。
另据《华尔街日报》报道,由于训练成本高昂、训练数据有限,GPT-5(代号 Orion)的进度落后于预期,多次被推迟。
据悉,OpenAI 给 GPT-5 设定的目标不低,Orion 至少试了两轮大规模训练,但效果都未达预期,成品只是比现在的产品是强了点,但投入产出比极低,据估计,六个月的训练运行就要烧掉大约 5 亿美元(折合人民币 36.48 亿元)。