o3的核心创新点在于,实现了token空间内自研语言程序搜索和执行。在测试时,它会搜索可能的CoT空间,并寻描述解决任务所需的步骤,由评估模型引导搜索过程。
OpenAI分享说,他们测试的o3是在公共训练集75%的数据上进行训练的。他们尚未透露更多细节。我们尚未测试未经ARC数据训的模型,因此尚不清楚其性能有多少归因于ARC-AGI数据。