栏目分类

热点资讯

新闻中心

你的位置：开云 (集团) 官方网站 Kaiyun- 登录入口 > 新闻中心 > 开云体育o3 优于 94% 的专科病毒学家-开云 (集团) 官方网站 Kaiyun- 登录入口

开云体育o3 优于 94% 的专科病毒学家-开云 (集团) 官方网站 Kaiyun- 登录入口

发布日期：2025-08-29 09:05 点击次数：150

得分比第二名翻倍开云体育，本钱却仅为 1/20？！

o3 中杯在超难推理任务 ARC-AGI 上的新收成，属实又给世东谈主带来了亿点点颠簸。

根据 ARC Prize 官方先容，本轮测试得出的要道论断如下：

o3 ( Medium ) 在 ARC-AGI-1 上得分为57%，本钱为1.5 好意思元 / 任务，优于刻下通盘已知 COT 推理模子；

o4-mini（Medium）在 ARC-AGI-1 上得分为42%，本钱为0.23 好意思元 / 任务，准确率不及但本钱上风彰着；

在难度升级的 ARC-AGI-2 上，两种型号模子的准确率均未特出 3%。

按照最新 ARC 测试，中杯 o3 号称刻下 OpenAI 通盘模子中的"性价比之王"。

不外值得提神的是，比拟 2024 年 12 月 OpenAI 在"双十二"直播当作中发布的 o3 模子，最新收成可谓"大幅缩水"。

其时 o3 在低推理才能竖立下（Low）得分高达 75.7%，而况让模子推理更万古辰后，其得分更是初次超越东谈主类（85%）飙升至 87.5%。

那么问题来了，为何短短几个月昔时，o3 模子在 ARC 测试上的得分各异彰着呢？

原本前后两个模子天然称呼相通，但践诺并非疏通的模子。

OpenAI 当下最新的 o3，已针对聊天和家具哄骗进行了微调。

图源：ARC Prize 官网

致使，OpenAI 研讨员们也强调，最新发布的 o3 并未挑升针对 ARC-AGI 测试进行检察。

也即是说，中杯 o3 第一次挑战 ARC 困难就取得了好收成。

宾大沃顿商学院教悔 Ethan Mollick 更是直言：

刻下有更多的字据标明， o3 代表着一次枢纽特出。

与此同期，时期杂志发表的一篇独家著述暗示，o3 优于 94% 的专科病毒学家。其在这一专科界限的准确率达到了 43.8%，比拟之下博士级东谈主类行家的准确率仅为 22.1%。

中杯 o3 ARC-AGI 测试收成出炉

ARC-AGI 是一项旨在评判大模子的"智商"，约略说" AGI 才能"的基准测试。

内部包含了一系列拼图问题，条目 AI 从不同情怀的方块中识别出视觉状态，并生成正确的 "谜底" 网格。这些问题主如果为了迫使 AI 稳健未始见过的新问题。

正如起首所言，在 ARC-AGI-1 中，o3 模子曾以 75.7% 的得分"飞扬跋扈"。而在看到这一收成后，ARC 官方感受到了进一步更新的进击性。

于是在 2024 年 3 月，他们上新了 ARC-AGI-2 版块，中枢办法是测试模子能否高效地获取超出其检察数据的新妙技。

具体而言，在 ARC-AGI-1 基础之上，官方引入了更多标志评释、多组合划定以及需要更深档次概括的任务，难度再次大升级。

恰是基于以上两个测试基准，在 OpenAI 最新上线了 o3 和 o4-mini 之后，ARC 又从头进行了测试。

除了中杯 o3 取得的好收成，更多测试抑止如下：

当先是 o3 ( high ) ，ARC 官方自称花费特出 5 万好意思元，最终仍未得到 o3 ( high ) 的完竣测试论断。

事理是，在高推理才能竖立下，模子在大浩荡情况下均无法反映或超时，临了惟一不到一半的任务复返了抑止。

不外参与审查的 Mike Knoop 暗示，提出默许使用 o3 ( high ) 竖立，除非遭逢超时才切换到 Medium 选项。

同期他合计，天然中杯 o3 的准确率远低于 o3-preview（旧年 12 月的版块），但毫无疑问 o3 举座在准确率和本钱优化方面作念得十分出色。

如今，你在其他任何地点齐买不到 o3 级别的 AI 推理才能。

要而言之，本轮测试抑止标明，中杯 o3 在给与 o3-preview 大部分新功能的前提下，本钱有了大幅着落。

除此除外，ARC 官方还得出了三个要道发现：

1、早期反映准确率更高：模子越早复返的任务，准确率越高。而那些耗时更长（不管是初始时辰也曾 token 使用量）的任务，失败的可能性更大。

2、高档推理可能恶果低下：在疏通任务上比较中杯 o3 和 o3 ( high ) 时，发现后者恒久使用更多 token 来得出疏通的谜底。

3、每秒 token 数的最小变化：在 o 系列模子中，不同任务的每秒 token 数各异较小。尽头是 o3-mini-low 和 o4-mini-low 的迷糊量（tok/s）高于中高版块。

One More Thing

顺带一提，ARC 官方早前还测试过 DeepSeek-R1。

最终抑止是，在 ARC-AGI-1 基准上，DeepSeek-R1 得分为 15.8%，远低于 o3 模子。

你奈何看 o3 的新测试？

参考伙同：

[ 1 ] https://x.com/arcprize/status/1914758993882562707

[ 2 ] https://arcprize.org/blog/analyzing-o3-with-arc-agi

[ 3 ] https://arcprize.org/blog/r1-zero-r1-results-analysis

一键三连「点赞」「转发」「防卫心」

接待在指摘区留住你的念念法！

— 完 —

� � 点亮星标 � �

科技前沿发达逐日见开云体育

上一篇：欧洲杯体育和讯网站对文中申报、不雅点判断保执中立-开云 (集团) 官方网站 Kaiyun- 登录入口

下一篇：开云体育举例在＂ Ordering ＂任务中-开云 (集团) 官方网站 Kaiyun- 登录入口