如何看待机器之心重测高考数学全卷,Gemini夺冠,豆包DeepSeek并列第二?
- 发表时间:2025-06-22 00:50:16
- 来源:
当务之急最该解决的问题是大众对于 AI大模型的正确认知以及最基本的AI用法。
你看这是前两天的测试结果,突出了一个政治正确,6款大模型,OpenAI的o3倒数第一,我当时看到的时候就觉得很奇怪,o3好歹也是曾经的一代王者,高考数学这种题它排名这么低怕不是有什么猫腻。
我们就拿单选题的第五题来测试下,因为这道题除了o3,其他的国产模型都答对了。
这是第五题的原题,正确答案是A. - 1/2。
这是之前的第三方的测试结果,6个模型…。
推荐资讯
- 2025-06-21 00:15:17继续C++还是转前端?
- 2025-06-20 22:50:16央企的信创,是否有必要把 spring 替换成国产的 solon ?
- 2025-06-21 00:10:17Chrome 浏览器设计的神细节有哪些?
- 2025-06-20 23:40:17京东 CEO 称一线城市京东外卖全职骑手人均收入 1.3 万元,这属于什么水平?外卖员收入过万难不难?
- 2025-06-20 23:10:16吴柳芳的真实水平如何?
- 2025-06-20 23:25:16Golang vs Rust vs Dlang 哪个更有前途,哪位大牛这 3 门语言都用过?
- 2025-06-21 00:10:17为什么中国主机带宽比美国贵5倍(原来错误的10000倍),比如阿里云?
- 2025-06-21 00:10:17消息称苹果 macOS 26 将不再支持部分旧款英特尔 CPU 机型,这背后原因有哪些?
- 2025-06-21 00:00:19万兆的网络速度有多大意义?
- 2025-06-20 23:10:16如何看待rust编写的zed编辑器?
推荐产品
-
如何评价张靓颖刘宇宁《九万字》?
终于集齐三大女神。 张靓颖的眼镜,戴与不戴真的是判若两人。 -
外省人觉得粤菜真的好吃么?
非常好吃。 粤菜里的烧腊 烧鸡烧鸭烧鹅,和广式茶点,在我们柳 -
QQ为什么败给微信?
QQ历史包袱太多了,必竟是企鹅起家的产品,不能有闪失,所以不 -
历史上有没有生活在三个及以上朝代的人?
俺姥爷,民国十一年生,这是我昨天拍的 平时还推着三轮车去
最新资讯