如何看待机器之心重测高考数学全卷,Gemini夺冠,豆包DeepSeek并列第二?
- 发表时间:2025-06-20 22:45:16
- 来源:
当务之急最该解决的问题是大众对于 AI大模型的正确认知以及最基本的AI用法。
你看这是前两天的测试结果,突出了一个政治正确,6款大模型,OpenAI的o3倒数第一,我当时看到的时候就觉得很奇怪,o3好歹也是曾经的一代王者,高考数学这种题它排名这么低怕不是有什么猫腻。
我们就拿单选题的第五题来测试下,因为这道题除了o3,其他的国产模型都答对了。
这是第五题的原题,正确答案是A. - 1/2。
这是之前的第三方的测试结果,6个模型…。
推荐资讯
- 2025-06-20 18:00:17iOS 26 的新设计被吐槽丑,苹果在设计更新时考虑了哪些因素?你对这一设计都有哪些评价?
- 2025-06-20 17:35:17跟离异的女同事聊天时,她冒出一句:「你老婆还不如我,离了跟我过得了」,我该怎么回答?
- 2025-06-20 18:55:15有一个很爱瑜伽的朋友是种怎样的体验?
- 2025-06-20 17:25:16今年首个红色山洪灾害气象预警发布,局地发生山洪灾害可能性很大,各地情况如何?应如何防范和避险?
- 2025-06-20 17:30:17哪张照片让你觉得刘亦菲美得不可方物?
- 2025-06-20 18:50:18巴基斯坦援助伊朗防空,大家怎么看?
- 2025-06-20 17:50:15现在还有人一直坚持使用 Eclipse,不使用 IntelliJ IDEA 吗?
- 2025-06-20 18:35:15以色列为什么突然敢打伊朗了?不怕被报复?
- 2025-06-20 18:35:15为什么中国主机带宽比美国贵5倍(原来错误的10000倍),比如阿里云?
- 2025-06-20 17:35:17MacOS的哪个设计让你非常恼火?
推荐产品
-
如何看待日本小学校园餐只有一小块鸡肉?
又特么开始这套了。 来,看一下这个图 端午后我外甥女去 -
林述巍跟隋坡这两位谁的水平高?
做菜水平咱普通人评价不了。 只说探店,择一个川菜川菜老店- -
前端,后端,全栈哪个好找工作?
一定是后端好找工作。 哪怕后端团队都每天工作3小时摸鱼5小 -
你在出租房屋发现过什么前租客留下的“宝藏”?
一个2TB的移动硬盘,里面有6万张美女图片,好家伙居然有几十
最新资讯