如何看待机器之心重测高考数学全卷，Gemini夺冠，豆包DeepSeek并列第二？

时间：2025-06-22 18:15:16来源：当前位置：当前位置：首页 >

当务之急最该解决的问题是大众对于 AI大模型的正确认知以及最基本的AI用法。

你看这是前两天的测试结果，突出了一个政治正确，6款大模型，OpenAI的o3倒数第一，我当时看到的时候就觉得很奇怪，o3好歹也是曾经的一代王者，高考数学这种题它排名这么低怕不是有什么猫腻。

我们就拿单选题的第五题来测试下，因为这道题除了o3，其他的国产模型都答对了。

这是第五题的原题，正确答案是A. - 1/2。

这是之前的第三方的测试结果，6个模型…。

如何看待机器之心重测高考数学全卷，Gemini夺冠，豆包DeepSeek并列第二？

上一篇 : 突然发现自己变老是怎样一种体验？

下一篇 : HTTP/3 解决了什么问题，又引入了什么新问题？

相关文章：

{dede:myad name='右侧广告位'/}

用J***a写Android的时代是不是要结束了？

今天看，虽然有点过时，但 J***a 还是不错的选择。至...
2025-06-21阅读全文 >>
如何看待rust编写的zed编辑器？

去年就尝试过zed，不过当时bug有点多，AI助手体验也一般...
2025-06-21阅读全文 >>
中国的歼35A可以吊打十架韩国的KF21吗?

首先说结论一架歼-35A吊打最少100架KF21，为什么这么...
2025-06-21阅读全文 >>
现在网上把清朝说得一无是处，但是为什么能统治268年？

讲个故事，嘉庆时期，有一个满清的皇亲国戚，一等皇亲，这哥们...
2025-06-21阅读全文 >>
NAS的盘是否需要一次性买齐？

NAS硬盘16TB容量只有一种选择，没有其他，因为其他都是渣...
2025-06-21阅读全文 >>

养花知识本月排行

1安抚奶嘴会影响嘴形吗？
中国军事力量有希望达到全球第一吗？
如何评价《灵笼 2》第六集？
字节跳动技术副总裁开源了自己与Trae合作的首个项目，如何评价目前AI开发的水平？
好的游戏设计有很多，有些也不难在程序上实现，为什么很多新游戏还是不会用已有的好的设计呢？
为什么中国现在全球军事实力第一，但包括中国人在内很多人不认可？
为什么日本经济下降，大学排名跌至谷底，还有那么多人挤破脑袋去日本留学？
我怎么觉得核动力航母比常规航母并没有多大优势？
go语言接口的优势？
字节跳动技术副总裁开源了自己与Trae合作的首个项目，如何评价目前AI开发的水平？

{dede:myad name='右侧广告位'/}

养花知识精选

养花知识推荐