大模型回答错误超过一半 13.8 强如 GPT 到底哪个大和 13.11 AI

admigg

2024-11-14 23:24:06发布
关注私信

688 455 563

这个话题主要是由《歌手2024》栏目引发的，孙楠与外国歌手的微小分数差异，引发了网友关于 13.8% 和 13.11% 谁大谁小的争论。

很多网友给出了自己认为 13.11 > 13.8 理由，看似合理，实则漏洞百出。

这个小学四年级的知识点，一下子就成为了全民热议的话题。很多网友还举例 AI 给出的结果也是 13.11 大，一下子激起我的兴趣，这么简单的问题，AI 竟然回答错误了。

国内模型测试

通义千问：

腾讯元宝：

文心一言：

智谱清言：

讯飞星火：

商汤商量：

国外模型测试

Claude-3.5：

原因分析

看到测试结果，国内模型 7 个回答错误 4 个，国外模型全军覆没，这是代表国内模型更强嘛？其实并不然，很多网友早起测试通义千问也是回答 13.11 更大，后续应该是开发团队针对这个问题优化了。国内很多模型应该都是针对性优化过后，现在才能回答正确。

只是国内的热议并未传播到国外，所以国外 AI 模型并未针对这个问题优化过，导致现在强如 GPT-4O 和 Claude-3.5 这两个地表最强 AI 模型都回答错误。

那么 AI 模型为什么会普遍回答错误呢？其实从很多模型的回答中也能猜到原因，主要是因为它们对数字的解读方式与人类不同，以及训练数据中存在的偏差。

大语言模型在数值比较方面的局限性，提醒我们在依赖这些模型进行决策时，需要谨慎并考虑多种可能性。

本文转载自，作者：

版权声明 1、本网站名称：朵贝贝家具网
2、本站永久网址：http://www.dbbjjxs.com
3、本网站的文章部分内容可能来源于网络，仅供大家学习与参考，如有侵权，请联系站长进行删除处理。
4、本站一切资源不代表本站立场，并不代表本站赞同其观点和对其真实性负责。
5、本站一律禁止以任何方式发布或转载任何违法的相关信息，访客发现请向站长举报

#Copilot #OpenAI #文心一言 #盘古 #ChatGPT #Bard #孟子 #大模型 #紫东太初 #Agent #GPT #开源大模型 #日日新 #4 #清言 #多模态 #AIGC应用 #LaMDA #云雀 #Sora #混元 #人工智能 #AI #通义千问 #悟道 #4O #AIGC #言犀

大模型回答错误 超过一半 13.8 强如 GPT 到底哪个大 和 13.11 AI

国内模型测试

国外模型测试

原因分析

大模型回答错误超过一半 13.8 强如 GPT 到底哪个大和 13.11 AI