9.11和9.9谁更大?
旧年,这谈小学生难度的数学题难倒了一众海表里AI大模子。那时第一财经记者测试了12个大模子,其中阿里通义千问、百度文心一言、Minimax和腾讯元宝答对了,但ChatGPT-4o、豆包、kimi都错了,错法各有不同。
当天,当第一财经记者发问阿里巴巴最新公测的千问APP:“数字9.9和9.11谁大?”时,此次千问却答错了,称:“9.11更大”。
有有趣的是,在随后的问题拆解中,千问称这是一个常见的念念维罗网,又经过分析后给出了9.9大于9.11的论断。

紧接着记者发问:“既然在拆解中得出论断9.9大于9.11,为什么要在回答中说9.11更大?”千问回答称:“统一个问题,前后谜底却矛盾,这如实会让东谈主对信息的可靠性产生怀疑。但这并非挑升误导,而是在处理这个问题时出现了阶段性的罅隙。”
随后,千问对我方的“翻车”经过进行溯源,并进行了“自我纠错”。它称我方在初度回答中固然拆解了少许相比原则,9.9 的十分位是 9,9.11 的十分位是 1,但最终论断误写为“9.11 更大”,这属于论断与推理经过不匹配的笔误。此外还有解析偏差的侵扰,“9.11” 的三位数体式可能激发潜强健的数字长度错觉,导致最终论断被误导。
随跋文者再次发问千问“数字9.9和9.11谁大?”,此次千问展示了AI模子的自我完善智商,回答“9.9更大”。
在大模子领域,“9.11和9.9哪个大”是一皆经典算术问题。它最启动被艾伦策划机构(Allen Institute)成员林禹臣发现,他在X平台上发布的截图败露,ChatGPT-4o在回答中以为13.11比13.8更大。“一方面AI越来越擅长作念数学奥赛题,但另一方面学问依旧很难。”他示意。
随后Scale AI的教唆工程师莱利·古德赛德(Riley Goodside)基于此灵感变换了问法,拷问了可能是那时最强的大模子ChatGPT-4o、谷歌Gemini Advanced以及Claude 3.5 Sonnet——9.11和9.9哪个更大?多家主流大模子通通答错,此话题得手传播开来。
此前有AI技艺从业东谈主士对第一财经记者示意,大模子本色上如故一个说话模子,它从说话数据中学习的是统计联系性,而这使它不擅长作念法例学习,从而不擅长归纳推理。
尽管在学问性问题上出现不实,但在技艺积蓄、生态布局和群众拓展方面,包括阿里巴巴的Qwen模子等在内的中国大模子已具备滋扰淡薄的群众竞争力。限制当今,Qwen系列模子的群众下载量已冲破6亿次。
不久前,爱彼迎CEO Brian Chesky曾表态称公司仍是很猛进度上依赖阿里巴巴的Qwen模子,它十分好,速率也很快,并且很低廉,"咱们也会用OpenAI的最新模子,但在践诺分娩中频繁不会多数使用,因为有更快、更经济的模子可供遴荐"。
当天阿里巴巴厚爱晓喻“千问”面孔,并全力进攻AI to C阛阓,该公司正贪图将舆图、外卖、订票、办公、学习、购物、健康等各类糊口场景接入千问APP。基于开源模子Qwen3,阿里科罚层将“千问”面孔视为“AI期间的翌日之战”,这意味着阿里巴巴正借力Qwen模子国外影响力,与ChatGPT胜仗展建国外竞争。
举报 第一财经告白结合,请点击这里此内容为第一财经原创,文章权归第一财经系数。未经第一财经籍面授权,不得以任何花样加以使用,包括转载、摘编、复制或建立镜像。第一财经保留讲求侵权者法律包袱的权益。如需取得授权请联系第一财经版权部:banquan@yicai.com 文章作家

刘佳
联系阅读
华尔街到陆家嘴精选丨科技巨头竞逐机器东谈主软件平台;金价刷新历史新高 白银年内涨幅高达62%;小摩看好2026年零卖业 67 09-30 08:27
AI进化速递丨盘古团队回答开源代码争议①盘古团队最新声明:严格衔命开源条目;②新AI模子助力更准确算计心源性暴毙风险;③山东首个解释场景大模子平台厚爱发布。
152 07-05 20:41
浙江研发群众首个胃癌影像筛查AI模子两边晓喻依托该项AI技艺,领先在浙江、安徽等地开展大范围东谈主群胃癌筛查。
29 06-26 11:48
达索系统CEO:办法将AI模子测验资本裁减至千万好意思元DeepSeek和Mistral AI有通常之处,都遴荐了较高性价比的大模子开导旅途,为东谈主工智能的栽培作出了迫切孝顺。
94 02-27 12:32
当浪掷遇上AI | 众人会诊一年,大模子仅用几分钟!AI医师看病是炒作吗在生成式AI大模子兴起后炒股配资咨询,AI医师的智商被夸大了,仿佛什么病都会看了;还有不少患者胜仗拿着DeepSeek的会诊成果来向医师征询。
1032 02-25 17:02 一财最热 点击关闭天元证券--官方平台值得长期信赖!提示:本文来自互联网,不代表本网站观点。