炒股配资咨询阿里公测千问对标ChatGPT，但9.9和9.11谁大出攻击

配资来自：admin 网站：天元证券--官方平台值得长期信赖！更新：2025-11-20 21:44:38 阅读：149

9.11和9.9谁更大？

旧年，这谈小学生难度的数学题难倒了一众海表里AI大模子。那时第一财经记者测试了12个大模子，其中阿里通义千问、百度文心一言、Minimax和腾讯元宝答对了，但ChatGPT-4o、豆包、kimi都错了，错法各有不同。

当天，当第一财经记者发问阿里巴巴最新公测的千问APP：“数字9.9和9.11谁大？”时，此次千问却答错了，称：“9.11更大”。

有有趣的是，在随后的问题拆解中，千问称这是一个常见的念念维罗网，又经过分析后给出了9.9大于9.11的论断。

紧接着记者发问：“既然在拆解中得出论断9.9大于9.11，为什么要在回答中说9.11更大？”千问回答称：“统一个问题，前后谜底却矛盾，这如实会让东谈主对信息的可靠性产生怀疑。但这并非挑升误导，而是在处理这个问题时出现了阶段性的罅隙。”

随后，千问对我方的“翻车”经过进行溯源，并进行了“自我纠错”。它称我方在初度回答中固然拆解了少许相比原则，9.9 的十分位是 9，9.11 的十分位是 1，但最终论断误写为“9.11 更大”，这属于论断与推理经过不匹配的笔误。此外还有解析偏差的侵扰，“9.11” 的三位数体式可能激发潜强健的数字长度错觉，导致最终论断被误导。

随跋文者再次发问千问“数字9.9和9.11谁大？”，此次千问展示了AI模子的自我完善智商，回答“9.9更大”。

在大模子领域，“9.11和9.9哪个大”是一皆经典算术问题。它最启动被艾伦策划机构(Allen Institute)成员林禹臣发现，他在X平台上发布的截图败露，ChatGPT-4o在回答中以为13.11比13.8更大。“一方面AI越来越擅长作念数学奥赛题，但另一方面学问依旧很难。”他示意。

随后Scale AI的教唆工程师莱利·古德赛德（Riley Goodside）基于此灵感变换了问法，拷问了可能是那时最强的大模子ChatGPT-4o、谷歌Gemini Advanced以及Claude 3.5 Sonnet——9.11和9.9哪个更大？多家主流大模子通通答错，此话题得手传播开来。

此前有AI技艺从业东谈主士对第一财经记者示意，大模子本色上如故一个说话模子，它从说话数据中学习的是统计联系性，而这使它不擅长作念法例学习，从而不擅长归纳推理。

尽管在学问性问题上出现不实，但在技艺积蓄、生态布局和群众拓展方面，包括阿里巴巴的Qwen模子等在内的中国大模子已具备滋扰淡薄的群众竞争力。限制当今，Qwen系列模子的群众下载量已冲破6亿次。

不久前，爱彼迎CEO Brian Chesky曾表态称公司仍是很猛进度上依赖阿里巴巴的Qwen模子，它十分好，速率也很快，并且很低廉，"咱们也会用OpenAI的最新模子，但在践诺分娩中频繁不会多数使用，因为有更快、更经济的模子可供遴荐"。

当天阿里巴巴厚爱晓喻“千问”面孔，并全力进攻AI to C阛阓，该公司正贪图将舆图、外卖、订票、办公、学习、购物、健康等各类糊口场景接入千问APP。基于开源模子Qwen3，阿里科罚层将“千问”面孔视为“AI期间的翌日之战”，这意味着阿里巴巴正借力Qwen模子国外影响力，与ChatGPT胜仗展建国外竞争。

举报第一财经告白结合，请点击这里此内容为第一财经原创，文章权归第一财经系数。未经第一财经籍面授权，不得以任何花样加以使用，包括转载、摘编、复制或建立镜像。第一财经保留讲求侵权者法律包袱的权益。如需取得授权请联系第一财经版权部：banquan@yicai.com 文章作家