万亿参数大模型竟然回答不了小学数学题?最近,面对9.11和9.8哪个大的问题上,一波大模型集体翻车了。
7月17日,澎湃新闻记者实测13个主流大模型,询问9.11和9.8的数字大小问题,其中阿里通义千问、百度文心一言、Minimax、腾讯元宝、科大讯飞星火、智谱清言和百川智能百小应答对,ChatGPT-4o、字节豆包、月之暗面kimi、零一万物万知、阶跃星辰跃问、商汤商量答错。
值得注意的是,根据媒体报道,智谱清言和百川智能百小应也曾经“翻车”过,不过截至发稿时已经“纠正”了相关错误。
万亿参数大模型竟然回答不了小学数学题?最近,面对9.11和9.8哪个大的问题上,一波大模型集体翻车了。
7月17日,澎湃新闻记者实测13个主流大模型,询问9.11和9.8的数字大小问题,其中阿里通义千问、百度文心一言、Minimax、腾讯元宝、科大讯飞星火、智谱清言和百川智能百小应答对,ChatGPT-4o、字节豆包、月之暗面kimi、零一万物万知、阶跃星辰跃问、商汤商量答错。
值得注意的是,根据媒体报道,智谱清言和百川智能百小应也曾经“翻车”过,不过截至发稿时已经“纠正”了相关错误。
报告网所有产经新闻是由用户上传分享,未经用户书面授权,请勿作商用!
如您想投稿,请将稿件发送至邮箱
seles@yuboinfo.com,审核录用后客服人员会联系您