克日,马斯克与xAI团队,在直播中正式宣布了最新版本Grok3。此前,马斯克将Grok-3描写为“地球上最聪慧的AI”。他在X平台上表现:“本人全部周末都在跟团队打磨产物。”但是据媒体报道,有人测试了最新的Beta版Grok3,并提出了谁人经典的用来刁难年夜模子的成绩:“9.11与9.9哪个年夜?”遗憾的是,在不加任何定语以及标注的情形下,号称现在最聪慧的Grok3,依然无奈准确答复这个成绩。值得一提的是,用同样的成绩讯问DeepSeek时,无论能否开启深度思考(R1)形式,对方都给出了准确的谜底:9.9年夜于9.11。 开展全文
“9.11跟9.9哪个年夜”是AI范畴的一个经典成绩。
艾伦研讨机构(Allen Institute)成员林禹臣曾在交际媒体平台上宣布的截图表现,ChatGPT-4o在答复中以为13.11比13.8更年夜。“一方面AI越来越善于做数学奥赛题,但另一方面知识仍旧很难。”他表现。
随后Scale AI的提醒工程师莱利·古德赛德(Riley Goodside)基于此灵感变更了问法,拷问了可能是事先最强的年夜模子ChatGPT-4o、谷歌Gemini Advanced以及Claude 3.5 Sonnet——9.11跟9.9哪个更年夜?这多少家主流年夜模子通通答错,网友戏称为“蠢才不肯意答复简略成绩”。
海内主流年夜模子答题。图源:第一财经
不外对此马斯克并不认为然,其公然回应称,以后的Grok 3仅是测试版,这个阶段过错越多越好,而完全版将在将来多少个月推出,并约请用户反应应用成绩。
综合九派消息、西方财经、第一财经、快科技等前往搜狐,检查更多