近日,埃隆·马斯克旗下人工智能公司xAI发布了其最新力作——Grok 3大型语言模型,并豪言它是“地球上最聪明的人工智能”。这一宣称迅速引发了业内热议,Grok 3在多个基准测试中超越了GPT-4o、Gemini-2 Pro等竞争对手,但在实际应用中,其表现却引发了部分质疑。
官方数据显示,Grok 3在AIME(美国数学邀请赛)和GPQA(研究生水平的专家推理)等测试中表现优异,甚至在Chatbot Arena中获得了140分的高分,力压群雄。然而,OpenAI应用研究主管Boris Power却对xAI的评估方法提出质疑,认为其存在作弊和夸大宣传的动机,并指出OpenAI的o3mini模型在各项评估中均优于Grok 3。
为了探究真相,《每日经济新闻》记者对Grok 3进行了实际测试。结果发现,Grok 3的确拥有世界顶级模型的实力,但在各项能力上并没有大幅度超越其他同类模型,其真正优势在于极快的响应速度。
数字游戏,Grok 3轻松过关
首先,记者从最简单的题目入手:9.9和9.11哪个更大?Grok 3轻松给出正确答案,展现了其基本计算能力。
逻辑推理:并非完美无缺
马斯克曾强调Grok 3的“思考模式”拥有强大的逻辑推理能力,能够像人类一样进行多维度思考和验证。然而,当记者用一些具有逻辑陷阱的题目进行测试时,Grok 3的表现并非尽如人意。例如,在“用水兑水得到浓水还是稀水”这一文字游戏中,Grok 3虽然答对,但并非独此一家;而在“实验室老鼠、蛇、老鹰会飞”的题目中,Grok 3未能给出完整正确的答案,与R1等模型相比逊色不少。
数学能力:难以拉开差距
在数学能力测试中,Grok 3的表现也并非一骑绝尘。虽然在一些简单的数学问题上取得了不错的成绩,甚至在复杂的群论问题上找到了正确答案数量,但其解题过程并不完美,未能展现出绝对的优势。
编程能力:险胜o1
基于Kcores联合创始人karminski-牙医的测试结果,Grok 3在火星发射计划代码模拟中表现出色,但与OpenAI的o1相比,优势并不显著。
速度是王道?
综合来看,Grok 3的确是一款世界顶尖的AI模型,但其实际能力并没有达到马斯克所宣称的“最聪明”的程度。Grok 3的真正优势或许在于其极快的响应速度,这在实际应用中可能带来更好的用户体验。
结论:
Grok 3的表现无疑令人印象深刻,其速度优势尤为突出。然而,马斯克的“最聪明”的宣称可能过于夸大其词,Grok 3仍有提升空间,距离真正意义上的“最聪明”还有相当的距离。 与其说Grok 3是“最聪明”,不如说它“足够快且足够聪明”。