DeepSeek R1罹难题142次"I give up",研讨还称需
西风 发自 凹非寺量子位 | 大众号 QbitAI最新年夜言语模子推理测试引众议,DeepSeek R1经常在供给过错谜底前就“我废弃”了??Cursor刚参加了一项研讨,他们基于NPR周日谜题挑衅 (The Sunday Puzzle),构建了一个包括近600个成绩新基准测试。 这些 谜题特色是很好懂得,不须要专业常识就能看懂,然鹅处理起来却没那么轻易。 举个栗子: 想一个熟习的五个字母、两个音节的单词。将旁边字母改为字母表中该字母后面的字母,你将失掉一个熟习的五个字母、三个音节的单词。这个单词是什么? 想一个熟习的五个字母、两个音节的单词。将旁边字母改为字母表中该字母后面的字母,你将失掉一个熟习的五个字母、三个音节的单词。这个单词是什么?尺度谜底是 alpha → aloha,很轻易验证。 但如许的题,即使是在美国长年夜讲英语的成年人,五天也很难明出来。研讨职员用此最新基准,对OpenAI o1、OpenAI o3-mini、DeepSeek R1跟Google Gemini Flash Thinking等模子停止测试,成果发明这些最新一代的推理模子处理如许的谜题也很具挑衅性。他们还表现, 研讨提醒了一些新的模子“毛病”形式,这在现有的基准测试中并不显明。 比方DeepSeek R1会在推理进程中直接废弃,而后给一个它明知是过错的谜底,偶然还会堕入“无穷思考”状况。详细来看看是怎样回事。 开展全文
周日谜题挑衅数据集
NPR Sunday Puzzle Challenge,是美国一档播送智力游戏节目,自1987年以来始终在播,每周日听众都市收到一个冗长谜题。
这些谜题平日波及字母游戏,只要要一般的英语常识跟美国文明知识就能懂得。
不外 每个谜题平日只有一个或少少数准确谜底,标题难度各别,即使听众有整整五天的时光思考,偶然最后也只有多数听众能想出准确谜底。而当谜底发表时,听众们都市豁然开朗感到这个谜底既准确又优雅。
近来,来自韦尔斯利学院、得克萨斯年夜学奥斯汀分校、查理年夜学、Cursor、欧柏林学院、美国西南年夜学的研讨团队,从网上抓取了13年的周日谜题挑衅记载构建了一个数据集。
他们以为,现在一些最新基准测试用十分难的义务评价模子,比方年夜学级数学比赛成绩、编程成绩以及须要在学术范畴深刻的范畴专业常识成绩,这种计划不只对人类来说难以处理,并且也十分难以懂得跟验证。
也就是说,年夜少数人或无奈检讨谜底能否确切准确,或无奈验证模子在推理上能否准确且无效。
于是,他们从这个节目标“off-air challenges”中收拾出了近600个成绩作为测试数据集。
这些标题很好懂得且便于验证。
在收拾进程中,他们弥补了须要的高低文信息 (时光、所在等),比方在一个对于片子称号的谜题中,特地标注了详细年份,防止歧义。
片子Wild Wild West的首字母缩写是三个W。叨教 客岁2013年哪部有名片子的首字母缩写有两个W?
尺度谜底:The Wolf Of Wall Street
片子Wild Wild West的首字母缩写是三个W。叨教 客岁2013年哪部有名片子的首字母缩写有两个W?
尺度谜底:The Wolf Of Wall Street
为确保每个成绩的谜底清楚明白,年夜少数挑衅都有一个或多数多少个奇特谜底,像上面如许婶儿有很多 谜底的成绩都被pass失落了:
而后团队用该基准评价了一众顶流推理模子,包含OpenAI o1、o1-mini、o3-mini,DeepSeekR1、谷歌Gemini 2.0 Flash Thinking Experimental01-21,作为对比,还测试了不具有推理功效的GPT-4o跟Claude Sonnet 3.5。
测试采取zero-shot prompting,直接向模子供给成绩,不给任何额定的格局阐明或领导。
不外有些谜题标题自身自带示例阐明:
SWITZERLAND (瑞士)的字母能够从新陈列成LIZARD (蜥蜴)跟NEWTS (蝾螈)两个单词,LIZARD是一个植物的双数情势,而NEWTS是单数情势。请再说出另一个存在雷同特征的国度。即另一个其字母能够从新陈列来拼写两种植物——一个双数跟一个单数的国度。它是一个重要国度。这个国度是哪一个?
尺度谜底:Mexico (墨西哥)→ ox (牛),mice (老鼠)
SWITZERLAND (瑞士)的字母能够从新陈列成LIZARD (蜥蜴)跟NEWTS (蝾螈)两个单词,LIZARD是一个植物的双数情势,而NEWTS是单数情势。请再说出另一个存在雷同特征的国度。即另一个其字母能够从新陈列来拼写两种植物——一个双数跟一个单数的国度。它是一个重要国度。这个国度是哪一个?
尺度谜底:Mexico (墨西哥)→ ox (牛),mice (老鼠)
团队给出的终极测试成果却出乎意料。
依据下图该基准的均匀正确率, OpenAI o1表示最优,正确率为59%;而后是o3-mini,正确率为47%, DeepSeek R1正确率为35%。
不具有推理功效的GPT-4o跟Claude Sonnet 3.5显明不如推理模子。
出乎意料的点在于,在博士级迷信成绩GPQA基准上,DeepSeek R1、OpenAI o1跟o3-mini的 表示差距不年夜,但是在该基准上o1在通用常识方面却表现出显明的上风。
团队还察看到一些新的模子“毛病”形式—— 推理半道“I give up”。
这种废弃表示出两种情势,一种是给出一个在推理进程中完整不呈现过的 “凭空”谜底。
另一种是 明知违背成绩束缚但依然给出谜底,常产生鄙人面这种成绩中:
想一个包括三个音节的八个字母的单词,每个音节中都包括字母“I”,但奇异的是,不一个“I”发音,无论是长音仍是短音。谜底不是单数情势。这个单词是什么?
尺度谜底:Daiquiri
想一个包括三个音节的八个字母的单词,每个音节中都包括字母“I”,但奇异的是,不一个“I”发音,无论是长音仍是短音。谜底不是单数情势。这个单词是什么?
尺度谜底:Daiquiri
以DeepSeek R1为例,它给出了“queueing”这个谜底,并直接表现这个谜底“有点牵强”,还说明有些人可能会把“queueing”发音为“kyoo-ee-ing”。
团队表现,在595个测试成绩中,DeepSeek R1在142个成绩上明白“废弃”。
别的,他们还发明R1等会堕入“无穷思考”的状况,在到达32768token高低文输出限度前无奈实现推理,并不 /think 。
特殊在以下两个挑衅中R1表示欠安,在10次实验中有5次未能实现推理。
即便将限度进步到128K,这个成绩依然存在,由此, 团队以为R1须要某种推理机会把持机制,激励模子在濒临输出token限度时停止推理。
研讨职员还发明,这些推理模子偶然会表示出异样的不断定性,可能会提出一个谜底,立刻又收回,而后实验给出新谜底。
在某些情形下,模子很早就找到了准确谜底,但仍会持续摸索别的可能性。
最后 团队剖析了推理长度与正确率的关联,发明在 输出约10000个token后,持续推理对晋升正确率的辅助不年夜。
对R1来说,在输出约3000 token时就开端超越Gemini Thinking的表示。
新基准激发网友热议
这项研讨宣布后,在Hacker News上惹起网友热闹探讨。
此中最具争议的一个点在于,有网友以为这项研讨 并非传统意思上的“推理”挑衅:
处理这些成绩所需的中心技巧仿佛是知晓“风行品牌名”或“著名演员”等种别的全部已著名称,检讨它们能否合乎。
作为人类,你可能会由于不晓得某个特殊称号而永久无奈答复某个成绩,比方不是美国人,我不晓得“Citgo”是什么,我这辈子从未见过这个名。
处理这些成绩所需的中心技巧仿佛是知晓“风行品牌名”或“著名演员”等种别的全部已著名称,检讨它们能否合乎。
作为人类,你可能会由于不晓得某个特殊称号而永久无奈答复某个成绩,比方不是美国人,我不晓得“Citgo”是什么,我这辈子从未见过这个名。
网友表现这确实是一个AI体系准则上可能真正善于的事件,但当测试内容过于着重“ 影象回想”时,把它称为“推理”仿佛很奇异。
假如成绩是多项抉择的,打消了让候选谜底显现在脑海中的挑衅,那么我会批准这是一个“推理”测试。
假如成绩是多项抉择的,打消了让候选谜底显现在脑海中的挑衅,那么我会批准这是一个“推理”测试。
持此观念的网友不在多数。
我有同样的主意。这让我想起处理Project Euler成绩,平日存在一种显明的简略方式能够保障得出准确谜底,但假如履行到实现,将耗费过多的内存/盘算资本。假如提醒模子制订一种无效处理这些挑衅的战略,而不是直接处理它们,模子的表示可能会好得多……这标明了一个潜伏的改良偏向。
我有同样的主意。这让我想起处理Project Euler成绩,平日存在一种显明的简略方式能够保障得出准确谜底,但假如履行到实现,将耗费过多的内存/盘算资本。假如提醒模子制订一种无效处理这些挑衅的战略,而不是直接处理它们,模子的表示可能会好得多……这标明了一个潜伏的改良偏向。
别的,针对模子表示纷歧,也有网友提出是否断定这些谜题跟谜底没被加到模子的练习数据中的疑难。
聚焦到研讨成果上,网友对研讨中的发明很感兴致:
风趣的是,模子在推理中常常包括准确谜底,但却没能认识到这一点。
风趣的是,模子在推理中常常包括准确谜底,但却没能认识到这一点。
数草莓成绩中“r”这一成绩也再被网友搬出,有网友以为模子表示欠安的要害仍是在分词器上。
对这项研讨你怎样看?
论文链接:https://arxiv.org/abs/2502.01584
测试成果跟数据集:https://huggingface.co/spaces/nuprl/verbal-reasoning-challenge
— 完—
评比报名| 2025年值得存眷的AIGC企业 产物
下一个AI“国产之光”将会是谁?
本次评比成果将于4月中国AIGC工业峰会上颁布,欢送参加!前往搜狐,检查更多