恒运优配

　　当地时刻2月6日，据外媒报谈，李飞飞等斯坦福大学和华盛顿大学的参谋东谈主员以不到50好意思元的用度，使用了16张英伟达H100GPU，耗时26分钟就完成了纯属，得胜“打造”出了一个名为s1-32B的东谈主工智能推理模子。

　　说明李飞飞等东谈主的参谋论文《s1：Simple test- time scaling》，该模子在数学和编码能力测试中的发达，与OpenAI的o1和DeepSeek的R1等顶端推理模子不相高下，在竞赛数知识题上的发达更是比o1-preview进步27%。

　　凭借低本钱、高效力，s1模子成为继“AI界价钱屠户”DeepSeek之后再次激励科技界热议的话题。但s1推理模子的本钱确实只消50好意思元吗？其性能是否真有神态的那么出色？在“白菜价”的背后，李飞飞团队又有哪些探索？

　　针对本钱问题，复旦大学联想机学院副评释、博士生郑骁庆在接纳《逐日经济新闻》记者采访时指出，“像DeepSeek粗略近似的公司，在寻找有用的整合惩处决议时，需要进行大量的前期参谋与消融实验。”这意味着前期是需要大量“烧钱”的。

　　疑问一：只用50好意思元？

　　据报谈，李飞飞等斯坦福大学和华盛顿大学的参谋东谈主员以不到50好意思元的用度，就完成了模子s1-32B的纯属。参与该项倡导斯坦福大学参谋员尼克拉斯·穆宁霍夫（Niklas Muennighoff）更是暗示，如今，只消约20好意思元就能租到所需的联想资源。

　　然则，对于纯属本钱，有几点需要明确。

　　最初，模子s1-32B的打造并非是从零启动，而是基于现成的、预纯属的模子（阿里通义千问Qwen2.5-32B-Instruct）进行监督微调。而微调一个模子和从零启动纯属一个模子的本钱是无法同日而论的。

　　其次，50好意思元是否包含了其他数据、建筑、消融实验等用度，还要打一个问号。正如DeepSeek-V3不到600万好意思元的纯属本钱，实际上也只包括了纯属时的GPU算力用度。

　　郑骁庆向《逐日经济新闻》记者暗示，“像DeepSeek粗略近似的公司，在寻找有用的整合惩处决议时，需要进行大量的前期参谋与消融实验。”而消融实验就意味着，前期是需要大量“烧钱”的。

　　AI数据公司Databricks参谋员奥马尔·哈塔布（Omar Khattab）评价称，（李飞飞团队的）论文似乎是对于Qwen模子的某种发现。

　　谷歌DeepMind资深参谋员Wenhu Chen相通暗示，“真确神奇的是Qwen模子。咱们尝试过把基座模子换成其他模子，用相通的数据去纯属，但最终并不成达到这样好的成果。”

　　也即是说，s1-32B是站在了“巨东谈主肩膀”上，且50好意思元的本钱也并莫得涵盖Qwen模子的纯属用度。

　　疑问二：性能这样强？

　　李飞飞团队发表的论文提到，说明Qwen2.5-32B-Instruct进行微调的s1-32B模子，在数学和编码能力测试中的发达，场外配资与OpenAI的o1和DeepSeek的R1等顶端推理模子不相高下，在竞赛数知识题上的发达更是比o1-preview进步27%。

　　此外，参谋终结知道，s1-32B是样本效率最高的怒放数据推理模子，发达显然优于其基座模子（Qwen2.5-32B-Instruct）以及OpenAI的推理模子o1- preview。

　　不外，事实上，s1-32B只可在特定的测试集上超越o1-preview，且并莫得超越“满血版”o1和DeepSeek-R1。

　　参谋终结知道，在AIME2024和MATH 500两个测试集结，s1-32B超越了o1-preview，但不管在哪个测试集，s1-32B皆莫得超越“满血版”o1和郑再版DeepSeek-R1。

　　要点不在“白菜价”

　　事实上，李飞飞团队论文的中枢也并不在于若何“卷”模子价钱，而是参谋若何以最浮浅的形势达成“测试时拓展”（test- time scaling）。

　　测试时扩张是一种在模子推理阶段通过多步推理来提高模子性能的时间。具体来说，参谋团队可猖狂模子“念念考”多万古刻或进行几许步操作。若是模子过早扫尾推理，系统会饱读舞模子延迟念念考时刻，确保其充分研究问题。这也就意味着，模子在推理时会进行屡次推理迭代，并渐渐优化推理终结，最终身成高质地的谜底。

　　举例，当被问到“raspberry”中有几个“r”时，模子最初进行了初步推理，并得出了装假的初步终结：有2个r。但推理历程并莫得就此扫尾，模子又重新进行推理，优化了前次陈诉的终结，输出了最终的谜底：3个r。

　　OpenAI的o1系列模子即是一个典型的例子，展现了测试时拓展在模子性能擢升上的后劲。

　　微软CEO萨提亚·纳德拉（Satya Nadella）曾暗示，东谈主们正在见证一种新的限制司法（Scaling Law）的出现——模子效率与测试时刻或推理时刻联想关连。

　　高质地数据集缩小本钱

　　此外，李飞飞参谋团队还从16个起首网络了59029谈高质地题目，包括数学竞赛问题、博士级别的科知识题、奥林匹克竞赛问题等，并通过三个尺度进行考证：难度、各种性和质地。

　　通过过滤，参谋团队最终取得了包含1000个样本的s1K数据集，数据集隐敝几何、数论、量子力学等50个边界，何况每个问题皆配有从 Google Gemini 2.0Flash Thinking Experimental看成“西宾模子”蒸馏而来的谜底和推理轨迹。

　　这个数据集的构建基于三个要津尺度：难度、各种性和质地。高质地的数据集，极大缩小了s1-32B模子的纯属本钱。

　　复旦大学联想机学院副评释、博士生郑骁庆在接纳记者采访时暗示，大限制的数据可能不会成为下一步公共争夺的战场，其本钱和产出之间的比例在缓缓压缩，而高质地数据的微消亡强化学习曩昔将会有更多的插足。

李飞飞团队“50好意思元”复刻DeepSeek 一文读透背后逻辑