本站 2 月 6 日消息,今日,李飛飛研究團隊以不到 50 美元的云計算費用訓(xùn)練了一個名叫 s1 的人工智能推理模型,該模型在數(shù)學(xué)和編碼能力測試中的表現(xiàn)與 OpenAI 的 o1 和 DeepSeek 的 R1 等尖端推理模型類似。
不過很快,該 s1 模型被指“并非從零開始訓(xùn)練”,其基座模型為“阿里通義千問(Qwen)模型”。對此,新浪科技向阿里云方面求證,阿里云方面確認了這一消息。
阿里云回應(yīng)稱:“他們以阿里通義千問 Qwen2.5-32B-Instruct 開源模型為底座,在 16 塊 H100 GPU 上監(jiān)督微調(diào) 26 分鐘,訓(xùn)練出新模型 s1-32B,取得了與 OpenAI 的 o1 和 DeepSeek 的 R1 等尖端推理模型數(shù)學(xué)及編碼能力相當(dāng)?shù)男Ч踔猎诟傎悢?shù)學(xué)問題上的表現(xiàn)比 o1-preview 高出 27%。”
據(jù)本站此前報道,s1 團隊透露他們通過“蒸餾”技術(shù)創(chuàng)建了該人工智能模型,該技術(shù)旨在通過訓(xùn)練模型來學(xué)習(xí)另一個人工智能模型的答案,從而提取其“推理”能力。
s1 的論文表明,可以使用一種稱為監(jiān)督微調(diào)(SFT)的方法,可以使用相對較小的數(shù)據(jù)集來蒸餾推理模型。在 SFT 中,人工智能模型會被明確指示在數(shù)據(jù)集中模仿某些行為。SFT 比 DeepSeek 用于訓(xùn)練其 R1 模型的大規(guī)模強化學(xué)習(xí)方法更具成本效益。
s1 基于阿里巴巴旗下中國人工智能實驗室 Qwen 提供的一款小型、現(xiàn)成的免費人工智能模型。為了訓(xùn)練 s1,研究人員創(chuàng)建了一個僅包含 1000 個精心策劃的問題的數(shù)據(jù)集,以及這些問題的答案,以及谷歌 Gemini 2.0 Flash Thinking Experimental 給出的每個答案背后的“思考”過程。