最近,OpenAI 罕见地开放了,发布了两个推理模型 gpt-oss-120b 和 gpt-oss-20b。然而,这两个模型都是推理模型,并未发布未经强化学习的预训练版本 gpt-oss 基础模型。
尽管这种发布非推理的基础模型是 AI 开源 / 开放权重社区的常见做法,比如 DeepSeek、Qwen 和 Mistral 等知名开放模型,但近日 Cornell Tech 博士生、Meta 研究员 Jack Morris 决定自己动手填补这一空白。
他昨天在 𝕏 上表示已经搞清楚了如何撤销 gpt-oss 模型的强化学习,让其回退成基础模型。他还宣布将在今天发布他得到的基础模型。
就在刚刚,他兑现了自己的承诺,发布了gpt-oss-20b-base。
该模型一发布就获得了大量好评。
据介绍,该模型基于 gpt-oss-20b 混合专家模型,使用低秩适应(LoRA)将其微调成了一个基础模型。
不同于 OpenAI 发布的 gpt-oss 模型,gpt-oss-20b-base 是基础模型,可用于生成任意文本。也就是说,从效果上看,Morris 逆转了 gpt-oss-20b 训练过程中的对齐阶段,使得到的模型可以再次生成看起来自然的文本。如下对比所示。
但也必须指出,正是因为 gpt-oss-20b 的对齐阶段被逆转了,因此这个模型已经不再对齐。也就是说,gpt-oss-20b-base 不仅会毫无顾忌地说脏话,也能帮助策划非法活动,所以使用要慎重。
研究者还测试了 gpt-oss-20b-base 的记忆能力。他表示:「我们可以使用来自有版权材料的字符串提示模型,并检查它的输出,这样就能轻松测试 gpt-oss 的记忆能力。」结果,他发现 gpt-oss 记得 6 本被测书籍中的 3 本。他说:「gpt-oss 绝对看过《哈利·波特》。」
Jack Morris 也在 𝕏 上分享了自己从灵感到炼成 gpt-oss-20b-base 的经历。
他介绍说自己此前使用的方法是「越狱(jailbreaking)」,但这个思路是错误的。于是,他想寻找一个可以诱使模型变回基础模型的提示词 —— 但这很难。
本文由主机测评网于2026-04-22发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://vpshk.cn/20260439408.html