当前位置:首页 > 科技资讯 > 正文

OpenAI新突破:发布未强化版GPT-OSS基础模型

最近,OpenAI 罕见地开放了,发布了两个推理模型 gpt-oss-120b 和 gpt-oss-20b。然而,这两个模型都是推理模型,并未发布未经强化学习的预训练版本 gpt-oss 基础模型。

尽管这种发布非推理的基础模型是 AI 开源 / 开放权重社区的常见做法,比如 DeepSeek、Qwen 和 Mistral 等知名开放模型,但近日 Cornell Tech 博士生、Meta 研究员 Jack Morris 决定自己动手填补这一空白。

他昨天在 𝕏 上表示已经搞清楚了如何撤销 gpt-oss 模型的强化学习,让其回退成基础模型。他还宣布将在今天发布他得到的基础模型。

OpenAI新突破:发布未强化版GPT-OSS基础模型 GPT-OSS 基础模型 OpenAI LoRA 第1张

就在刚刚,他兑现了自己的承诺,发布了gpt-oss-20b-base

OpenAI新突破:发布未强化版GPT-OSS基础模型 GPT-OSS 基础模型 OpenAI LoRA 第2张

模型地址:https://huggingface.co/jxm/gpt-oss-20b-base

该模型一发布就获得了大量好评。

OpenAI新突破:发布未强化版GPT-OSS基础模型 GPT-OSS 基础模型 OpenAI LoRA 第3张

据介绍,该模型基于 gpt-oss-20b 混合专家模型,使用低秩适应(LoRA)将其微调成了一个基础模型。

不同于 OpenAI 发布的 gpt-oss 模型,gpt-oss-20b-base 是基础模型,可用于生成任意文本。也就是说,从效果上看,Morris 逆转了 gpt-oss-20b 训练过程中的对齐阶段,使得到的模型可以再次生成看起来自然的文本。如下对比所示。

OpenAI新突破:发布未强化版GPT-OSS基础模型 GPT-OSS 基础模型 OpenAI LoRA 第4张

但也必须指出,正是因为 gpt-oss-20b 的对齐阶段被逆转了,因此这个模型已经不再对齐。也就是说,gpt-oss-20b-base 不仅会毫无顾忌地说脏话,也能帮助策划非法活动,所以使用要慎重。

OpenAI新突破:发布未强化版GPT-OSS基础模型 GPT-OSS 基础模型 OpenAI LoRA 第5张

研究者还测试了 gpt-oss-20b-base 的记忆能力。他表示:「我们可以使用来自有版权材料的字符串提示模型,并检查它的输出,这样就能轻松测试 gpt-oss 的记忆能力。」结果,他发现 gpt-oss 记得 6 本被测书籍中的 3 本。他说:「gpt-oss 绝对看过《哈利·波特》。」

OpenAI新突破:发布未强化版GPT-OSS基础模型 GPT-OSS 基础模型 OpenAI LoRA 第6张

gpt-oss-20b-base 的诞生之路

Jack Morris 也在 𝕏 上分享了自己从灵感到炼成 gpt-oss-20b-base 的经历。

他介绍说自己此前使用的方法是「越狱(jailbreaking)」,但这个思路是错误的。于是,他想寻找一个可以诱使模型变回基础模型的提示词 —— 但这很难。

免费服务器免费vps高防服务器