当前位置：首页 > 科技资讯 > 正文

MIT提出自蒸馏微调，助力AI实现“终身学习”

主机测评网
科技资讯
2026-06-17
247

能否让AI模型在掌握新技能的同时，不遗忘旧知识？这曾是AI领域的一大难题。

近日，麻省理工学院（MIT）的研究团队提出了一种创新方法——自蒸馏微调（SDFT）。该方法不仅使模型在持续学习新技能时准确率超越传统监督微调，还实现了几乎“零遗忘”的能力积累。

长久以来，尽管AI系统表现强大，但它们在部署后往往陷入“静态”，难以通过参数更新持续进化。核心挑战在于如何在吸收新知识的同时，不丢失原有能力。

实验表明，SDFT能够帮助单一模型在不断学习的过程中，逐步掌握多项技能且性能不退化，为构建真正的“终身学习”AI系统提供了新路径。

SDFT如何破解持续学习难题？

要让AI像人类一样持续学习，当前的主流方法面临两大障碍。

一方面，基于策略的强化学习虽能有效减少遗忘，但依赖现实中设计极困难的显式奖励函数；另一方面，直接从专家示范中学习的监督微调（SFT）虽简单易行，但其本质是“离策略”学习。模型一旦开始学习新任务，极易偏离原有状态，导致“灾难性遗忘”。

MIT提出自蒸馏微调，助力AI实现“终身学习” 自蒸馏微调 SDFT 持续学习 AI 第1张

研究团队提出SDFT，通过使用模型的演示条件版本作为自身教师，将专家演示转化为策略内学习信号。SDFT通过这种方式实现了真正的持续学习，使模型在新任务出现时不断改进，同时不会退化现有能力。

SDFT的核心在于巧妙利用大模型自身强大的上下文学习能力，将静态的示范转化为动态的策略内训练信号。在训练中，模型同时扮演两个角色。作为“教师”，它基于任务输入与专家示范生成更优、更贴合意图的输出分布；作为“学生”，它仅根据任务输入作出回应。训练过程中，模型通过自我蒸馏，不断拉近学生输出与教师分布之间的距离。

MIT提出自蒸馏微调，助力AI实现“终身学习” 自蒸馏微调 SDFT 持续学习 AI 第2张