创智&交大发现AI能动性新规律, 78样本胜GPT5实现软件+科研自动化

AI 能动性的时代要求系统不仅能思考，更要能干活：包括协同编程（人机协作开发）和自动化科学研究。LIMI 仅用 78 个样本就超越 GPT-5 达 14.1%，并发现了能动性效率原则： AI 能动性不仅来源于数据丰富性，更来自于战略性构建。

本文来自于上海创智学院和上海交大刘鹏飞老师团队，团队专注于构建最前沿 AI 系统。核心作者来自于香港理工大学，上海交通大学，以及中国科学技术大学。

从 ChatGPT 到 Claude，从 Codex 到 Claude Code，全球科技公司正在 "能动性" 领域展开激烈竞争。这一趋势反映了产业界的关键认知：能动性能力正成为 AI 系统的核心竞争力，决定着 AI 能否从简单的对话工具演进为真正的工作伙伴。具备能动性的 AI 系统将重新定义人机协作模式，成为推动各行各业智能化转型的关键技术。

什么是 "能动性"？它是 AI 系统主动发现问题、制定假设，并通过与环境和工具的自主交互执行解决方案的能力。这种能力的重要性在于，它使 AI 从被动响应工具转变为主动执行的智能助手，能够独立完成复杂的知识工作任务。例如，让模型从零开始开发一个完整的五子棋游戏需要模型具备需求理解、架构设计、代码实现、调试优化等完整的自主执行能力。这种协作编程场景代表了现代知识工作的典型需求，而具备这种能力的 AI 系统将能够承担大量现实世界的复杂任务

同样，在科研工作流程中，模型需要完成从文献调研到实验设计，从数据分析到洞察生成的完整链路。能动性使 AI 能够独立推进科学研究进程，这对于加速科学发现具有重大意义。

能动性能力的培养难度远超传统 AI 能力，因为它要求模型具备长期规划、多步推理、工具协调和自主纠错等高阶认知能力。当前主流方法普遍认为复杂的能动性能力需要大量训练数据支撑，遵循传统的规模化定律。这导致了资源密集型的训练流程：收集数万甚至数十万个训练样本，消耗大量计算资源，但效果往往不尽如人意。

LIMI 的研究结果表明，仅使用 78 个复杂多轮交互轨迹样本，模型就能在能动性基准测试 AgencyBench 上达到开源模型的最佳表现，还超越了 GPT-5 的性能。相比使用 10,000 个样本训练的模型，LIMI 实现了 53.7% 的性能提升，数据使用量却仅为其 1/128。

创智&交大发现AI能动性新规律, 78样本胜GPT5实现软件+科研自动化

创智&amp;交大发现AI能动性新规律, 78样本胜GPT5实现软件+科研自动化

今日新闻更多>>

创智&交大发现AI能动性新规律, 78样本胜GPT5实现软件+科研自动化