首页 > 今日新闻 > 今日新闻 > 创智&交大发现AI能动性新规律, 78样本胜GPT5实现软件+科研自动化

创智&交大发现AI能动性新规律, 78样本胜GPT5实现软件+科研自动化

发布时间:2025-09-27 14:29:52
AI 能动性的时代要求系统不仅能思考,更要能干活:包括协同编程(人机协作开发)和自动化科学研究。LIMI 仅用 78 个样本就超越 GPT-5 达 14.1%,并发现了能动性效率原则: AI 能动性不仅来源于数据丰富性,更来自于战略性构建。

 

本文来自于上海创智学院和上海交大刘鹏飞老师团队,团队专注于构建最前沿 AI 系统。核心作者来自于香港理工大学,上海交通大学,以及中国科学技术大学。

从 ChatGPT 到 Claude,从 Codex 到 Claude Code,全球科技公司正在 "能动性" 领域展开激烈竞争。这一趋势反映了产业界的关键认知:能动性能力正成为 AI 系统的核心竞争力,决定着 AI 能否从简单的对话工具演进为真正的工作伙伴。具备能动性的 AI 系统将重新定义人机协作模式,成为推动各行各业智能化转型的关键技术。

什么是 "能动性"?它是 AI 系统主动发现问题、制定假设,并通过与环境和工具的自主交互执行解决方案的能力。这种能力的重要性在于,它使 AI 从被动响应工具转变为主动执行的智能助手,能够独立完成复杂的知识工作任务。例如,让模型从零开始开发一个完整的五子棋游戏需要模型具备需求理解、架构设计、代码实现、调试优化等完整的自主执行能力。这种协作编程场景代表了现代知识工作的典型需求,而具备这种能力的 AI 系统将能够承担大量现实世界的复杂任务

同样,在科研工作流程中,模型需要完成从文献调研到实验设计,从数据分析到洞察生成的完整链路。能动性使 AI 能够独立推进科学研究进程,这对于加速科学发现具有重大意义。

能动性能力的培养难度远超传统 AI 能力,因为它要求模型具备长期规划、多步推理、工具协调和自主纠错等高阶认知能力。当前主流方法普遍认为复杂的能动性能力需要大量训练数据支撑,遵循传统的规模化定律。这导致了资源密集型的训练流程:收集数万甚至数十万个训练样本,消耗大量计算资源,但效果往往不尽如人意。

LIMI 的研究结果表明,仅使用 78 个复杂多轮交互轨迹样本,模型就能在能动性基准测试 AgencyBench 上达到开源模型的最佳表现,还超越了 GPT-5 的性能。相比使用 10,000 个样本训练的模型,LIMI 实现了 53.7% 的性能提升,数据使用量却仅为其 1/128。

今日新闻更多>>

华为重返欧洲高端市场!Mate 80 Pro海外发布:系统不是鸿蒙 机构:2025年12月全球手机平均内存8.4GB创新高 酷比魔方在线询问,平板要不要合作适配魅族Flyme 消息称荣耀600系列工程机现身:采用6.57英寸直屏+骁龙8至尊版 卢伟冰已抵达巴塞罗那!小米大招来了:手机、汽车和AI都有惊喜 马斯克要把数据中心搬上太空!黄仁勋:没有空气流动得造巨大散热器 “小蓝灯”照耀回乡路,春运成智能驾驶最佳普及时机 | 电厂 刚刚,魅族正式回应:手机不会没,全力押宝AI,“煤油”评论区挥泪告别 美团推出“饭团漫社”,布局漫剧赛道 DPO「只看总分不看细节」?TI-DPO用Token重要性重塑大模型对齐 马斯克xAI雪崩!24小时两联创离职,一月内连失三位华人创始人 AI一秒写千言,硅谷为何砸500万年薪疯抢“笔杆子”? 马斯克xAI再失联合创始人,12人创始团队已有6人离场 马斯克最新内部讲话:先上月球放卫星,再去火星 长语音、对话、指令、音效全覆盖!模思智能推出MOSS-TTS Family 揭秘Seedance2.0背后AI关联公司 港股小米集团涨幅扩大至5% 星海图官宣完成10亿元B轮融资 AI红包大战激战正酣,未来到底在拼什么? AI一秒写千言,硅谷为何砸500万年薪疯抢“笔杆子”? Nothing Headphone (a)头戴式耳机被曝3月将上市,价格亲民 消息称内存芯片涨价致部分厂商暂停下代旗舰研发 苹果CEO库克:今年将展现前所未见的创新 英特尔代工iPhone芯片没戏了!行业人士揭开背后原因 小米Civi 6突然曝光:6.59英寸+中高端定位,上半年发布! 阶跃星辰发布开源基座 模型Step 3.5 Flash 顺丰“人格分裂”:一手砸钱扩版图,一手猛砍人力成本 SmarterMail修复CVSS 9.3分关键远程代码执行漏洞 “太空挖矿”过于科幻?中国动真格了 告别磁吸壳!三星Galaxy S26全系手机标配Qi2磁吸充电