首页 > 今日新闻 > 今日新闻 > 高效训练新标杆!华人团队开源原生VLM-NEO,以少数据追平顶级模型

高效训练新标杆!华人团队开源原生VLM-NEO,以少数据追平顶级模型

发布时间:2025-10-29 15:20:34

当下主流的视觉语言模型(Vision-Language Models, VLM),通常都采用这样一种设计思路:将预训练的视觉编码器与大语言模型通过投影层拼接起来。这种模块化架构成就了当前 VLM 的辉煌,但也带来了一系列新的问题——多阶段训练复杂、组件间语义对齐成本高,不同模块的扩展规律难以协调。

 

由南洋理工大学 S-Lab 助理教授刘子纬领导的联合团队最近提出了 NEO,试图用另一种思路解决这些问题。这项工作试图回答一个根本性问题:如果不依赖预训练的视觉编码器,能否构建出与顶级模块化 VLM 相媲美的原生统一架构?

 

图片图丨相关论文(来源:arXiv)

 

在传统方法中,视觉编码器通常基于 CLIP 或 SigLIP 等预训练模型,这些编码器虽然在视觉理解上表现出色,但其固有的语义偏置会限制模型在特定任务上的灵活性。

 

更重要的是,视觉编码器和语言模型之间存在天然的“代沟”——前者采用双向注意力机制来捕捉图像中的全局关系,后者则使用因果注意力进行文本的自回归生成。这种架构上的不匹配使得多阶段训练不仅复杂,还需要大量的对齐数据来弥合两个模态之间的鸿沟。

 

原生 VLM 的探索并非由 NEO 首创。早期的 Fuyu、EVE 就开启了这条路,但它们所面临的一个重要问题是:如何在语言模型内部高效构建视觉表征?这个过程往往效率低下、训练不稳定,甚至会破坏原有的语言能力。后续研究尝试用知识蒸馏、混合训练数据或专家系统来缓解,但始终未能触及核心问题。NEO 的团队认为,问题的根源在于没有从根本上为多模态重新设计模型的基础组件。

 

NEO 团队的方案是构建一个统一的原生基元(Native VLM Primitive),这个基元同时具备视觉编码、跨模态对齐和多模态推理的能力。具体而言,NEO 引入了三项关键创新:多头原生注意力(Multi-Head Native Attention, MHNA)、原生旋转位置编码(Native Rotary Position Embeddings, Native-RoPE)以及 Pre-Buffer 和 Post-LLM 的两阶段架构设计。

 

图片图丨原生视觉-语言框架概览(来源:arXiv)

 

在注意力机制的设计上,NEO 采用了一种混合策略。对于图像 token,模型使用双向注意力,允许每个视觉 token 与图像中的所有其他 token 进行交互,这保留了视觉编码器捕捉全局空间关系的能力。而对于文本 token,则沿用传统的因果注意力,确保自回归生成的有效性。这种“帧级双向、词级因果”的混合注意力机制,让 NEO 能够在同一个统一架构中同时处理视觉的全局理解和语言的序列生成。

 

位置编码是 NEO 的另一个创新点。传统 VLM 在处理图像和文本时,往往简单地将预训练 LLM 的一维旋转位置编码(Rotary Position Embeddings, RoPE)扩展到二维或三维空间,但这种做法会破坏 LLM 原有的建模模式,损害其语言能力。NEO 采用的 Native-RoPE 则完全解耦了时间(T)、高度(H)和宽度(W)三个维度的索引和频率分配。

 

图片图丨NEO 框架(来源:arXiv)

 

对于文本,模型保持原有的时间维度索引,而将高度和宽度维度的索引置零;对于图像,每个视觉 token 拥有固定的时间索引和独特的空间坐标。这种设计不仅保持了与预训练 LLM 的兼容性,还能更好地捕捉图像中的局部语义依赖关系。

 

在训练策略上,NEO 采用了 Pre-Buffer 和 Post-LLM 的分离式预训练。Pre-Buffer 负责从头学习视觉感知,而 Post-LLM 则继承预训练 LLM 的强大语言能力和推理能力。在预训练阶段,Post-LLM 的参数被冻结,仅训练 Pre-Buffer 和新增的 Query-Key 头维度及归一化层。

 

这种设计既保护了 LLM 的语言知识不被低质量的图像-文本对破坏,又允许 Pre-Buffer 在大规模视觉数据上进行充分的学习。到了中期训练和监督微调阶段,Pre-Buffer 和 Post-LLM 被合并为一个统一的单体架构,模型能够自主地在编码、对齐和推理之间分配计算资源。

 

此外,Pre-Buffer 本身具有可复用性。这个经过大规模视觉数据预训练的模块可以作为开源资源,帮助后续研究者以更低的成本将新的 LLM 适配为 VLM。

 

值得注意的是,NEO 在训练效率上展现出令人惊讶的表现。整个预训练阶段仅使用了 3.45 亿图文对,这个数据规模远小于主流模块化 VLM 动辄数十亿的训练数据。在中期训练阶段,NEO 使用 4000 万样本进行视觉-语言对齐的强化;监督微调阶段则使用约 400 万条高质量指令数据。总计不到 4 亿的训练样本,NEO-2.2B 和 NEO-9B 两个版本就达到了与顶级模块化 VLM 相当的性能水平。

 

图片

今日新闻更多>>

华为重返欧洲高端市场!Mate 80 Pro海外发布:系统不是鸿蒙 机构:2025年12月全球手机平均内存8.4GB创新高 酷比魔方在线询问,平板要不要合作适配魅族Flyme 消息称荣耀600系列工程机现身:采用6.57英寸直屏+骁龙8至尊版 卢伟冰已抵达巴塞罗那!小米大招来了:手机、汽车和AI都有惊喜 马斯克要把数据中心搬上太空!黄仁勋:没有空气流动得造巨大散热器 “小蓝灯”照耀回乡路,春运成智能驾驶最佳普及时机 | 电厂 刚刚,魅族正式回应:手机不会没,全力押宝AI,“煤油”评论区挥泪告别 美团推出“饭团漫社”,布局漫剧赛道 DPO「只看总分不看细节」?TI-DPO用Token重要性重塑大模型对齐 马斯克xAI雪崩!24小时两联创离职,一月内连失三位华人创始人 AI一秒写千言,硅谷为何砸500万年薪疯抢“笔杆子”? 马斯克xAI再失联合创始人,12人创始团队已有6人离场 马斯克最新内部讲话:先上月球放卫星,再去火星 长语音、对话、指令、音效全覆盖!模思智能推出MOSS-TTS Family 揭秘Seedance2.0背后AI关联公司 港股小米集团涨幅扩大至5% 星海图官宣完成10亿元B轮融资 AI红包大战激战正酣,未来到底在拼什么? AI一秒写千言,硅谷为何砸500万年薪疯抢“笔杆子”? Nothing Headphone (a)头戴式耳机被曝3月将上市,价格亲民 消息称内存芯片涨价致部分厂商暂停下代旗舰研发 苹果CEO库克:今年将展现前所未见的创新 英特尔代工iPhone芯片没戏了!行业人士揭开背后原因 小米Civi 6突然曝光:6.59英寸+中高端定位,上半年发布! 阶跃星辰发布开源基座 模型Step 3.5 Flash 顺丰“人格分裂”:一手砸钱扩版图,一手猛砍人力成本 SmarterMail修复CVSS 9.3分关键远程代码执行漏洞 “太空挖矿”过于科幻?中国动真格了 告别磁吸壳!三星Galaxy S26全系手机标配Qi2磁吸充电