首页 > 读书笔记 > 读书笔记 > Pika融资、快手上线可灵,苹果的AI产品为何“烧冷灶”?

Pika融资、快手上线可灵,苹果的AI产品为何“烧冷灶”?

发布时间:2024-06-12 16:36:40

苹果公司(AAPL.US)WWDC开发者大会上推出了名为Apple Intelligence的AI产品,然而当日股价收盘跌1.91%。有趣的是,6月11日Wind数据中的Sora指数(8841756.WI)涨1.55%。

为什么会有这样的区别?

苹果选择了避开当下正热的视频大模型,推出的AI相关更新更多侧重文字领域,而国内概念股的涨幅与近期文生视频大模型热度又起紧密相关。国外如明星AI视频生成公司Pika完成新一轮融资,总额8000万美元的B轮融资后,公司估值将超过4.7亿美元。国内如快手(1024.HK)“可灵”视频生成大模型正式上线,采用了与Sora相似的技术路线。

在多位行业人士看来,苹果聚焦AI文字而非视频领域的整合,更多出于成本与实用性等方面的考量。

苹果避开Sora“战局”

苹果推出的内置大语言模型可让iPhone、iPad和Mac理解并生成语言和图像。Siri通过接入ChatGPT,具有了语义检索功能,可以智能搜索照片、日历、文件和邮件等内容,还可以免注册使用大部分ChatGPT的功能。

天风国际证券分析师郭明錤发布简评称,苹果新发布的Apple Intelligence套件展现了生态整合与界面设计优势,对使用者很实用,但对投资人只是锦上添花,后者期待看到原创且非用不可的功能。

面壁智能首席研究员韩旭对记者表示,从接入操作系统的角度来看,苹果主要需要AI来理解人的意图和调用系统层面的接口,这些需求和Sora的出发点不完全一致,但与多模态输入文本输出的大模型较为匹配。Sora这类生成图片或视频的模型,目前还是和软件尤其是视觉处理软件结合比较合适。

为什么苹果没有加入Sora的“战局”?

一位AIGC视频应用厂商人员对记者表示,从产品思维和经营角度来讲,苹果只会落地相对比较成熟,且投入产出比能见度更加可观的领域。在手机硬件交互的层面,文字的使用场景更多,从研发投入到实际推理成本方面来讲,该领域对苹果目前的技术积累而言也相对更有性价比。

另一位行业技术人员表示,今天的LLM服务(大型语言模型服务)在文字领域基本实现保本,文生图领域不一定,文生视频领域一定会亏损。这也是这次苹果WWDC大会暂时没有整合视频AIGC能力的重要原因。

相对于苹果公司的动作,国内大模型赛道目前对视频领域寄予厚望。今年4月,清华大学人工智能研究院副院长、生数科技联合创始人兼首席科学家朱军教授代表清华大学与生数科技,发布中国首个视频大模型Vidu,不久前,快手上线的视频大模型“可灵”也引发了一定程度的热议。

记者将Sora代表视频文案作为提示词,输入快手“可灵”,进行生成视频对比,以“东京街头女郎漫步”为例,当时Sora视频存在女郎走路过程中存在腿部变形、腿部交叉换位时错乱、右腿连续两次在前方迈步等错误。快手“可灵”也存在类似问题。

天风证券认为,快手3D VAE+DiT架构对算力、模型和数据质量的提升已展现出能够实现商用的结果,同时时长、比例的自定义使得生成素材的可用性大幅加强,尽管在一些复杂语义理解上逊色于Sora,但在稍简单的场景下已差距不大。

多模态成中国大模型赛道机会

一个优秀的视频生成模型需要考虑四大核心要素——模型设计、数据保障、计算效率,以及模型能力的扩展。

针对Sora存在的不成熟之处,OpenAI曾表示,Sora可能难以准确模拟复杂场景的物理原理,可能无法理解因果关系,可能混淆提示的空间细节,可能难以精确描述随着时间推移发生的事件,如遵循特定的相机轨迹等。

但这更像是一个普遍存在的问题。爱诗科技创始人王长虎此前表示,目前的视频大模型都是直接从视频数据里学习物理知识,但真实视频中往往包含很多信息,很难分别把每个物理规律精确地学习好。在给模型输入视觉画面的同时,单独加入人手、动物尾巴等3D建模信息作为约束,可以辅助大模型学习,也能优化效果。

可灵大模型采用的是原生文生视频技术路线,替代了图像生成+时序模块的组合。目前,在隐空间编/解码上,主流的视频生成模型通常采用Stable Diffusion的2D VAE进行空间压缩,但这对于视频而言存在明显的信息冗余。因此,快手大模型团队自研了3D VAE网络,试图寻找训练性能和效果之间的平衡。另外在时序信息建模上,快手大模型团队设计了一款全注意力机制(3D Attention)作为时空建模模块。

生数科技CEO唐家渝提到,多模态大模型的研究仍处于起步阶段,技术成熟度还不高。这一点不同于火热的语言模型,国外已经领先了一个时代。因此,相比于在语言模型上“卷”,唐家渝认为多模态更是国内团队抢占大模型赛道的一个重要机会。这一点与启明创投合伙人周志峰有相同之处,他也认为如今的大模型已从原来的纯语言模态逐步走向多模态的探索。

北京智源人工智能研究院副院长兼总工程师林咏华对第一财经记者表示,中国在多模态领域弯道超车是有一定可能性的,但多模态模型的成功要素依然是算力、算法和数据。目前算法层面,中美团队之间差异没有那么大,行业也仍有办法去解决算力问题,但要获取海量高质量数据,依然难度很大。

读书笔记更多>>

DeepSeek新论文剧透V4新框架!用闲置网卡加速智能体推理性能 荣耀产品线总裁预告Power2:10080mAh电池行业天花板 东风本田 HR-V 试驾体验:大空间 + 强动力,焕新在即值得等! 宝马5系要变样了 这回改的挺彻底 准备和新能源车抢市场 凯迪拉克2026年将进入F1!周冠宇将开着法拉利引擎的赛车重返F1 华为智驾+鸿蒙座舱!传祺M8乾崑来袭,国产MPV要改写“豪华”定义 续航大增104KM!新款五菱之光EV,电池30.6kWh电机仍30kW! 买车必看!宝骏和长安,谁才是保值之王? 别克君威车窗防夹功能重置:初始化操作与阻力值校准方法 全新宝马5系来了,外观大升级,比现款漂亮很多! 全新雷克萨斯ES 2026年欧洲上市:挑战奔驰E级、宝马5系和奥迪A6 新款智己L6接受实测挑战,续航真实力展现! 长安汽车:未来3年将推出35款数智新汽车,2027年推进全固态电池逐步量产 加入“9系”混战 吉利银河M9正式发布 吉利银河M9亮相!搭载千里浩瀚智驾和双腔空悬 综合续航超1500km “五一”期间长沙150余个优质楼盘推出专属优惠 各路大佬支持智己!揭开上汽如何布局未来高端智能市场 红米K80至尊版真机照出炉:核心配置也已清晰,或6月份发布 只卖1699的红米Turbo 4 Pro,但我却觉得它不太红 长安马自达 EZ-60:安全性能铸就电动出行坚实后盾 理想L9:豪华舒适,真香还是劝退?家庭出行终极选择? 埃安UT:纯电安全小钢炮,都市通勤实力王 楼市新机遇,武汉太燃了,二手房成交均价1.13万元,环比上涨4.3% iPhone14值得买吗? 降价后性价比高,销量竟反超iPhone16! CounterPoint报告2025Q1印度手机出货量:vivo占22% 荣耀400系列新机入网 预计配备7000mAh青海湖电池 奥迪全新Q5L轴距再加长!配华为ADS智驾+21寸轮毂,运动属性拉满 奥迪携手2025年金盏速度节:以赛道基因诠释百年传承与创新 TCL新品T7L Pro体验:把万元旗舰技术“搬”进客厅,这次真香了! 中兴智慧生活APP全面升级太好用,路由器体验再次提升