首页 > 今日新闻 > 今日新闻 > 谷歌推Scenic:可识别视频内容 并生成详细描述

谷歌推Scenic:可识别视频内容 并生成详细描述

发布时间:2024-04-08 23:47:07

Scenic 是一个以注意力模型为重点的计算机视觉研究代码库。

⭐️ 提供 SOTA 模型和基线模型,以及共享库和项目。

⭐️ Scenic 采用 JAX 和 Flax 进行开发,为快速原型设计大规模视觉模型提供支持。

站长之家(ChinaZ.com) 4月7日 消息:Scenic 是谷歌推出的模型,一个专注于计算机视觉领域的代码库,主要用于研究基于注意力的模型。

该库提供了一系列共享的轻量级库,解决训练大规模视觉模型时常见的任务,并包含了几个使用这些库的问题特定训练和评估循环的项目。Scenic 使用 JAX 和 Flax 进行开发,支持开发人员在图像、视频、音频和多模态组合方面开发分类、分割和检测模型。Scenic能识别任意长度的视频内容,并生成详细描述。针对长视频,可以在处理完整个视频前,流式预测视频内容。

Scenic 提供了一些功能,包括用于启动实验、摘要编写、日志记录、性能分析等的样板代码;优化的训练和评估循环、损失函数、度量、双部分匹配器等;以及用于流行视觉数据集的输入管道和强大的非注意力基线模型。

在 Scenic 中,有一些 SOTA 模型和基线模型,这些模型可能是使用 Scenic 开发的,也可能是在 Scenic 中重新实现的。一些项目包括 ViViT、OmniNet、Attention Bottlenecks for Multimodal Fusion 等。此外,Scenic 还提供了一些重现的基线模型,如(ViT)An Image is Worth16x16Words、(DETR)End-to-End Object Detection with Transformers 等。

Scenic 的目标是促进大规模视觉模型的快速原型设计。为了保持代码简单易懂且易于扩展,Scenic 更倾向于通过复制粘贴而非增加复杂性或增加抽象来解决问题。只有当功能被证明在许多模型和任务中广泛有用时,才可能将其上游到 Scenic 的共享库中。

今日新闻更多>>

华为重返欧洲高端市场!Mate 80 Pro海外发布:系统不是鸿蒙 机构:2025年12月全球手机平均内存8.4GB创新高 酷比魔方在线询问,平板要不要合作适配魅族Flyme 消息称荣耀600系列工程机现身:采用6.57英寸直屏+骁龙8至尊版 卢伟冰已抵达巴塞罗那!小米大招来了:手机、汽车和AI都有惊喜 马斯克要把数据中心搬上太空!黄仁勋:没有空气流动得造巨大散热器 “小蓝灯”照耀回乡路,春运成智能驾驶最佳普及时机 | 电厂 刚刚,魅族正式回应:手机不会没,全力押宝AI,“煤油”评论区挥泪告别 美团推出“饭团漫社”,布局漫剧赛道 DPO「只看总分不看细节」?TI-DPO用Token重要性重塑大模型对齐 马斯克xAI雪崩!24小时两联创离职,一月内连失三位华人创始人 AI一秒写千言,硅谷为何砸500万年薪疯抢“笔杆子”? 马斯克xAI再失联合创始人,12人创始团队已有6人离场 马斯克最新内部讲话:先上月球放卫星,再去火星 长语音、对话、指令、音效全覆盖!模思智能推出MOSS-TTS Family 揭秘Seedance2.0背后AI关联公司 港股小米集团涨幅扩大至5% 星海图官宣完成10亿元B轮融资 AI红包大战激战正酣,未来到底在拼什么? AI一秒写千言,硅谷为何砸500万年薪疯抢“笔杆子”? Nothing Headphone (a)头戴式耳机被曝3月将上市,价格亲民 消息称内存芯片涨价致部分厂商暂停下代旗舰研发 苹果CEO库克:今年将展现前所未见的创新 英特尔代工iPhone芯片没戏了!行业人士揭开背后原因 小米Civi 6突然曝光:6.59英寸+中高端定位,上半年发布! 阶跃星辰发布开源基座 模型Step 3.5 Flash 顺丰“人格分裂”:一手砸钱扩版图,一手猛砍人力成本 SmarterMail修复CVSS 9.3分关键远程代码执行漏洞 “太空挖矿”过于科幻?中国动真格了 告别磁吸壳!三星Galaxy S26全系手机标配Qi2磁吸充电