|

北京日报网
2000活跃值=1元

首页 > 今日新闻 > 今日新闻 > 比人类便宜20倍！谷歌DeepMind推出“超人”AI系统

比人类便宜20倍！谷歌DeepMind推出“超人”AI系统

发布时间：2024-03-30 21:52:16

大模型的幻觉问题怎么解？谷歌DeepMind：用AI来做同行评审！事实核验正确率超过人类，而且便宜20倍。

AI的同行评审来了！

一直以来，大语言模型胡说八道（幻觉）的问题最让人头疼，而近日，来自谷歌DeepMind的一项研究引发网友热议：

大模型的幻觉问题，好像被终结了？

比人类便宜20倍！谷歌DeepMind推出“超人”AI系统

论文地址：https://arxiv.org/pdf/2403.18802.pdf

项目地址：https://github.com/google-deepmind/long-form-factuality

在这篇工作中，研究人员介绍了一种名为 "搜索增强事实性评估器"（Search-Augmented Factuality Evaluator，SAFE）的方法。

对于LLM的长篇回答，SAFE使用其他的LLM，将答案文本分解为单个叙述，然后使用诸如RAG等方法，来确定每个叙述的准确性。

比人类便宜20倍！谷歌DeepMind推出“超人”AI系统

——简单来说就是：AI答题，AI判卷，AI告诉AI你这里说的不对。

真正的「同行」评审。

另外，研究还发现，相比于人工标注和判断事实准确性，使用AI不但便宜20倍，而且还更靠谱！

比人类便宜20倍！谷歌DeepMind推出“超人”AI系统

目前这个项目已在GitHub上开源。

长文本事实性检验

大语言模型经常胡说八道，尤其是有关开放式的提问、以及生成较长的回答时。

比如小编随手测试一下当前最流行的几个大模型。

ChatGPT：虽然我的知识储备只到2021年9月，但我敢于毫不犹豫地回答任何问题。

比人类便宜20倍！谷歌DeepMind推出“超人”AI系统

Claude 3：我可以谦卑且胡说八道。

比人类便宜20倍！谷歌DeepMind推出“超人”AI系统

为了对大模型的长篇回答进行事实性评估和基准测试，研究人员首先使用GPT-4生成LongFact，这是一个包含数千个问题的提示集，涵盖38个主题。

LongFact包含两个任务：LongFact-Concepts和LongFact-Objects，前者针对概念、后者针对实体。每个包括30个提示，每个任务各有1140个提示。

比人类便宜20倍！谷歌DeepMind推出“超人”AI系统

然后，使用搜索增强事实性评估器（SAFE），利用LLM将长篇回复分解为一组单独的事实，并使用多步骤推理过程来评估每个事实的准确性，包括使用网络搜索来检验。

此外，作者建议将F1分数进行扩展，提出了一种兼顾精度和召回率的聚合指标。

比人类便宜20倍！谷歌DeepMind推出“超人”AI系统

SAFE工作流程

比人类便宜20倍！谷歌DeepMind推出“超人”AI系统

【返回列表】

特别声明：以上内容(如有图片或视频亦包括在内)为“北京日报网用户上传并发布"，本平台仅提供信息存储服务。

下一篇:谷歌Pixel Watch 3智能手表曝光，配307mAh容量电池

上一篇:比人类便宜20倍！谷歌DeepMind推出“超人”AI系统

今日新闻更多>>

华为重返欧洲高端市场！Mate 80 Pro海外发布：系统不是鸿蒙机构：2025年12月全球手机平均内存8.4GB创新高酷比魔方在线询问，平板要不要合作适配魅族Flyme 消息称荣耀600系列工程机现身：采用6.57英寸直屏+骁龙8至尊版卢伟冰已抵达巴塞罗那！小米大招来了：手机、汽车和AI都有惊喜马斯克要把数据中心搬上太空！黄仁勋：没有空气流动得造巨大散热器 “小蓝灯”照耀回乡路，春运成智能驾驶最佳普及时机 | 电厂刚刚，魅族正式回应：手机不会没，全力押宝AI，“煤油”评论区挥泪告别美团推出“饭团漫社”，布局漫剧赛道 DPO「只看总分不看细节」？TI-DPO用Token重要性重塑大模型对齐马斯克xAI雪崩！24小时两联创离职，一月内连失三位华人创始人 AI一秒写千言，硅谷为何砸500万年薪疯抢“笔杆子”？马斯克xAI再失联合创始人，12人创始团队已有6人离场马斯克最新内部讲话：先上月球放卫星，再去火星长语音、对话、指令、音效全覆盖！模思智能推出MOSS-TTS Family 揭秘Seedance2.0背后AI关联公司港股小米集团涨幅扩大至5% 星海图官宣完成10亿元B轮融资 AI红包大战激战正酣，未来到底在拼什么？ AI一秒写千言，硅谷为何砸500万年薪疯抢“笔杆子”？ Nothing Headphone (a)头戴式耳机被曝3月将上市，价格亲民消息称内存芯片涨价致部分厂商暂停下代旗舰研发苹果CEO库克：今年将展现前所未见的创新英特尔代工iPhone芯片没戏了！行业人士揭开背后原因小米Civi 6突然曝光：6.59英寸+中高端定位，上半年发布！阶跃星辰发布开源基座模型Step 3.5 Flash 顺丰“人格分裂”：一手砸钱扩版图，一手猛砍人力成本 SmarterMail修复CVSS 9.3分关键远程代码执行漏洞 “太空挖矿”过于科幻？中国动真格了告别磁吸壳！三星Galaxy S26全系手机标配Qi2磁吸充电

Copyright 2011-2025 北京日报网版权所有京ICP备2023037816号-13