首页 > 今日新闻 > 今日新闻 > 谷歌Deepmind、斯坦福大学研究人员推出AI事实核查工具

谷歌Deepmind、斯坦福大学研究人员推出AI事实核查工具

发布时间:2024-03-31 20:20:01

 3 月 31 日消息,无论当下 AI 聊天机器人有多么强大,都会或多或少存在一大饱受诟病的行为 —— 以看上去令人信服的方式,向用户提供与事实不符的回答。简单来说,AI 有时会在回答中“满口跑火车”,甚至“造谣”。

图源 Pixabay

防止 AI 大模型出现这种行为并非易事,且是一项技术性的挑战。不过据外媒 Marktechpost 报道,谷歌 DeepMind 和斯坦福大学似乎找到了某种变通办法。

研究人员推出了一种基于大语言模型的工具 —— 搜索增强事实评估器(IT之家注:原名为 Search-Augmented Factuality Evaluator,简称 SAFE),可对聊天机器人生成的长回复进行事实核查。其研究结果与实验代码、数据集现已公布,点此查看

该系统可通过四个步骤对聊天机器人生成的回复进行分析、处理和评估,以验证准确性和真实性:将答案分割成单个待核查内容、对上述内容进行修正、再与谷歌搜索结果进行比较。随后,该系统还会检查各个事实与原始问题的相关性。

为评估其性能,研究人员创建了包含约 16000 个事实的数据集 LongFact,并在来自 Claude、Gemini、GPT、PaLM-2 的 13 个大语言模型上测试了该系统。结果显示,在对 100 个有争议的事实进行的重点分析中,SAFE 的判定在进一步审查下正确率达到 76% 。与此同时,该框架还具备经济性优势:成本比人工注释便宜 20 多倍

今日新闻更多>>

华为重返欧洲高端市场!Mate 80 Pro海外发布:系统不是鸿蒙 机构:2025年12月全球手机平均内存8.4GB创新高 酷比魔方在线询问,平板要不要合作适配魅族Flyme 消息称荣耀600系列工程机现身:采用6.57英寸直屏+骁龙8至尊版 卢伟冰已抵达巴塞罗那!小米大招来了:手机、汽车和AI都有惊喜 马斯克要把数据中心搬上太空!黄仁勋:没有空气流动得造巨大散热器 “小蓝灯”照耀回乡路,春运成智能驾驶最佳普及时机 | 电厂 刚刚,魅族正式回应:手机不会没,全力押宝AI,“煤油”评论区挥泪告别 美团推出“饭团漫社”,布局漫剧赛道 DPO「只看总分不看细节」?TI-DPO用Token重要性重塑大模型对齐 马斯克xAI雪崩!24小时两联创离职,一月内连失三位华人创始人 AI一秒写千言,硅谷为何砸500万年薪疯抢“笔杆子”? 马斯克xAI再失联合创始人,12人创始团队已有6人离场 马斯克最新内部讲话:先上月球放卫星,再去火星 长语音、对话、指令、音效全覆盖!模思智能推出MOSS-TTS Family 揭秘Seedance2.0背后AI关联公司 港股小米集团涨幅扩大至5% 星海图官宣完成10亿元B轮融资 AI红包大战激战正酣,未来到底在拼什么? AI一秒写千言,硅谷为何砸500万年薪疯抢“笔杆子”? Nothing Headphone (a)头戴式耳机被曝3月将上市,价格亲民 消息称内存芯片涨价致部分厂商暂停下代旗舰研发 苹果CEO库克:今年将展现前所未见的创新 英特尔代工iPhone芯片没戏了!行业人士揭开背后原因 小米Civi 6突然曝光:6.59英寸+中高端定位,上半年发布! 阶跃星辰发布开源基座 模型Step 3.5 Flash 顺丰“人格分裂”:一手砸钱扩版图,一手猛砍人力成本 SmarterMail修复CVSS 9.3分关键远程代码执行漏洞 “太空挖矿”过于科幻?中国动真格了 告别磁吸壳!三星Galaxy S26全系手机标配Qi2磁吸充电