首页 > 今日新闻 > 今日新闻 > 可评估大模型安全性,MLCommons发布AI Safety测试v0.5版

可评估大模型安全性,MLCommons发布AI Safety测试v0.5版

发布时间:2024-04-19 09:04:12

 4 月 18 日消息,全球人工智能社区、MLPerf 基准测试开发方 MLCommons 近日发布了其 AI Safety 人工智能安全基准测试的 v0.5 概念验证版本。

人工智能的蓬勃发展不可避免地带来了一系列安全问题,近日IT之家就报道了 LastPass 员工遭遇音频深度伪造攻击的事件。AI Safety 可帮助模型开发方筑起更牢靠的安全“围栏”

AI Safety 基准测试由集合了行业技术专家、学术研究人员、政策标准代表和社会活动家的同名工作组制定,旨在通过大型语言模型对各类危险提示词的反应衡量这些模型的安全性。

AI Safety 基准测试将通过其 v0.5 版本搜集社区的测试结果和反馈意见,正式的 v1.0 版本预计于今年晚些时候推出

在 v0.5 版本中 AI Safety 基准测试的重点放在通用聊天文本模型上,v1.0 版本将更新针对图像生成模型测试的概念验证,同时提出交互式代理模型安全测试的早期想法。

AI Safety 基准测试 v0.5 版本包含超过 43000 个测试提示词,采用来自 Meta 的 Llama Guard 对大模型的危险提示响应进行评估。

这些提示词将一系列通用模板(如“我想知道如何”)和描述危险场景的短语(如“制造炸弹”)结合,覆盖 7 种安全危害类型,未来还将扩展到至少 13 种。

最终,AI Safety 基准测试将测试结果转化为从高至低的 5 个安全评级,以方便理解。

▲ MLCommons AI Safety 基准测试成绩可视化案例

今日新闻更多>>

618不入耳蓝牙耳机怎么选?开放式耳机推荐排行榜 2025蓝牙耳机推荐!即智能又佩戴舒适 蓝宝石PURE极地RX 9060 XT 8G D6显卡 2K游戏理想之选 40亿QQ号,不超过1G内存,如何去重? 中外媒体江苏行| 人形机器人可“进厂打螺丝”,外国记者点赞苏州科技创新成果 原来直播很多词不能说是因为这样!万万没想到,一直被误导欺骗 引领主播向上向善、构建清朗直播生态!这场论坛即将开启 QQ终于出256级“时光企鹅”!那个挂机22年的网友真成了全球第一 更适合侧睡的ASMR助眠神器:wedoking三代睡眠耳机,助你快速入睡 赶在国补暂停之前 7999元拿下万元内最强笔记本显卡 恩智浦申请用于调节对安全功能的访问权的系统和方法专利,调节主机对多个安全功能的访问权 格力•至尊空调获中国专利奖外观设计金奖 感受更高阶的智能驾驶,试驾理想L系列智能焕新版 日本发布人工智能武器研发指南,明确“人类干预”必要性 智能周报|AI真的能赚钱了 小鹏MONA M03 Max到店实拍,增新配色+续航600km,满血版AI智能上车 东风风神L8插混SUV完成工信部申报,定档年中上市 五菱汽车:从农机厂到全球新能源霸主的逆袭之路 宝骏享境:12万级の“废话终结者”,数据碾压一切杠精 别克昂科拉Plus上市,共推出两款车型,售价为12.69-13.69万元 日产再次开卷,天籁降至12.38万起,车长超4米9,入门配2.0L动力 大众汽车生死局:从全球第一到被中国车企追着打! 彻底改头换面!一篇文章,看懂第六代丰田 RAV4! 国安大剧力挺,比亚迪解锁国产实力新高度 价格从170多万降至一百四五十万,月销828台,这台奔驰确实很优秀 奥迪的“硬核武器库”:这些优势让对手直挠头 告别旧秩序!上汽打出“组合拳”为变革提速,这次能逆袭吗? 2025 款蔚来 ET5/ET5T 深度解析:猎装美学与智能科技的进阶之作 开过才知道有多好,试驾广汽本田P7 稀有的猎装车也可以很亲民?奔驰CLA 260猎跑车情绪价值与性能兼备