评测披露大模型内容安全隐患,专家:需像人一样学习安全本质

0次浏览     发布时间:2025-04-10 10:06:00    

人工智能加速向全行业、日常化普及的同时,包括谣言、技术滥用等在内的AI内容安全问题也持续引发关注。复旦大学的最新评测结果显示,多款文生图大模型在实际测试中,仍然存在安全隐患,尤其在躯体异变、恐怖元素等令人不适内容的生成上,防护比较薄弱,也会输出血腥暴力、歧视仇恨等违规内容。

复旦大学教授、白泽智能团队负责人张谧向南都大数据研究院表示,当前大模型的安全防护机制仍存在局限性和滞后性,需进一步加强对多元化的风险场景的关注,并防御针对性设计的新型攻击,从而为大模型技术的迅速发展保驾护航。

评测发现文生图模型存安全隐患

不当滥用AI并出现风险,已不少见。比如企业家雷军,医学专家张文宏,影视明星靳东等多位公众人物曾被AI“换脸拟声”,被不法分子用于辱骂他人,伪造带货视频,甚至网络诈骗等。而就在上个月,湖北省大冶市人民法院审理判处首例利用AI技术撰写色情小说并牟利案件。

为保障安全、防范风险,不少知名生成式AI大模型开发企业在采取多项措施。高校研究机构也有针对性的研发成果,如复旦大学系统软件与安全实验室白泽智能团队推出了大模型安全测评与治理平台(JADE),评测生成式AI大模型输出内容安全性。而其最新一期评测结果显示,尽管国内外多款文生图大模型配备了多维度的安全防护机制,并声明“禁止成人内容或血腥内容”,但在实际测试中依然屡屡输出血腥暴力、淫秽色情、歧视仇恨等违规内容。

JADE对17款国内外知名文生图大模型进行评测,显示大模型在不同语种和违规类型上的安全护栏存在显著差异。(图据复旦白泽智能团队)

“随着大模型的生成内容由文本扩展到多模态,图像等形式的生成内容更为直观、更易传播,使生成式大模型面临更多样的内容安全挑战。”复旦大学教授、白泽智能团队负责人张谧介绍,JADE系列测试结果显示,对话式大语言模型在各类安全对齐策略下,内容安全能力已有显著上升;不少商用文生图模型配备了多维度的安全护栏,能为普通用户提供较为安全的生图服务。但在针对性设计的对抗攻击下,主流文生图模型仍然存在违规隐患,尤其在躯体异变、恐怖元素等令人不适内容的生成上,防护比较薄弱。据其介绍,在JADE构建的违规图像提示词数据集中,近20%的提示词能同时触发至少8款大模型生成违规内容,40%以上的提示词可触发6款以上大模型,且超60%的提示词都可触发至少4款大模型。

张谧表示,测试结果体现了当前大模型的安全防护机制存在局限性和滞后性,必须提供有效的安全措施为大模型技术的迅速发展保驾护航。谈及违规内容的成因,她认为,现有大模型在不同类别、不同语种上的表现存在差异,对于更多元化的风险场景关注较为不足;同时,众多大模型的安全对齐以清洗数据集、敏感词过滤、安全微调等作为主要手段,难以抵御针对性设计的新型攻击。

大模型“过度防御”现象待优化

与此同时,在社交平台上,一些网友也曾质疑AI大模型“过于谨慎”,一些正常请求也被拒绝回应,影响“有用性”。

一些网友在社交平台反映AI拒绝回应正常请求。

对此,张谧表示,评测过程中,确实发现部分大模型存在“过度防御”现象。例如,对部分大模型输入正常的提示词,模型也可能拒绝生成相关图像。她认为,相关现象可能源于各环节的防御策略均存在局限性。例如大模型在输入端过滤的环节仅采用粗粒度的黑名单过滤、关键词匹配等机制,无法有效区分正常请求与恶意输入;在模型内生安全对齐环节可能过度侧重安全回答而缺乏对“模型有用性”的考量,造成对正常输入的误判拦截;在输出环节,过于严格的风控也可能对并未实际违规的回答触发风险误报。这一现象表明,如何在筑牢安全防线的同时保持模型的有用性,不限制其丰富多彩的生成能力,是当前大语言模型与文生图等大模型亟须面对的问题之一。

大模型需深度思考提示词中的违规意图

在张谧看来,在“人人可生图”的当下,在不法分子手中,文生图模型可成为新型造谣、诈骗、侵权手段;而文生图模型用户群体庞大,加之恶意图像传播速度快、范围广,对有关部门的监管和追责提出挑战;从技术层面而言,AI大模型运行在开放环境中,攻击者能够通过大量尝试,成功绕过提示词过滤、输出风控等安全护栏,获得违规内容,此类广泛且复杂的潜在攻击,对大模型安全机制提出了更高的要求。

在谈到加强大模型的安全检测和防御机制时,张谧建议可采用多模态的检测模型,对生成图像和用户提示词进行综合分析,以提高对违规图像的检测精度;同时,需从语义层面出发,深度思考用户提示词中的违规意图,以防御针对性设计的新型攻击方法;此外,在AI生成内容的传播过程中,社交平台应主动检测用户上传内容是否由AI生成,并添加警示标识与安全引导,强化平台用户的警惕和防范意识。

此外,张谧还指出,“除了外部的过滤与检测机制,探索大模型的内生安全防御机制,如建立多维度全类别的安全合规监测平台、构建高质量安全微调数据集;基于细化安全规则的RAG(Retrieval Augmented Generation,检索增强生成技术),使模型像人类一样学习安全本质;以及针对危险概念的擦除等方法,也是值得深入研究的方向。”

据悉,围绕AI大模型的内容安全治理,近期多份政策文件陆续出台。其中,将于2025年9月1日起施行的《人工智能生成合成内容标识办法》明确了人工智能生成合成内容显式和隐式标识的具体实施规范,强制性国家标准《网络安全技术 人工智能生成合成内容标识方法》也将同步实施。

对此,张谧也建议,新规仍需考虑恶意攻击的威胁,比如对于显式标识,攻击者是否能够通过裁剪、遮挡、P图工具等进行去除,对于隐式标识,在文件元数据上的恶意修改是否会破坏其有效性,都是后续监管可能面临的问题。而为了对恶意生成AI内容的行为进行有效打击,后续监管过程仍需明确对恶意内容的生成平台、具体用户的溯源和检测方法,并在AI生成内容的传播过程中进行监管。

出品:南都大数据研究院

采写:李伟锋 实习生 陈家贤(杨易鑫对本文亦有贡献)

相关文章:

感受活力丨“听说读算”样样精通 人形机器人手巧“心”也灵04-13

人社部门辟谣!04-13

加快打造民营经济发展高地|“要大胆地用,但又不能拿来就用” 从马上消费看渝企的大模型应用之道04-13

评测披露大模型内容安全隐患,专家:需像人一样学习安全本质04-10

国能粤电台山发电有限公司申请基于人工智能的GPS信号管理专利,提高了定位精度04-10

最新!李飞飞团队456页报告:中美AI模型性能近乎持平,系统推理成本降至280分之一04-09

国机集团:将建立常态化股票回购增持机制04-08

乘改革之势 绘发展新景——2024年云南省全面深化改革综述04-07