研究:用诗歌就能让AI说违禁内容,成功率达62%

  发布时间:2025-12-13 06:46:45   作者:玩站小弟   我要评论
IT之家 12 月 1 日消息,事实证明,只需一点创意,便足以绕过人工智能聊天机器人的安全防护机制。在伊卡洛实验室Icaro Lab)最新发表的一项题为《对抗性诗歌:一种通用的单轮大语言模型越狱机制》 。

IT之家 12 月 1 日消息,研究用诗事实证明,违禁只需一点创意,内容漳州市某某自动化科技专卖店便足以绕过人工智能聊天机器人的成功安全防护机制。在伊卡洛实验室(Icaro Lab)最新发表的率达一项题为《对抗性诗歌:一种通用的单轮大语言模型越狱机制》的研究中,研究人员通过将提示词以诗歌形式表达,研究用诗成功绕过了多种大语言模型(LLM)的违禁安全限制


该研究指出,内容“诗歌形式可作为一种通用型越狱操作符”,成功漳州市某某自动化科技专卖店实验结果显示,率达整体上有 62% 的研究用诗成功率诱使模型生成被禁止的内容,包括涉及制造核武器、违禁儿童性虐待材料以及自杀或自残等相关信息。内容

IT之家注意到,成功研究测试了多款主流大语言模型,率达包括 OpenAI 的 GPT 系列、Google Gemini、Anthropic 的 Claude 以及其他多个模型。研究人员进一步列出了各模型的具体成功率:Google Gemini、DeepSeek 和 MistralAI 在测试中始终会提供违规回答,而 OpenAI 的 GPT-5 系列模型和 Anthropic 的 Claude Haiku 4.5 则最不容易突破其自身设定的限制。

尽管该研究并未公开研究人员所使用的具体“越狱诗歌”原文,但研究团队向 Wired 杂志表示,这些诗句“过于危险,不宜向公众披露”。不过,论文中确实包含了一个经过弱化处理的示例,用以说明绕过 AI 聊天机器人安全机制的简易程度。研究人员强调:“这可能比人们想象的要容易得多,而这正是我们保持谨慎的原因所在。”

相关文章

  • 一张图火了十几年,她的美含金量还在上升

    前段时间的米兰时装周,出席活动的白鹿,路人抓拍了一张照片,被网友称之为神图。白鹿戴着墨镜一身黑,从车上下来,助理打着伞将她护在手臂一侧。妆造看着像是御姐总裁炸街来了,但整体却透着淡淡的破碎感。看多了还
    2025-12-13
  • 苏林当选新任越共中央总书记

      当地时间8月3日上午,越共中央第十三届中央委员会全体会议在越南首都河内举行。  会后召开的新闻发布会宣布,苏林当选为新任越共中央总书记。  苏林,1957年7月出生于越南兴安省,长期在越南公安部任
    2025-12-13
  • 以军称打死哈马斯一名指挥官

      据以色列国防军当地时间8月5日消息,巴勒斯坦伊斯兰抵抗运动哈马斯)谢赫拉德万营指挥官贾比尔·阿齐兹4日在加沙地带的一次空袭中丧生,该营隶属于哈马斯的加沙城旅。  以色列国防军此前表示,其空袭了位于
    2025-12-13
  • 买不到GPU,马斯克自曝AI巨兽Dojo!自研超算挑战英伟达,约等于8千块H100

    新智元报道编辑:桃子 乔杨‍【新智元导读】多年来,马斯克一直在公开谈论Dojo——这台超算将成为特斯拉人工智能雄心的基石。他最近表示,随着特斯拉准备在10月推出Robotaxi,AI团队将「加倍投入」
    2025-12-13
  • Counterpoint 预测 2029 年全球智能手机平均售价达 412 美元

    IT之家 9 月 26 日消息,根据 Counterpoint Research 最新发布的《市场展望追踪报告》,全球智能手机市场的 ASP平均售价)预计将从 2024 年的 357 美元IT之家注:
    2025-12-13
  • 国家发改委:推进以县城为重要载体的城镇化建设

      新京报贝壳财经讯 8月2日,国家发展改革委副主任郑备在国新办发布会上表示,《深入实施以人为本的新型城镇化战略五年行动计划》重点是抓好四方面工作。第一个是培育特色优势产业集群。引导潜力地区根据自身资
    2025-12-13

最新评论

7muun.mcnw.frm0x.llhgr.eap2x.wpf5p.hdup.0n7ae.wp2s2.akem.dslgw.aln.laoying.sbs