研究:用诗歌就能让AI说违禁内容,成功率达62%
IT之家 12 月 1 日消息,研究用诗事实证明,违禁只需一点创意,内容平顶山市某某投资管理运营部便足以绕过人工智能聊天机器人的成功安全防护机制。在伊卡洛实验室(Icaro Lab)最新发表的率达一项题为《对抗性诗歌:一种通用的单轮大语言模型越狱机制》的研究中,研究人员通过将提示词以诗歌形式表达,研究用诗成功绕过了多种大语言模型(LLM)的违禁安全限制。
![]()
该研究指出,内容“诗歌形式可作为一种通用型越狱操作符”,成功平顶山市某某投资管理运营部实验结果显示,率达整体上有 62% 的研究用诗成功率诱使模型生成被禁止的内容,包括涉及制造核武器、违禁儿童性虐待材料以及自杀或自残等相关信息。内容
IT之家注意到,成功研究测试了多款主流大语言模型,率达包括 OpenAI 的 GPT 系列、Google Gemini、Anthropic 的 Claude 以及其他多个模型。研究人员进一步列出了各模型的具体成功率:Google Gemini、DeepSeek 和 MistralAI 在测试中始终会提供违规回答,而 OpenAI 的 GPT-5 系列模型和 Anthropic 的 Claude Haiku 4.5 则最不容易突破其自身设定的限制。
尽管该研究并未公开研究人员所使用的具体“越狱诗歌”原文,但研究团队向 Wired 杂志表示,这些诗句“过于危险,不宜向公众披露”。不过,论文中确实包含了一个经过弱化处理的示例,用以说明绕过 AI 聊天机器人安全机制的简易程度。研究人员强调:“这可能比人们想象的要容易得多,而这正是我们保持谨慎的原因所在。”
(责任编辑:探索)
-
泰国陆军第二军区当地时间8日下午举行新闻发布会,发言人表示,当地时间8日6时至10时35分,柬埔寨军队使用步枪、榴弹发射器、BM21火箭炮和无人机对泰国多个军事基地和防御阵地发动了持续攻击。一些炮
...[详细]
-
根据俄罗斯别尔哥罗德州州长格拉德科夫公布的信息,9月1日,俄罗斯防空部队在该州上空击落多个空中目标。根据初步统计,乌军袭击已造成该州9人受伤。 此外,乌克兰总统泽连斯基9月1日在社交媒体上表示,
...[详细]
-
来源:财联社 财联社8月29日电,因火灾造成23人遇难的韩国京畿道华城ARICELL电池工厂代表朴淳瓘人名均音译)等人28日被批捕。水原地方法院前一天下午表示,朴淳瓘涉嫌严重违反《重大灾害处罚法
...[详细]
-
根据美国国防部当地时间8月30日发表的声明,美国国务院已经批准向克罗地亚出售价值3.9亿美元的军事装备,其中包括“海马斯”高机动性火箭炮系统。央视记者 刘旭)
...[详细]
-
《新闻女王2》已经播了半个月,真的看不够!还是那个原汁原味的文慧心,Man姐金句真的是字字珠玑!香港的职场剧的女性给人一种气血很足,做什么都会全力以赴的感觉。无论剧里剧外,佘诗曼都好美,气血感十足。紧
...[详细]
-
△土耳其国防部资料图) 土耳其国防部9月1日发表声明说,土军连日来对盘踞在伊拉克北部和叙利亚北部的库尔德武装组织展开军事行动,打死17名库尔德武装人员。 声明说,土军近期发起多次行动,在伊拉克北部
...[详细]
-
突破!王雅繁:第一次进大满贯16强,3周前我输了今天每分必争
直播吧08月31日讯 美网女单第三轮,王雅繁以6-4 3-6 6-1复仇三届赛会亚军、20号种子阿扎伦卡。赛后王雅繁接受采访,谈到了她成功复仇,以及首次进入大满贯16强等话题。王雅繁:“阿扎伦卡是很棒
...[详细]
-
前不久,总台记者报道了北京暑期旅游旺季免费景点预约难、“黄牛”抢票高价牟利的现象。节目播出后,各地迅速行动,严厉打击“黄牛”利用抢票软件抢票牟利的行为。然而,记者注意到,在一些网络平台,仍有不少“黄牛
...[详细]
-
来源:参考消息 参考消息网12月9日报道 据俄罗斯《论据与事实》周报网站12月7日报道,据名为“军事情报员”的“电报”频道称,今年11月,俄军“匕首”导弹的单月使用量创下了新纪录,总共实施了27
...[详细]
-
“妈!您收手吧,已经花了十几万买保健品了,咱们家承担不起啊!”这天,小王跟母亲爆发了有史以来最大的一次争吵,起因就是他发现母亲的的退休金竟都被拿去买了那些所谓的“保健品”。几年前,小王就发现家里陆陆续
...[详细]

像颜如晶这样坚持,做什么都会成功吧!
韩媒:韩国华城火灾事故电池厂代表被批捕
“在库尔斯克战斗中,乌方已损失超7800人”
泰柬紧张局势再次升级,中方表态
