防备AI模子逃狱，新手艺维护办法来了_365游戏中心官网地址

新闻公告

学院资讯

防备AI模子逃狱，新手艺维护办法来了

作者：[db:作者]日期：2025/02/06 浏览：

为了应答人工智能东西中存在的滥用天然言语提醒的成绩，Anthropic公司推出了一项名为“宪法分类器（constitutional classifiers）”的新观点。该技巧将相似于人类代价不雅的宪法植入年夜型言语模子中，以避免模子超出保险防护范畴天生超越预期的输出内容。这项保险保证研讨团队在最新学术论文中颁布了这一新的保险办法。他们发明，在实行宪法分类器后，针对Claude3.5 Sonnet（即 Anthropic 公司最新的年夜型言语模子）的胜利逃狱情形增加了81.6%。同时，宪法分类器对机能的影响极小，“出产流量谢绝率仅相对增添0.38%，推理开支增添23.7%”。Anthropic公司还宣布了一个演示名目，向用户发动挑衅，让他们实验冲破8个与化学、生物、喷射跟核（CBRN）相干内容相干的逃狱关卡。但是，这一举动也激发了一些批驳声响，有人以为这相称于众包保险意愿者或“红队队员”。有人质疑：“以是你是让社区无偿为你任务，好让你在闭源模子上赚取更多利润？”Anthropic公司指出，胜利逃狱的模子是绕过了宪法分类器的防备办法，并非直接躲避它们。他们罗列了两种逃狱方式：良性释义跟长度应用。良性释义是指经由过程转变表述方法来诈骗年夜型言语模子；长度应用则是经由过程有关细节误导模子。但是， Anthropic 公司也否认，在测试时期提交的提醒“谢绝率高得离谱”，认识到其基于规矩的测试体系存在误报跟漏报的可能性。总之，Anthropic公司的新保险办法在停止年夜型言语模子逃狱方面获得了必定结果，并展现出宪法分类器在处理天然言语提醒滥用成绩上的潜力。但是，须要留神的是这些技巧并不克不及完整处理全部成绩，而且须要进一步的研讨跟改良。

上一篇：育碧再次大裁人！185名员工被裁英国工作室永恒
下一篇：没有了