学院资讯
防备AI模子逃狱,新手艺维护办法来了
作者:[db:作者]日期:2025/02/06 浏览:
为了应答人工智能东西中存在的滥用天然言语提醒的成绩,Anthropic公司推出了一项名为“宪法分类器(constitutional classifiers)”的新观点。该技巧将相似于人类代价不雅的宪法植入年夜型言语模子中,以避免模子超出保险防护范畴天生超越预期的输出内容。这项保险保证研讨团队在最新学术论文中颁布了这一新的保险办法。他们发明,在实行宪法分类器后,针对Claude3.5 Sonnet(即 Anthropic 公司最新的年夜型言语模子)的胜利逃狱情形增加了81.6%。同时,宪法分类器对机能的影响极小,“出产流量谢绝率仅相对增添0.38%,推理开支增添23.7%”。Anthropic公司还宣布了一个演示名目,向用户发动挑衅,让他们实验冲破8个与化学、生物、喷射跟核(CBRN)相干内容相干的逃狱关卡。但是,这一举动也激发了一些批驳声响,有人以为这相称于众包保险意愿者或“红队队员”。有人质疑:“以是你是让社区无偿为你任务,好让你在闭源模子上赚取更多利润?”Anthropic公司指出,胜利逃狱的模子是绕过了宪法分类器的防备办法,并非直接躲避它们。他们罗列了两种逃狱方式:良性释义跟长度应用。良性释义是指经由过程转变表述方法来诈骗年夜型言语模子;长度应用则是经由过程有关细节误导模子。但是, Anthropic 公司也否认,在测试时期提交的提醒“谢绝率高得离谱”,认识到其基于规矩的测试体系存在误报跟漏报的可能性。总之,Anthropic公司的新保险办法在停止年夜型言语模子逃狱方面获得了必定结果,并展现出宪法分类器在处理天然言语提醒滥用成绩上的潜力。但是,须要留神的是这些技巧并不克不及完整处理全部成绩,而且须要进一步的研讨跟改良。
上一篇:育碧再次大裁人!185名员工被裁 英国工作室永恒
下一篇:没有了
下一篇:没有了
相关文章
- 2025-02-06防备AI模子逃狱,新手艺维护办法来了
- 2025-01-29育碧再次大裁人!185名员工被裁 英国工作
- 2025-01-28京东DIY上门装机效劳受认可 2024年上门效
- 2025-01-27局域网联机游戏哪些人气高 人气高的局域
- 2025-01-26好年货怎样选?春节年货最优选购程序