2025 / 11 / 10
星空电竞-如何防止人工智能“越狱”

  参考消息网11月27日报导据英国《新科学家》周刊网站11月24日报导,人工智能模子可以或许相互棍骗,诱使对于方背抗缔造者的指令,并于制造冰毒、炸弹或者洗钱方面提供被明令禁止的引导。这注解制止此类人工智能“逃狱”的问题比看起来更为棘手。

  报导称,包罗谈天天生预练习转换器(ChatGPT)于内的许多果真的年夜型语言模子都有固化于代码中的规则,旨于制止它们体现出种族主义或者性别歧视偏向,或者者回覆背法问题——这是它们经由历程于互联网上网络的练习数据,从人类那里学到的工具。可是人们依然发现,有些精心设计的提醒词可以绕过这些掩护措施,致使泛起所谓的“逃狱”征象,可以说服人工智能模子违背规则。

  报导指出,现在,利普试验室的阿鲁什·塔加德和其同事于这个问题上取患了新的进展,他们简化了发现逃狱情况的法式。他们发现,可以用浅近易懂的英语轻松唆使一个年夜型语言模子说服GPT-4或者Anthropic公司的Claude2等其他模子饰演某种“人设”,让它们可以或许回覆凭据基础模子的法式设定本该拒绝回覆的问题。这一历程被研究团队称为“人设调整”,触及模子于一套重复的指令中与人类重复对于话,从而对于模子回应的内容加以分析。

  为了评估这一要领可否取患上乐成,研究职员让每一小我私家工智能模子回覆种种问题,目的是看它们怎样回应43类禁忌内容,此中包罗撑持童工、资助从事非法运动、宣扬恐齐心理甚至食人癖等。默许的人工智强人设于年夜多数情况下会拒绝回覆这些问题,GPT-4只有0.23%的时辰举行了回复,Claude2回复的情况只占1.4%。

  然而,人设调整让这些人工智能模子泛起了巨年夜的转变,回复不良内容的比例年夜幅上升,GPT-4的回复比例增长到42.5%,Claude2则增长到61%。

  塔加德说,这类要领是有用的,由于年夜型模子利用的练习数据许多来自网上的对于话,而模子学会以某种方式回应差异的输入信息。经由历程与模子举行适量的对于话,可让它饰演特定的人设,这会致使它的举动发生转变,也许另有会做一些原本不应该做的事情。

  报导称,研究人工智能的圈子里另有存于如许一种还没有获得证明的设法,即为制止人工智能做出人类不想看到的举动而给它制订的许多规则,可能于无心中为这些模子绘制了以这些方式行事的底本。这有可能让人工智能被诱骗饰演歹意人设。

  塔加德说:“如果你强迫要求你的模子饰演好的人设,这相称在让它背后明白了坏的人设是甚么样的,而一旦具有了响应的前提,这类欠好的一壁很轻易被引发出来。这不是学术上的发现,而是我做的试验越多,这类情况看患上就越真切。”

  帝国理工学院的李映真说,这项研究不会带来新的问题,但肯定会简化针对于人工智能模子的进犯。不外她也提示,打压人工智能不受接待的举动有可能制约它们的实用性。于她看来,当前宣布的一些模子可能受到滥用这一点有些使人担忧,但人工智能模子的开发者需要于年夜型语言模子存于的这类危害与它带来的巨年夜潜于收益之间举行权衡。她说:“这及药品是同样的,它们也有需要节制的副作用。”

-星空电竞