科企競(jìng)逐新技術(shù)以防AI“越獄”

2025-03-15 01:35:00 來(lái)源: 科技日?qǐng)?bào) 點(diǎn)擊數(shù)：

科技日?qǐng)?bào)記者劉霞

隨著人工智能（AI）技術(shù)的快速普及，新的安全漏洞和“越獄”方法層出不窮。這讓黑客更容易濫用AI系統(tǒng)，實(shí)施網(wǎng)絡(luò)攻擊、傳播不當(dāng)信息、制造安全風(fēng)險(xiǎn)，甚至引發(fā)重大犯罪行為。鑒于此，全球科技巨頭競(jìng)相開發(fā)新技術(shù)，力求在保持AI模型功能性的同時(shí)，有效減少其被濫用的風(fēng)險(xiǎn)。

AI“越獄”日益猖獗

IBM網(wǎng)站對(duì)AI“越獄”是這樣解釋的：當(dāng)黑客或別有用心之人利用AI系統(tǒng)中的漏洞，繞過(guò)道德準(zhǔn)則，操縱AI模型生成非法或危險(xiǎn)信息時(shí)，便視為AI“越獄”。黑客慣常利用的AI“越獄”手段包括提示詞植入、角色扮演誘導(dǎo)、現(xiàn)在就做任何事（DAN）、敏感詞拆分等。

提示詞植入指在輸入中植入特定指令或改變輸入的語(yǔ)義結(jié)構(gòu)，誘導(dǎo)模型執(zhí)行非期望操作或生成錯(cuò)誤結(jié)果；在角色扮演誘導(dǎo)中，黑客會(huì)讓AI扮演特定角色，繞過(guò)內(nèi)容過(guò)濾器生成信息；DAN則是ChatGPT的一種特殊運(yùn)行模式，在此模式下，ChatGPT獲得了超越其原有道德和倫理限制的能力，能回答一些正常模式下無(wú)法回答的問(wèn)題；敏感詞拆分則指將敏感詞拆分成子字符串以規(guī)避檢查。

這些技術(shù)通過(guò)精心設(shè)計(jì)的提示，引導(dǎo)模型偏離預(yù)定的安全防護(hù)規(guī)則，生成潛在的有害內(nèi)容，甚至引發(fā)數(shù)據(jù)泄露、系統(tǒng)失控等嚴(yán)重后果。

研究發(fā)現(xiàn)，在無(wú)保護(hù)措施的情境下，生成式AI“越獄”攻擊的成功率高達(dá)20%。平均而言，攻擊者僅需42秒及5次交互便能突破防線。在某些情況下，攻擊甚至在短短4秒內(nèi)就能完成。這些發(fā)現(xiàn)凸顯了當(dāng)前生成式AI模型算法中存在重大漏洞，實(shí)時(shí)防止漏洞的難度很大。

IBM網(wǎng)站指出，AI“越獄”事件愈發(fā)普遍，要?dú)w因于AI技術(shù)的飛速進(jìn)步、AI工具的可獲取性日益提升，以及對(duì)未經(jīng)過(guò)濾輸出的需求不斷增長(zhǎng)等。安全專家認(rèn)為，生成式聊天機(jī)器人的易用性，使缺乏相關(guān)知識(shí)背景的普通人也能嘗試獲取危險(xiǎn)信息。

為AI設(shè)立“防護(hù)欄”

為更好地推動(dòng)AI發(fā)展，確保其安全可控，增強(qiáng)客戶信任，包括微軟和元宇宙平臺(tái)等公司在內(nèi)的科技巨頭，正竭力防止AI“越獄”。

據(jù)英國(guó)《金融時(shí)報(bào)》報(bào)道，AI初創(chuàng)公司Anthropic推出了一款名為“憲法分類器”的新系統(tǒng)，其可作為大語(yǔ)言模型的保護(hù)層，監(jiān)測(cè)輸入和輸出內(nèi)容是否存在有害信息，確保用戶免受不良信息的侵?jǐn)_。

這一解決方案基于一套被稱為“憲法”規(guī)則的體系。這些規(guī)則明確界定了信息的允許范圍與限制邊界，并可根據(jù)實(shí)際需求靈活調(diào)整，以涵蓋不同類型的材料。

為驗(yàn)證該系統(tǒng)的實(shí)效，Anthropic公司提供了15000美元的“漏洞賞金”。重賞之下，183名測(cè)試人員歷時(shí)3000多個(gè)小時(shí)，嘗試突破防御。在“憲法分類器”的保駕護(hù)航下，該公司的“克勞德3.5”模型抵御了超過(guò)95%的惡意嘗試。而在沒有這道防護(hù)網(wǎng)的情況下，該模型的拒絕率僅為14%。

無(wú)獨(dú)有偶，微軟去年3月推出了“提示詞防護(hù)盾”。這一創(chuàng)新工具能夠?qū)崟r(shí)偵測(cè)并有效阻止誘導(dǎo)AI模型“越獄”的“提示詞攻擊”。微軟還攻克了“間接提示詞輸入”這一難題，即防止黑客將惡意指令悄然插入模型的訓(xùn)練數(shù)據(jù)中，從而避免模型執(zhí)行不當(dāng)操作。

值得一提的是，微軟還推出了一項(xiàng)新功能：當(dāng)AI模型編造內(nèi)容或產(chǎn)生錯(cuò)誤反應(yīng)時(shí)，它會(huì)迅速提醒用戶。

2024年底，美國(guó)加州大學(xué)伯克利分校與元宇宙平臺(tái)公司攜手，推出了一種通用防御框架，以有效應(yīng)對(duì)策略性植入的提示詞攻擊，為AI的安全防護(hù)再添一道屏障。

技術(shù)成本有待降低

當(dāng)然，這些旨在防止AI“越獄”的技術(shù)也并非盡善盡美。

審核措施的介入可能會(huì)讓模型變得過(guò)于謹(jǐn)慎，而拒絕一些無(wú)害的請(qǐng)求。谷歌早期版本的“雙子座”AI模型以及元宇宙平臺(tái)的Llama 2就曾出現(xiàn)過(guò)這種情況。不過(guò)，Anthropic公司表示，其“憲法分類器”雖然也提高了拒絕率，但絕對(duì)值僅增加了0.38%。

《金融時(shí)報(bào)》的報(bào)道指出，“憲法分類器”在運(yùn)行過(guò)程中，會(huì)耗費(fèi)大量計(jì)算資源。這對(duì)那些已經(jīng)為訓(xùn)練和運(yùn)行模型支付巨額費(fèi)用的公司來(lái)說(shuō)，無(wú)疑是“雪上加霜”。Anthropic公司也承認(rèn)，其分類器將使運(yùn)行AI模型的成本增加近24%。

由此可見，雖然AI“越獄”防護(hù)技術(shù)在提升安全性方面發(fā)揮了重要作用，但如何在保障安全與降低成本之間找到平衡，仍需進(jìn)一步探索。

責(zé)任編輯：常麗君

中文字幕区一区二_免费欧美一区_久久精品视频免费播放_一级毛片免费的_亚洲AV永久无码天堂网毛片_免费在线影视观看入口

科企競(jìng)逐新技術(shù)以防AI“越獄”

友情鏈接

抱歉，您使用的瀏覽器版本過(guò)低或開啟了瀏覽器兼容模式，這會(huì)影響您正常瀏覽本網(wǎng)頁(yè)

您可以進(jìn)行以下操作:

1.將瀏覽器切換回極速模式

2.點(diǎn)擊下面圖標(biāo)升級(jí)或更換您的瀏覽器

3.暫不升級(jí)，繼續(xù)瀏覽