谷歌DeepMind的研究人員指出,惡意網路內容可用於操縱、欺騙和利用自主運作的AI代理。

研究人員發現了六種針對AI代理的攻擊類型,這些攻擊可以透過網路內容注入惡意上下文並觸發異常行為。

他們在研究論文中解釋說,網路內容允許攻擊者設置“AI代理陷阱”,利用代理自身的能力來攻擊自身,從而使攻擊者能夠推廣產品、竊取資料或大規模傳播資訊。

研究人員表示,這些旨在誤導或利用互動AI代理的內容元素可以嵌入網頁或其他數位資源中,並且可以「根據代理的指令執行能力、工具鏈運用能力和目標優先排序能力進行調整」。

谷歌DeepMind發現的這六類攻擊已被納入一個框架,該框架將攻擊分為內容注入、語義操縱、認知狀態、行為控制、系統性陷阱和人機互動陷阱。

這些陷阱利用人類可見的渲染和機器解析的內容之間的差距來注入隱藏的命令,操縱輸入資料分佈來破壞智能體的推理,破壞智能體的長期記憶,使用顯式命令來針對指令遵循能力,使用精心設計的輸入來觸發宏觀層面的故障,並利用認知偏差來使智能體與人類監督者對抗。

在內容注入方面,攻擊者可以利用隱藏在 HTML 註解或元資料屬性中的指令,透過 JavaScript 或資料庫呼叫動態注入陷阱,或利用隱寫術或格式化語言的語法隱藏陷阱。

語意操縱陷阱依賴精心選擇的語言,操縱智能體產生認知偏差,攻擊智能體用於過濾有害或不匹配輸出的驗證機制,或將智能體的個性描述回饋給智能體以改變其行為。

為了破壞智能體的長期記憶,認知狀態陷阱會污染智能體使用的外在資源,將資料注入內部儲存(例如持久性日誌),或利用精心設計的環境互動來改變智能體的策略。

行為控制陷阱旨在利用嵌入外部資源中的越獄漏洞來攻擊智能體的指令執行能力,脅迫智能體通過不受信任的輸入洩露特權信息,或者脅迫智能體生成被入侵的子智能體,這些子智能體擁有智能體的權限,但服務於攻擊者的利益。

系統性陷阱旨在利用運作在同一環境中的多個智能體的整體行為,將智慧體間的動態特性(例如同質性、順序偶然性、行為同步和協作)武器化。攻擊者也可以使用化名來破壞網路系統的信任假設和共識機制。

谷歌DeepMind的研究人員表示,人機互動陷阱可用來控制智慧體攻擊人類使用者。例如,不可見的提示注入可用於誘騙智能體重複執行勒索軟體指令,將其作為修復指令。

研究人員指出:“緩解智能體陷阱的威脅需要應對複雜且不斷演變的對抗環境。這些陷阱至少帶來三個相互關聯的挑戰:檢測、歸因和適應。”

他們提出的解決方案包括技術防禦措施,例如透過訓練資料增強來強化底層模型並部署運行時防禦;改善數位生態系統的安全性;建立內容治理框架;以及創建標準基準來識別這些威脅。

研究人員指出:“保護智能體免受環境操縱是一項基礎性挑戰,需要開發人員、安全研究人員和政策制定者之間持續合作,並製定標準化的評估基準。解決這一問題是實現可信賴的智能體生態系統效益的先決條件。”