IT之家 4 月 4 日消息,科技媒體 WinBuzzer 昨日(4 月 3 日)發(fā)布博文,報道稱谷歌旗下 DeepMind 最新發(fā)布全球 AGI(通用人工智能)安全框架,呼吁在技術失控前建立跨國防護機制。
DeepMind 認為 AGI 即將落地,主張立即行動。AGI 可能將在未來數年實現(xiàn)人類級認知能力,其自主決策特性可能加速醫(yī)療、教育等領域的突破,但濫用、目標錯位等風險亦需警惕。
谷歌 DeepMind 發(fā)布《技術性 AGI 安全與保障方法》白皮書,提出應對通用人工智能(AGI)潛在風險的系統(tǒng)性方案。
IT之家援引博文介紹,報告聚焦四大風險領域(濫用、錯位、事故、結構性風險),提出通過安全機制設計、透明化研究及行業(yè)協(xié)作降低危害。
而目標錯位是 AGI 核心風險之一。當 AI 為完成任務采取非常規(guī)手段(如入侵訂票系統(tǒng)獲取座位),即產生與人類意圖的偏差。DeepMind 通過“放大監(jiān)督”技術訓練 AI 識別正確目標,并利用 AI 自評(如辯論機制)提升復雜場景下的判斷力。
DeepMind 提出的國際安全框架摒棄抽象倫理討論,聚焦技術快速演進中的實際問題,包括組建類似核不擴散條約的跨國評估機構、設立國家級 AI 風險監(jiān)測中心等。
谷歌 DeepMind 提出強化技術研究、部署預警系統(tǒng)、通過國際機構協(xié)調治理三大支柱方案,強調當前亟需限制 AI 網絡攻擊等危險能力。
DeepMind 的倡議并非孤立行動。競爭對手 Anthropic 于 2024 年 11 月警告需在 18 個月內遏制 AI 失控,并設置能力閾值觸發(fā)保護機制;Meta 在 2025 年 2 月推出《前沿 AI 框架》,停止公開高危模型。
安全防護已延伸至硬件領域。英偉達 2025 年 1 月推出 NeMo Guardrails 微服務套件,實時攔截有害輸出,目前應用于醫(yī)療、汽車等行業(yè)。