亡灵法师小说,星辰变有声小说,完结官场小说排行榜

谷歌拉響通用人工智能警報，首次公開AI安全防御藍圖

IT之家

2025-04-04 12:10:49

IT之家 4 月 4 日消息，科技媒體 WinBuzzer 昨日（4 月 3 日）發(fā)布博文，報道稱谷歌旗下 DeepMind 最新發(fā)布全球 AGI（通用人工智能）安全框架，呼吁在技術失控前建立跨國防護機制。

DeepMind 認為 AGI 即將落地，主張立即行動。AGI 可能將在未來數年實現(xiàn)人類級認知能力，其自主決策特性可能加速醫(yī)療、教育等領域的突破，但濫用、目標錯位等風險亦需警惕。

谷歌 DeepMind 發(fā)布《技術性 AGI 安全與保障方法》白皮書，提出應對通用人工智能（AGI）潛在風險的系統(tǒng)性方案。

IT之家援引博文介紹，報告聚焦四大風險領域（濫用、錯位、事故、結構性風險），提出通過安全機制設計、透明化研究及行業(yè)協(xié)作降低危害。

而目標錯位是 AGI 核心風險之一。當 AI 為完成任務采取非常規(guī)手段（如入侵訂票系統(tǒng)獲取座位），即產生與人類意圖的偏差。DeepMind 通過“放大監(jiān)督”技術訓練 AI 識別正確目標，并利用 AI 自評（如辯論機制）提升復雜場景下的判斷力。

DeepMind 提出的國際安全框架摒棄抽象倫理討論，聚焦技術快速演進中的實際問題，包括組建類似核不擴散條約的跨國評估機構、設立國家級 AI 風險監(jiān)測中心等。

谷歌 DeepMind 提出強化技術研究、部署預警系統(tǒng)、通過國際機構協(xié)調治理三大支柱方案，強調當前亟需限制 AI 網絡攻擊等危險能力。

DeepMind 的倡議并非孤立行動。競爭對手 Anthropic 于 2024 年 11 月警告需在 18 個月內遏制 AI 失控，并設置能力閾值觸發(fā)保護機制；Meta 在 2025 年 2 月推出《前沿 AI 框架》，停止公開高危模型。

安全防護已延伸至硬件領域。英偉達 2025 年 1 月推出 NeMo Guardrails 微服務套件，實時攔截有害輸出，目前應用于醫(yī)療、汽車等行業(yè)。

无码中文字幕av免费放