4 月 3 日,科技媒体 WinBuzzer 发布博文称,谷歌旗下 DeepMind 发布了全球首个 AGI(通用人工智能)安全框架,并呼吁在技术失控前建立跨国防护机制。AGI 预计在未来数年具备人类级认知能力,能在医疗、教育等领域带来突破,但也伴随着滥用、目标错位等风险。
为此,谷歌 DeepMind 发布《技术性 AGI 安全与保障方法》白皮书,提出了应对通用人工智能(AGI)潜在风险的系统性方案。报告聚焦在滥用、错位、事故、结构性风险这四大风险领域,建议通过安全机制设计、透明化研究及行业协作等手段降低危害。
在应对风险的具体措施上,DeepMind 采用 “放大监督” 技术训练 AI,使其能精准识别正确目标,还引入 AI 自评,如辩论机制,提升 AI 在复杂场景下的判断力。
此外,DeepMind 提出的国际安全框架抛开了抽象的伦理探讨,而是聚焦技术快速发展中出现的实际问题,例如组建类似核不扩散条约的跨国评估机构,以及设立国家级 AI 风险监测中心等。谷歌 DeepMind 提出了强化技术研究、部署预警系统、借助国际机构协调治理这三大支柱方案,同时强调当下急需限制 AI 网络攻击等危险能力。
值得一提的是,英伟达在 2025 年 1 月推出 NeMo Guardrails 微服务套件,能实时拦截有害输出,目前已在医疗、汽车等行业得到应用。
暂无评论内容