OpenAI 与美国能源部实验室合作:用 AI 编码代理加速联邦基建审批
OpenAI 与美国能源部太平洋西北国家实验室(PNNL)合作,开发 DraftNEPABench 基准测试,评估 AI 编码代理在联邦环境审查文件起草中的表现。19 位专家测试显示,AI 可将单节起草时间缩短 1-5 小时,约减少 15% 工作量,为政府复杂工作流提供新思路。
AI 编码代理获美国官方认证
OpenAI 搞了个大动作!联手美国能源部旗下太平洋西北国家实验室(PNNL),要用 AI 编码代理给联邦审批流程"瘦身"。
这次合作瞄准的是美国《国家环境政策法》(NEPA)审查这块硬骨头。简单说就是修桥铺路建电厂前,得先过环保审查这关。传统流程光文件就能堆成山,各部门来回踢皮球,一个项目卡上好几年都是常事。
首份政府AI"上岗证"出炉
PNNL 的 PermitAI 团队可不是吃素的,拉上 OpenAI 和 19 位审批老炮儿,整出了个叫 DraftNEPABench 的测试标准。这套标准囊括了 18 个联邦部门 的审批文档,足足 102 项 典型任务。
实测结果够顶:AI 代理平均能给每份文件省下 1-5 小时,整体效率提升 15%。评分采用 1-5 分制,从格式规范到专业术语,考得那叫一个细致。
为啥不用聊天AI?
OpenAI 这次祭出的是 Codex CLI 编码代理,而不是常见的对话机器人。这波操作有三重考量:
- 文件处理王:直接啃得动几百页的技术文档
- 交叉验证狂魔:能在环保、工程、法律文件之间反复横跳
- 格式强迫症:生成的报告完全符合官方标准
说白了,编码代理就像个超级文员,特别适合这种需要同时处理多份文件、严格按格式输出的政务场景。
能力与局限五五开
真本事:
- 百页文档秒变精华摘要
- 自动生成可视化图表,人类审核更轻松
- 在明确规则下,输出质量堪比专业文书
短板: OpenAI 自己也承认,测试场景都是"开卷考"。现实中经常遇到文件过期或标准打架的情况,AI 目前还不会主动喊停。不过团队发现,有些锅其实该甩给混乱的原始材料。
对中国政务的启发
这波操作给国内数字政府建设打了个样:
- 技术选型:需要处理复杂文件的政务场景,编码代理可能比聊天AI更靠谱
- 人机配合:AI 当学霸整理资料,人类专家做最终判断
- 测试先行:上线前先让领域专家把把关,摸清AI的能力边界
下一步怎么走
OpenAI 和 PNNL 还要继续优化 PermitAI。虽然没给出具体时间表,但放话说要把审批周期从几个月压缩到几周。这项目属于 OpenAI 的政府服务计划,看来除了赚钱,他们也想在公共服务领域刷存在感。
本文基于 OpenAI 报道, 由 AiDuo123 AI 编辑翻译改写。原文链接: https://openai.com/index/pacific-northwest-national-laboratory
常见问题
- DraftNEPABench 测试了哪些具体任务?
- 测试涵盖 18 个联邦机构的 NEPA 文档章节起草任务,共 102 项,包括环境影响陈述(Environmental Impact Statements)等文档的结构化撰写、跨文档事实核验、符合法规要求的报告生成等。评估标准包括结构、清晰度、准确性和引用规范。
- 15% 的效率提升意味着什么?
- 根据原文,AI 可将每个子章节的起草时间缩短 1-5 小时,相当于约 15% 的起草工作量减少。这属于辅助级提效,主要价值在于释放专家时间用于判断和决策,而非完全替代人工。实际部署中,配合专家反馈迭代,效果可能进一步提升。
- 为什么用编码代理而不是 ChatGPT 式对话?
- 编码代理通过命令行接口(CLI)可直接操作文件系统,更适合处理数百页多文档分析、跨源核验和结构化输出任务。原文提到这种方式能更有效从推理模型(如 GPT-5)中提取性能,采用通用策略而非手工规则,这在政务等高结构化场景中可能更可靠。
- 该技术能直接用于中国政府审批吗?
- 技术路径有参考价值,但需注意:1)中国法规体系、文档格式与美国不同,需重新训练或微调;2)原文明确指出模型依赖完整、准确的源材料,若资料过时或矛盾可能无法自动识别;3)涉及政务数据需符合国内数据安全和保密要求。建议先在非敏感场景试点。
相关 AI 工具
文中提到或相关的 AI 工具 — 点进去看适合谁、怎么用、值不值得折腾
Gemini
精选对话与助手
Google 推出的多模态 AI 助手,深度集成 Google Drive / Workspace / YouTube。Gemini 2.5 Pro 上下文最高 2M tokens,Veo 3 可生成高质量视频。
Claude
精选对话与助手
Anthropic 推出的 AI 助手,以长上下文(200K tokens)、对复杂任务的细腻理解、Artifacts 可视化输出闻名。Claude Sonnet 4.5 / Opus 4.7 在编程、写作、推理多项基准上领先。
Cursor
精选编程与开发
AI-first 代码编辑器,基于 VS Code 构建,深度集成 Claude / GPT-4o 等模型。Composer 多文件编辑、Tab 自动补全、Agent 模式三大杀手锏。
相关推荐
同类资讯 — 由发布时间排序

美国政府禁令下架Anthropic两款新模型 业内质疑反效应
美国政府上周末以国家安全为由,要求Anthropic下架其最新发布的Fable 5和Mythos 5两款模型,起因是亚马逊研究人员据称发现了绕过Fable 5安全防护的方法。此举引发网络安全研究人员联名公开信抗议,认为此举存在危险性,而Anthropic本身也指出同类越狱漏洞在其他模型中同样存在。

美国政府叫停 Anthropic Fable 5 发布 但市场反应平淡
美国政府上周末以国家安全为由,要求 Anthropic 撤回其最新模型 Fable 5 和 Mythos 5,起因是亚马逊研究人员发现了绕过 Fable 5 安全防护栏的方法。网络安全研究者随后联名发公开信质疑此举,Anthropic 也指出同类越狱漏洞在其他模型中同样存在,引发行业对监管标准的讨论。

Anthropic CEO 谈印度 AI 峰会言论遭断章取义:完整视频揭示真实意图
Anthropic CEO Dario Amodei 在印度 AI 峰会的发言片段在社交媒体疯传,被指批评活动"极度混乱"。但完整视频显示,他实际是在肯定这种"混乱"是创新领域的积极特征,认为完美组织反而意味着缺乏突破。这一事件再次凸显断章取义视频在网络传播中的误导性,以及核实完整信息源的重要性。

Gemini Live 现已支持访问聊天记忆功能
谷歌 Gemini Live 语音助手新增访问用户历史聊天记忆(Memory)的能力。这项更新使语音交互能够调用用户过往对话中的上下文信息,提升连续对话体验的个性化与连贯性,对需要长期语音助手陪伴的场景具有实用价值。