资讯应用与案例··来源: OpenAI·原文 →

OpenAI 与美国能源部实验室合作:用 AI 编码代理加速联邦基建审批

OpenAI 与美国能源部太平洋西北国家实验室(PNNL)合作,开发 DraftNEPABench 基准测试,评估 AI 编码代理在联邦环境审查文件起草中的表现。19 位专家测试显示,AI 可将单节起草时间缩短 1-5 小时,约减少 15% 工作量,为政府复杂工作流提供新思路。

OpenAI 与美国能源部实验室合作:用 AI 编码代理加速联邦基建审批
[广告位 · 上线后接 AdSense]

AI 编码代理获美国官方认证

OpenAI 搞了个大动作!联手美国能源部旗下太平洋西北国家实验室(PNNL),要用 AI 编码代理给联邦审批流程"瘦身"。

这次合作瞄准的是美国《国家环境政策法》(NEPA)审查这块硬骨头。简单说就是修桥铺路建电厂前,得先过环保审查这关。传统流程光文件就能堆成山,各部门来回踢皮球,一个项目卡上好几年都是常事。

首份政府AI"上岗证"出炉

PNNL 的 PermitAI 团队可不是吃素的,拉上 OpenAI 和 19 位审批老炮儿,整出了个叫 DraftNEPABench 的测试标准。这套标准囊括了 18 个联邦部门 的审批文档,足足 102 项 典型任务。

实测结果够顶:AI 代理平均能给每份文件省下 1-5 小时,整体效率提升 15%。评分采用 1-5 分制,从格式规范到专业术语,考得那叫一个细致。

为啥不用聊天AI?

OpenAI 这次祭出的是 Codex CLI 编码代理,而不是常见的对话机器人。这波操作有三重考量:

  • 文件处理王:直接啃得动几百页的技术文档
  • 交叉验证狂魔:能在环保、工程、法律文件之间反复横跳
  • 格式强迫症:生成的报告完全符合官方标准

说白了,编码代理就像个超级文员,特别适合这种需要同时处理多份文件、严格按格式输出的政务场景。

能力与局限五五开

真本事

  • 百页文档秒变精华摘要
  • 自动生成可视化图表,人类审核更轻松
  • 在明确规则下,输出质量堪比专业文书

短板: OpenAI 自己也承认,测试场景都是"开卷考"。现实中经常遇到文件过期标准打架的情况,AI 目前还不会主动喊停。不过团队发现,有些锅其实该甩给混乱的原始材料。

对中国政务的启发

这波操作给国内数字政府建设打了个样:

  1. 技术选型:需要处理复杂文件的政务场景,编码代理可能比聊天AI更靠谱
  2. 人机配合:AI 当学霸整理资料,人类专家做最终判断
  3. 测试先行:上线前先让领域专家把把关,摸清AI的能力边界

下一步怎么走

OpenAI 和 PNNL 还要继续优化 PermitAI。虽然没给出具体时间表,但放话说要把审批周期从几个月压缩到几周。这项目属于 OpenAI 的政府服务计划,看来除了赚钱,他们也想在公共服务领域刷存在感。


本文基于 OpenAI 报道, 由 AiDuo123 AI 编辑翻译改写。原文链接: https://openai.com/index/pacific-northwest-national-laboratory

常见问题

DraftNEPABench 测试了哪些具体任务?
测试涵盖 18 个联邦机构的 NEPA 文档章节起草任务,共 102 项,包括环境影响陈述(Environmental Impact Statements)等文档的结构化撰写、跨文档事实核验、符合法规要求的报告生成等。评估标准包括结构、清晰度、准确性和引用规范。
15% 的效率提升意味着什么?
根据原文,AI 可将每个子章节的起草时间缩短 1-5 小时,相当于约 15% 的起草工作量减少。这属于辅助级提效,主要价值在于释放专家时间用于判断和决策,而非完全替代人工。实际部署中,配合专家反馈迭代,效果可能进一步提升。
为什么用编码代理而不是 ChatGPT 式对话?
编码代理通过命令行接口(CLI)可直接操作文件系统,更适合处理数百页多文档分析、跨源核验和结构化输出任务。原文提到这种方式能更有效从推理模型(如 GPT-5)中提取性能,采用通用策略而非手工规则,这在政务等高结构化场景中可能更可靠。
该技术能直接用于中国政府审批吗?
技术路径有参考价值,但需注意:1)中国法规体系、文档格式与美国不同,需重新训练或微调;2)原文明确指出模型依赖完整、准确的源材料,若资料过时或矛盾可能无法自动识别;3)涉及政务数据需符合国内数据安全和保密要求。建议先在非敏感场景试点。
[广告位 · 上线后接 AdSense]
标签:#OpenAI

相关 AI 工具

文中提到或相关的 AI 工具 — 点进去看适合谁、怎么用、值不值得折腾

浏览全部工具 →

同类资讯 — 由发布时间排序

美国政府禁令下架Anthropic两款新模型 业内质疑反效应

美国政府禁令下架Anthropic两款新模型 业内质疑反效应

美国政府上周末以国家安全为由,要求Anthropic下架其最新发布的Fable 5和Mythos 5两款模型,起因是亚马逊研究人员据称发现了绕过Fable 5安全防护的方法。此举引发网络安全研究人员联名公开信抗议,认为此举存在危险性,而Anthropic本身也指出同类越狱漏洞在其他模型中同样存在。

政策与安全Anthropic
美国政府叫停 Anthropic Fable 5 发布 但市场反应平淡

美国政府叫停 Anthropic Fable 5 发布 但市场反应平淡

美国政府上周末以国家安全为由,要求 Anthropic 撤回其最新模型 Fable 5 和 Mythos 5,起因是亚马逊研究人员发现了绕过 Fable 5 安全防护栏的方法。网络安全研究者随后联名发公开信质疑此举,Anthropic 也指出同类越狱漏洞在其他模型中同样存在,引发行业对监管标准的讨论。

政策与安全Anthropic
Anthropic CEO 谈印度 AI 峰会言论遭断章取义:完整视频揭示真实意图

Anthropic CEO 谈印度 AI 峰会言论遭断章取义:完整视频揭示真实意图

Anthropic CEO Dario Amodei 在印度 AI 峰会的发言片段在社交媒体疯传,被指批评活动"极度混乱"。但完整视频显示,他实际是在肯定这种"混乱"是创新领域的积极特征,认为完美组织反而意味着缺乏突破。这一事件再次凸显断章取义视频在网络传播中的误导性,以及核实完整信息源的重要性。

行业动态Anthropic
Gemini Live 现已支持访问聊天记忆功能

Gemini Live 现已支持访问聊天记忆功能

谷歌 Gemini Live 语音助手新增访问用户历史聊天记忆(Memory)的能力。这项更新使语音交互能够调用用户过往对话中的上下文信息,提升连续对话体验的个性化与连贯性,对需要长期语音助手陪伴的场景具有实用价值。

模型与产品谷歌