DraftNEPABench 测试了哪些具体任务?

测试涵盖 18 个联邦机构的 NEPA 文档章节起草任务,共 102 项,包括环境影响陈述(Environmental Impact Statements)等文档的结构化撰写、跨文档事实核验、符合法规要求的报告生成等。评估标准包括结构、清晰度、准确性和引用规范。

15% 的效率提升意味着什么?

根据原文,AI 可将每个子章节的起草时间缩短 1-5 小时,相当于约 15% 的起草工作量减少。这属于辅助级提效,主要价值在于释放专家时间用于判断和决策,而非完全替代人工。实际部署中,配合专家反馈迭代,效果可能进一步提升。

为什么用编码代理而不是 ChatGPT 式对话?

编码代理通过命令行接口(CLI)可直接操作文件系统,更适合处理数百页多文档分析、跨源核验和结构化输出任务。原文提到这种方式能更有效从推理模型(如 GPT-5)中提取性能,采用通用策略而非手工规则,这在政务等高结构化场景中可能更可靠。

该技术能直接用于中国政府审批吗?

技术路径有参考价值,但需注意:1)中国法规体系、文档格式与美国不同,需重新训练或微调;2)原文明确指出模型依赖完整、准确的源材料,若资料过时或矛盾可能无法自动识别;3)涉及政务数据需符合国内数据安全和保密要求。建议先在非敏感场景试点。

资讯应用与案例·2026年2月26日·来源: OpenAI·原文 →

OpenAI 与美国能源部实验室合作：用 AI 编码代理加速联邦基建审批

OpenAI 与美国能源部太平洋西北国家实验室(PNNL)合作,开发 DraftNEPABench 基准测试,评估 AI 编码代理在联邦环境审查文件起草中的表现。19 位专家测试显示,AI 可将单节起草时间缩短 1-5 小时,约减少 15% 工作量,为政府复杂工作流提供新思路。

[广告位 · 上线后接 AdSense]

AI 编码代理获美国官方认证

OpenAI 搞了个大动作！联手美国能源部旗下太平洋西北国家实验室(PNNL)，要用 AI 编码代理给联邦审批流程"瘦身"。

这次合作瞄准的是美国《国家环境政策法》(NEPA)审查这块硬骨头。简单说就是修桥铺路建电厂前，得先过环保审查这关。传统流程光文件就能堆成山，各部门来回踢皮球，一个项目卡上好几年都是常事。

首份政府AI"上岗证"出炉

PNNL 的 PermitAI 团队可不是吃素的，拉上 OpenAI 和 19 位审批老炮儿，整出了个叫 DraftNEPABench 的测试标准。这套标准囊括了 18 个联邦部门 的审批文档，足足 102 项 典型任务。

实测结果够顶：AI 代理平均能给每份文件省下 1-5 小时，整体效率提升 15%。评分采用 1-5 分制，从格式规范到专业术语，考得那叫一个细致。

为啥不用聊天AI？

OpenAI 这次祭出的是 Codex CLI 编码代理，而不是常见的对话机器人。这波操作有三重考量：

文件处理王：直接啃得动几百页的技术文档
交叉验证狂魔：能在环保、工程、法律文件之间反复横跳
格式强迫症：生成的报告完全符合官方标准

说白了，编码代理就像个超级文员，特别适合这种需要同时处理多份文件、严格按格式输出的政务场景。

能力与局限五五开

真本事：

百页文档秒变精华摘要
自动生成可视化图表，人类审核更轻松
在明确规则下，输出质量堪比专业文书

短板： OpenAI 自己也承认，测试场景都是"开卷考"。现实中经常遇到文件过期或标准打架的情况，AI 目前还不会主动喊停。不过团队发现，有些锅其实该甩给混乱的原始材料。

对中国政务的启发

这波操作给国内数字政府建设打了个样：

技术选型：需要处理复杂文件的政务场景，编码代理可能比聊天AI更靠谱
人机配合：AI 当学霸整理资料，人类专家做最终判断
测试先行：上线前先让领域专家把把关，摸清AI的能力边界

下一步怎么走

OpenAI 和 PNNL 还要继续优化 PermitAI。虽然没给出具体时间表，但放话说要把审批周期从几个月压缩到几周。这项目属于 OpenAI 的政府服务计划，看来除了赚钱，他们也想在公共服务领域刷存在感。

本文基于 OpenAI 报道, 由 AiDuo123 AI 编辑翻译改写。原文链接: https://openai.com/index/pacific-northwest-national-laboratory

常见问题

DraftNEPABench 测试了哪些具体任务?: 测试涵盖 18 个联邦机构的 NEPA 文档章节起草任务,共 102 项,包括环境影响陈述(Environmental Impact Statements)等文档的结构化撰写、跨文档事实核验、符合法规要求的报告生成等。评估标准包括结构、清晰度、准确性和引用规范。
15% 的效率提升意味着什么?: 根据原文,AI 可将每个子章节的起草时间缩短 1-5 小时,相当于约 15% 的起草工作量减少。这属于辅助级提效,主要价值在于释放专家时间用于判断和决策,而非完全替代人工。实际部署中,配合专家反馈迭代,效果可能进一步提升。
为什么用编码代理而不是 ChatGPT 式对话?: 编码代理通过命令行接口(CLI)可直接操作文件系统,更适合处理数百页多文档分析、跨源核验和结构化输出任务。原文提到这种方式能更有效从推理模型(如 GPT-5)中提取性能,采用通用策略而非手工规则,这在政务等高结构化场景中可能更可靠。
该技术能直接用于中国政府审批吗?: 技术路径有参考价值,但需注意:1)中国法规体系、文档格式与美国不同,需重新训练或微调;2)原文明确指出模型依赖完整、准确的源材料,若资料过时或矛盾可能无法自动识别;3)涉及政务数据需符合国内数据安全和保密要求。建议先在非敏感场景试点。

[广告位 · 上线后接 AdSense]

标签:#OpenAI

相关 AI 工具

文中提到或相关的 AI 工具 — 点进去看适合谁、怎么用、值不值得折腾

浏览全部工具 →

Gemini

精选

对话与助手

Google 推出的多模态 AI 助手,深度集成 Google Drive / Workspace / YouTube。Gemini 2.5 Pro 上下文最高 2M tokens,Veo 3 可生成高质量视频。

提供 API多模态移动端+2

免费增值免费版 + Advanced $20/月(含 2…

Claude

精选

对话与助手

Anthropic 推出的 AI 助手,以长上下文(200K tokens)、对复杂任务的细腻理解、Artifacts 可视化输出闻名。Claude Sonnet 4.5 / Opus 4.7 在编程、写作、推理多项基准上领先。

提供 API移动端中文支持+2

免费增值免费版 + Pro $20/月 + Max $1…

Cursor

精选

编程与开发

AI-first 代码编辑器,基于 VS Code 构建,深度集成 Claude / GPT-4o 等模型。Composer 多文件编辑、Tab 自动补全、Agent 模式三大杀手锏。

提供 APIClaude 驱动热门+1

免费增值免费版 2000 次补全 + Pro $20/月

同类资讯 — 由发布时间排序

美国政府禁令下架Anthropic两款新模型业内质疑反效应

美国政府上周末以国家安全为由,要求Anthropic下架其最新发布的Fable 5和Mythos 5两款模型,起因是亚马逊研究人员据称发现了绕过Fable 5安全防护的方法。此举引发网络安全研究人员联名公开信抗议,认为此举存在危险性,而Anthropic本身也指出同类越狱漏洞在其他模型中同样存在。

政策与安全2026/06/19Anthropic

美国政府叫停 Anthropic Fable 5 发布但市场反应平淡

美国政府上周末以国家安全为由,要求 Anthropic 撤回其最新模型 Fable 5 和 Mythos 5,起因是亚马逊研究人员发现了绕过 Fable 5 安全防护栏的方法。网络安全研究者随后联名发公开信质疑此举,Anthropic 也指出同类越狱漏洞在其他模型中同样存在,引发行业对监管标准的讨论。

政策与安全2026/06/19Anthropic

Anthropic CEO 谈印度 AI 峰会言论遭断章取义:完整视频揭示真实意图

Anthropic CEO Dario Amodei 在印度 AI 峰会的发言片段在社交媒体疯传,被指批评活动"极度混乱"。但完整视频显示,他实际是在肯定这种"混乱"是创新领域的积极特征,认为完美组织反而意味着缺乏突破。这一事件再次凸显断章取义视频在网络传播中的误导性,以及核实完整信息源的重要性。

行业动态2026/06/19Anthropic

Gemini Live 现已支持访问聊天记忆功能

谷歌 Gemini Live 语音助手新增访问用户历史聊天记忆(Memory)的能力。这项更新使语音交互能够调用用户过往对话中的上下文信息,提升连续对话体验的个性化与连贯性,对需要长期语音助手陪伴的场景具有实用价值。

模型与产品2026/06/18谷歌

← 浏览全部资讯