OpenAI o4 提高期望但日常工作仍感手动

Olivia Johnson
15小时前
讀畢需時 9 分鐘

OpenAI 发布了 o4，其性能提升给早期测试者留下了深刻印象。团队仍报告相同的流程：复制文件、确认上下文以及双重检查输出。

openai o4 工作流并未消除这些步骤。许多用户表示，该模型在单任务上更快，但周边的交接环节保持不变。

OpenAI o4 提供更大的上下文窗口和更强的推理链。 这些升级针对的是孤立的瓶颈，而非知识工作的完整链条。

模型增益仍局限于狭窄范围

OpenAI 将 o4 定位为多步推理的进步。内部基准测试显示，与 o3 相比，复杂提示的准确性有所提高。

这些增益聚焦于单会话性能。它们未触及更广泛的工作流。公司仍通过独立的审查、格式化和分发阶段来处理输出。

早期访问用户指出，技术查询的幻觉现象减少。 同一批用户表示，在输入提示前，仍需手动从电子邮件讨论和共享驱动器中提取数据。

真实世界测试显示，这些改进在受控环境中表现突出。一家中型初创公司的软件工程团队使用 o4 调试包含 50,000 行的遗留代码库。该模型在 78% 的试验中正确识别边缘案例故障，高于 o3 的 61%。然而，同一批工程师平均每会话花费 22 分钟，从 Git 仓库和 Notion 页面中定位相关代码片段、提交历史和 API 文档。

运行内部试点的企业报告了类似模式。一家制药研究团队应用 o4 分析临床试验摘要。监管合规问题的准确性明显上升。该模型能够将多项研究的结果串联起来而不失连贯性。然而，分析师仍需手动从分散的电子实验笔记本和监管数据库中提取试验数据，然后构建每个提示。

这些狭窄的收益凸显了一个根本的设计选择。OpenAI 将 o4 优化为在单个对话窗口内进行更深入的推理，而不是实现跨组织数据源的无缝集成。其结果是一个在材料到达后擅长综合的模型，但对上游收集过程几乎没有帮助，这与 OpenAI 推理模型技术概览中描述的架构一致。

对基准数据的进一步检查显示，当输入上下文已经过整理且连贯时，o4 表现优异。当研究人员引入噪声（如混合文件格式或矛盾的时间戳）时，准确率下降了近二十个百分点。这种敏感性强调该模型偏好干净、预处理过的输入——这一期望很少与大多数企业信息的实际存储方式相符。

法律部门的额外生产测试显示，即使是结构化的合同存储库，也需要大量手动整理，o4 才能可靠地标记合规风险。律师助理平均每份协议花费约十四分钟来汇编相关条款和之前的谈判记录，之后模型在不到一分钟内完成分析。这种时间不对称表明，生成速度制造了整体加速的错觉，而上游汇编仍是主要成本。

教育行业的试点强化了这一模式。大学研究小组在文献综述上测试 o4 时，一旦 PDF 手动上传，合成同行评审文章的速度更快，但从图书馆数据库定位和转换引用的过程消耗了项目的大部分时间。一个实验室报告称，该模型将写作时间减少了 40%，但准备时间增加了 25%，对总吞吐量产生净中性影响。

日常工作模式保持稳定

知识工作者继续跨工具拼凑上下文。一位金融分析师描述了运行 o4 获取模型输出，然后手动将结果复制到电子表格中的过程。

这一模式与产品团队的报告相符。他们使用该模型起草章节，然后将这些章节重新格式化以适应内部 wiki。

openai o4 工作流提高了聊天窗口内的生成速度。 它并未改变收集源材料或将完成的工作移入其他系统所需的步骤。

一个典型的市场营销工作流说明了这一差距。一位内容策略师首先搜索 Slack 存档以获取过去活动的指标。然后从 Google Analytics 提取性能数据，并从 Zendesk 获取客户反馈。只有在汇编这些片段后，她才将它们粘贴到 o4 中生成草稿消息。该模型在几秒钟内生成精炼文案。策略师仍需将草稿导出到 Google Docs，应用品牌指南，并通过 Asana 中的单独审批工作流进行传阅。

销售团队遇到类似的摩擦。代表们使用 o4 生成个性化外联序列。他们报告称初稿质量更高。但在每次生成会话前，他们仍需从多个系统导出 CRM 笔记、会议录音和提案模板。一位客户主管在两周内跟踪了自己的时间，发现其 o4 相关工作中 41% 用于数据汇编，而非提示工程或输出精炼。

这些模式之所以持续，是因为大多数组织将 AI 模型视为点解决方案，而非工作流参与者。缺乏持久的跨平台记忆迫使反复进行手动交接。即使 o4 高效处理推理任务，电子邮件、云存储、聊天平台和项目管理工具组成的周边生态系统仍保持不变。

来自管理 Figma、Dropbox 和品牌门户中营销活动资产的设计团队的额外证据。设计师报告称，平均每个提示花费十九分钟仅用于查找批准的调色板和过去的迭代文件。一旦材料到达 o4，生成步骤在三十秒内完成，说明瓶颈只是向上游转移而非消失。

客户支持运营在规模上揭示了相同的动态。代理利用 o4 起草对复杂工单的响应，但仍需在 Zendesk、内部知识库和通话记录之间切换以编译准确的案例历史。跟踪一百次支持交互的数据显示，上下文收集消耗的时间是模型生成阶段本身的三倍。

持续的手动步骤限制影响

核心矛盾仍然是上下文所有权。o4 改善了材料到达模型后发生的事情。它将收集、验证和传输留给用户。

已经维护结构化档案的团队摩擦较小。没有此类档案的团队继续在每次新提示前花费时间查找先前的决策。

这种分歧解释了为什么标题式改进并未直接转化为更短的工作日。 模型处理链条的一个环节，而前后环节仍为手动。

考虑两家咨询公司的差异。A 公司维护一个集中式知识库，包含带标签的项目历史和标准化数据模式。当顾问调用 o4 时，他们在三分钟内检索到结构化上下文。B 公司将项目工件临时存储在电子邮件、SharePoint 和个人驱动器中。其顾问平均每个提示花费 17 分钟仅用于查找相关文件。同一模型产生相当的输出质量，但端到端时间节省差异显著。

这种差异制造了竞争压力。拥有成熟数据卫生实践的组织从 o4 中获取更多价值。那些信息系统碎片化的组织仅体验到边际生产力提升。除非企业在部署先进模型前投资于底层数据基础设施，否则差距可能会随时间扩大。

企业集成挑战

OpenAI 尚未发布常见企业工具的原生连接器详情。没有这些连接器，工作流差距依然很大。

第三方集成可能会缩小部分差距。其有效性将取决于它们拉取和推送结构化数据的干净程度。

需要关注的三种信号是连接器发布、带有量化时间节省的企业案例研究，以及捆绑捕获与交付的竞争代理框架。

许多组织正在评估位于 o4 与内部系统之间的中间件平台。这些工具尝试通过对 Slack、Google Workspace 和 Salesforce 的 API 调用来自动化上下文检索。早期采用者报告称效果参差不齐。诸如拉取最新季度结果之类的简单查询可以可靠地自动化。而需要对文档相关性进行判断的复杂查询仍需人工监督。

法律与合规团队对集成风险尤为直言不讳。他们担心自动化数据拉取可能会无意中将机密信息暴露给模型。一些公司已实施严格的提示清理工作流，这在生成开始前又增加了更多手动步骤。最终结果是，集成复杂性可能会抵消模型性能的提升。

采购部门进一步使推广复杂化，因为他们要求在批准新 AI 工具前提供详细的数据处理附录和供应商安全问卷。这些管理层级往往将评估时间从数周延长至数月，从而减缓了团队在正确连接后测试 o4 是否真正减少工作量的速度，详情见 OpenAI’s enterprise security documentation。

Comparing o4 to Competing Models in Production Environments

虽然 o4 在某些推理基准上领先，但 Claude 3.5 Sonnet 和 Gemini 1.5 Pro 等竞争产品在日常使用中表现出不同的权衡。Claude 通常在较长输出中保持格式一致性，从而减少在 Google Docs 中的重新格式化时间。Gemini 与 Google Workspace 的集成更流畅，每次数据导出步骤可节省数秒。因此，评估总工作流时间的团队必须权衡原始准确性与这些辅助效率，而非仅关注模型排行榜。

一家物流公司进行的跨模型试点显示，在项目中途切换提供商会引入额外的上下文丢失，因为对话历史无法干净地转移。重新解释项目约束的开销有时会抵消任何单一模型的每任务速度增益，这强化了一个更广泛的观察：生成质量只是更大手动生态系统中的一个变量。

团队还观察到，模型选择会影响下游验证负载。当源数据稀疏时，某些竞争对手的输出有时需要较少的事实检查，即使原始推理分数看起来较低，也会改变整体时间预算。

The Role of Organizational Data Practices

o4 的有效使用在很大程度上取决于组织如何构建其信息资产。投资于一致的元数据模式、版本控制标准和集中式存储库的公司可以大幅减少手动开销。相比之下，依赖部落知识或分散驱动器的公司发现，模型能力仍未得到充分利用，因为所需的上下文从未可靠地到达提示。

一家零售连锁店在推出 o4 之前，在其产品文档和客户服务日志中实施了轻量级分类法。在六周内，营销团队报告称，组装活动简报的时间减少了 34%。这一改进并非源于模型本身的任何变化，而是源于输入数据的可预测性，使得重复的提示模板无需不断的人工调整即可发挥作用。

知识工作者的实际影响

寻求有意义的生产力提升的团队必须将数据卫生视为先决条件而非事后考虑。标准化文件命名约定、维护可搜索的档案以及建立一致的标签实践，可以减少准备提示所花费的时间。这些基础投资放大了包括 o4 在内的任何下游模型的价值。

工作流程重新设计也很重要。高绩效团队不是将 o4 视为按需访问的聊天界面，而是将生成步骤嵌入现有流程。他们在模型使用前安排专门的上下文组装时间，并在之后分配审查时间。这种有意的结构化防止模型成为另一个增加协调开销的孤岛。

个人从业者可以采用类似的习惯。一种方法是维护一个个人上下文库，其中包含经常引用的材料，格式化为易于插入提示。另一种方法是批量处理类似任务，以便为一个查询组装的上下文可以以最小的额外努力服务于多个生成。

局限性和风险

尽管 o4 在推理方面取得了进步，但它继承了当前大型语言模型常见的几个限制。当源材料过时或内部矛盾时，输出质量会下降。用户仍必须执行模型无法可靠自动化的验证步骤。

数据隐私仍然是一个重大问题。处理受监管信息的组织必须对进入提示的内容实施严格控制。缺乏原生企业连接器增加了绕过安全审查的影子 IT 解决方案的可能性。

成本考虑也影响采用。更高的推理能力伴随着增加的令牌使用，因此每个查询的费用更高。生成许多长上下文提示的团队可能会看到成本上升速度快于时间节省的实现。

最后，过度依赖任何单一模型会带来供应商风险。组织应保持备用流程并多样化其 AI 工具栈，而不是将所有知识工作通过单一提供商路由，正如 OpenAI 的生产最佳实践指南中所述。

接下来要关注什么

要关注的三种信号是连接器发布、具有可衡量时间节省的企业案例研究，以及捆绑捕获和交付的竞争代理框架。监控这些发展将揭示围绕 o4 的人工开销是缩小还是仅仅迁移到新界面。

常见问题

团队 realistically 能多快期望从 o4 获得可衡量的节省时间？

在首先标准化数据存储的组织中，节省出现得最快。如果没有这些变化，尽管生成速度更快，但大多数团队观察到总项目持续时间几乎没有变化。

o4 是否减少了对人工审查的需求？

不。验证仍然至关重要，因为模型仍然依赖于到达其上下文窗口的任何材料的准确性和时效性。

今天有哪些行业的工作流差距更小？

当代码仓库和数据集已经存在于集成开发环境中时，软件工程和量化金融有时会看到更紧密的循环。大多数其他知识工作领域继续面临相同的手交摩擦。

OpenAI o4 提高期望但日常工作仍感手动

模型增益仍局限于狭窄范围

日常工作模式保持稳定

持续的手动步骤限制影响

企业集成挑战

Comparing o4 to Competing Models in Production Environments

The Role of Organizational Data Practices

知识工作者的实际影响

局限性和风险

接下来要关注什么

常见问题

最新文章

免费开始

产品功能

替代方案

解决方案

更多资源

公司信息

模型增益仍局限于狭窄范围

日常工作模式保持稳定

持续的手动步骤限制影响

企业集成挑战

Comparing o4 to Competing Models in Production Environments

The Role of Organizational Data Practices

知识工作者的实际影响

局限性和风险

接下来要关注什么

常见问题

免费开始

产品​功能

替代方案

​解决方案

更多资源

公司信息

产品功能

解决方案