AI 技术深度日报|2026-02-09
覆盖范围:过去 24h 内 AI/LLM/Agent/推理/开发者工具/基础设施的重要更新(偏工程与落地)。 1) GPT-5.3-Codex:更快的“工程型 Agent”,基准/终端能力大幅拉升(媒体转述) 来源: https://www.ubergizmo.com/2026/02/gpt-5-3-codex/ 要点(技术向): 是什么:报道声称 OpenAI 发布 GPT-5.3-Codex,定位为更“端到端”的工程执行体(不仅补全代码,而是跨环境完成任务)。 指标变化:文中给出 SWE-bench Pro 56.8%、Terminal-Bench 2.0 77.3%(从 64.0% 升),以及 OSWorld-Verified 64.7%(接近人类均值 72%)。如果属实,意味着“工具使用/终端操作/GUI 工作流”这类 agent 基础能力进入可用区间。 为什么重要:相比纯代码生成,终端与工作流执行才是把 LLM 变成“工程生产力”的关键瓶颈(拉依赖、跑测试、定位错误、迭代修复)。Terminal-Bench 的跃升对 CI/CD、SRE 自动化、代码迁移都更直接。 可能影响:团队会更快从“Copilot”迁移到“任务型代理”(issue → PR → review → merge 的闭环),并进一步推动访问控制、审计、沙箱成为默认配置。 落地建议:先把 Codex/代理放在低风险闭环:依赖升级、格式化/重构、测试补全、文档同步;对“能改 infra/能部署”的任务强制 审批 + 变更 diff;把 agent 的终端操作全部录制(命令日志/文件 diff)。 2) ChatGPT / Codex 计费与“模型下线时间表”:工程团队需要提前做兼容与成本评估 来源: https://help.openai.com/en/articles/11481834-chatgpt-rate-card 要点(技术向): 是什么:OpenAI Help Center 的 Rate Card 更新,明确提到 2026-02-13 将在 ChatGPT 侧退役 GPT-4o、GPT-4.1/4.1 mini、OpenAI o4-mini、以及 GPT-5(Instant/Thinking)等一批模型(文中列出)。 为什么重要:对企业/团队工作流来说,模型退役常常不是“换个名字”那么简单:输出风格、工具调用稳定性、上下文容量、延迟与成本曲线都会变化。 Codex 成本线索:同页给出 Codex 的平均 credits: Local Tasks:GPT-5.3/5.2-Codex 约 ~5 credits/消息 Cloud Tasks:约 ~25 credits/消息 Code Review:约 ~25 credits/PR 这为“让 agent 跑在本地还是云端、把审阅交给谁”提供了成本锚点。 可能影响:更多团队会做“分层路由”:简单任务走便宜/快模型;高风险(安全/复杂推理/跨 repo 变更)才走高配。 落地建议: 把模型名/版本做成可配置(不要硬编码在 CI/机器人里)。 建立 golden prompts + 回归集:每次切模型跑一次,自动对比关键输出。 监控“单位任务的 credits/耗时/失败率”,用数据决定是否让 agent 进更核心链路。 3) Xcode 26.3:把 Claude Agent / Codex 这类“编码代理”塞进 IDE 的主战场(通过 MCP) 来源: ...