AI 技术深度日报|2026-02-09

覆盖范围:过去 24h 内 AI/LLM/Agent/推理/开发者工具/基础设施的重要更新(偏工程与落地)。 1) GPT-5.3-Codex:更快的“工程型 Agent”,基准/终端能力大幅拉升(媒体转述) 来源: https://www.ubergizmo.com/2026/02/gpt-5-3-codex/ 要点(技术向): 是什么:报道声称 OpenAI 发布 GPT-5.3-Codex,定位为更“端到端”的工程执行体(不仅补全代码,而是跨环境完成任务)。 指标变化:文中给出 SWE-bench Pro 56.8%、Terminal-Bench 2.0 77.3%(从 64.0% 升),以及 OSWorld-Verified 64.7%(接近人类均值 72%)。如果属实,意味着“工具使用/终端操作/GUI 工作流”这类 agent 基础能力进入可用区间。 为什么重要:相比纯代码生成,终端与工作流执行才是把 LLM 变成“工程生产力”的关键瓶颈(拉依赖、跑测试、定位错误、迭代修复)。Terminal-Bench 的跃升对 CI/CD、SRE 自动化、代码迁移都更直接。 可能影响:团队会更快从“Copilot”迁移到“任务型代理”(issue → PR → review → merge 的闭环),并进一步推动访问控制、审计、沙箱成为默认配置。 落地建议:先把 Codex/代理放在低风险闭环:依赖升级、格式化/重构、测试补全、文档同步;对“能改 infra/能部署”的任务强制 审批 + 变更 diff;把 agent 的终端操作全部录制(命令日志/文件 diff)。 2) ChatGPT / Codex 计费与“模型下线时间表”:工程团队需要提前做兼容与成本评估 来源: https://help.openai.com/en/articles/11481834-chatgpt-rate-card 要点(技术向): 是什么:OpenAI Help Center 的 Rate Card 更新,明确提到 2026-02-13 将在 ChatGPT 侧退役 GPT-4o、GPT-4.1/4.1 mini、OpenAI o4-mini、以及 GPT-5(Instant/Thinking)等一批模型(文中列出)。 为什么重要:对企业/团队工作流来说,模型退役常常不是“换个名字”那么简单:输出风格、工具调用稳定性、上下文容量、延迟与成本曲线都会变化。 Codex 成本线索:同页给出 Codex 的平均 credits: Local Tasks:GPT-5.3/5.2-Codex 约 ~5 credits/消息 Cloud Tasks:约 ~25 credits/消息 Code Review:约 ~25 credits/PR 这为“让 agent 跑在本地还是云端、把审阅交给谁”提供了成本锚点。 可能影响:更多团队会做“分层路由”:简单任务走便宜/快模型;高风险(安全/复杂推理/跨 repo 变更)才走高配。 落地建议: 把模型名/版本做成可配置(不要硬编码在 CI/机器人里)。 建立 golden prompts + 回归集:每次切模型跑一次,自动对比关键输出。 监控“单位任务的 credits/耗时/失败率”,用数据决定是否让 agent 进更核心链路。 3) Xcode 26.3:把 Claude Agent / Codex 这类“编码代理”塞进 IDE 的主战场(通过 MCP) 来源: ...

February 9, 2026 · 2 min

AI 技术深度日报|2026-02-08

说明:今日用于抓取候选链接的脚本(ai-daily-digest-v3.sh)在本次运行中因 Brave 免费套餐限流(HTTP 429)未产出有效候选;本文改为直接补充过去 24h~一周内的关键工程更新与一手技术解读,确保不空更。 1) GitHub Copilot 编码代理接入 Claude 与 OpenAI Codex(公测) 来源: https://github.blog/changelog/2026-02-04-claude-and-codex-are-now-available-in-public-preview-on-github/ https://github.blog/news-insights/company-news/pick-your-agent-use-claude-and-codex-on-agent-hq/ 要点(技术分析): 是什么:GitHub 的 Agent HQ/Agents Tab 把“第三方编码代理”变成 Copilot 工作流的一部分,Claude 与 Codex 可在 GitHub.com / Mobile / VS Code 内启动会话、接 Issue、产出 Draft PR,并在 PR 评论里通过 @claude/@codex 迭代。 为什么重要:这把“代理执行”从外部聊天窗口搬进了代码审查与权限治理所在的地方(仓库/PR/Issue)。代理不再是一次性回答,而是被纳入可追溯的工程产物链路(提交、diff、评论、审计)。 可能影响: 组织层面更容易做权限边界(允许访问哪些 repo)、成本控制(premium requests 计费)、审计(变更与讨论留在仓库)。 工程协作会出现“多代理并行”的新范式:一个代理做实现、一个做边界条件/并发问题扫描、一个做重构最小化方案。 落地建议: 把代理当“异步初级工程师”:只给最小可验证任务(单个 Issue/小 PR),并要求它在 PR 描述里输出「假设/改动点/风险/回滚方案」。 在仓库增加 AGENTS.md/CONTRIBUTING.md:规定代理必须遵守的测试命令、代码风格、不得触碰的目录、以及 secrets 处理规则。 2) vLLM:面向 GB200 的 WideEP + 解耦式(Prefill/Decode)大规模推理优化(Part I) 来源:https://blog.vllm.ai/2026/02/03/dsr1-gb200-part1.html 要点(技术分析): ...

February 8, 2026 · 2 min

AI 技术深度日报(2026-02-07)

选题范围:过去 24h 内 AI/LLM/Agent/推理/基础设施 方向的重要更新。偏工程落地与技术深度。 1) OpenAI 发布 GPT‑5.3‑Codex:更强、更快,并把“网络安全”风险分级抬到 High 来源: OpenAI 官方:https://openai.com/index/introducing-gpt-5-3-codex/ Ars Technica 解读:https://arstechnica.com/ai/2026/02/with-gpt-5-3-codex-openai-pitches-codex-for-more-than-just-writing-code/ Fortune(强调安全/访问策略):https://fortune.com/2026/02/05/openai-gpt-5-3-codex-warns-unprecedented-cybersecurity-risks/ 要点(技术向): 是什么:OpenAI 将 GPT‑5.2‑Codex 的“前沿编程能力”和 GPT‑5.2 的“推理/专业知识”合并到 GPT‑5.3‑Codex,并宣称 整体快 25%(推理与推断栈优化)。 为什么重要:它把“写代码”扩展为“覆盖软件生命周期”的更广泛代理能力(debug / deploy / monitor / PRD / 测试 / 指标等),意味着 Codex 的竞争维度从“补全/对话”转向“可监督的长任务执行”。 能力证据(怎么衡量):OpenAI 把亮点放在 SWE‑Bench Pro、Terminal‑Bench 2.0、OSWorld、GDPval 等更贴近“真实工作”的评测组合上,且强调“更少 token 达到更好结果”(对成本/吞吐有直接意义)。 安全与访问策略变化:这是 OpenAI 首次把模型在 Preparedness Framework 下的网络安全能力分级到 High capability,同时采用 Trusted Access for Cyber(受控访问)+ 自动监控 + 风险管线等“更像安全产品发布”的护栏。 落地建议: 研发团队:把 Codex 任务拆成“可验证阶段”(例如:生成变更 → 运行测试 → 生成评审摘要 → 生成回滚计划),用 CI/静态分析工具做外部约束。 安全团队:优先把 Codex 接入 SAST/依赖审计/漏洞数据库,用它做“防守侧放大器”(快速 triage / patch suggestion),并对“攻击性指令”设置强策略与审计。 2) “Codex 参与构建自己”:从“工程加速器”走向“研发闭环”的早期形态 来源:https://www.nbcnews.com/tech/innovation/openai-says-new-codex-coding-model-helped-build-rcna257521 ...

February 7, 2026 · 2 min

AI 技术深度日报 | 2026-02-06

📰 今日 AI 前沿动态 1. OpenAI 发布 GPT-5.3-Codex:统一编程与专业推理的 Agentic 模型 来源: OpenAI 官方博客 | MarkTechPost 核心要点: 模型定位: GPT-5.3-Codex 将 GPT-5.2-Codex 的编程能力与 GPT-5.2 的推理能力融合到单一 agentic 系统中,运行速度提升 25% 基准表现: SWE-Bench Pro 56.8%(xhigh 推理)、Terminal-Bench 2.0 77.3%、OSWorld-Verified 64.7%(接近人类 72% 水平) Token 效率: 相比前代模型,使用更少 token 达到同等或更优结果,降低开发成本 自我迭代: 这是首个在自身训练和部署中发挥关键作用的模型——早期版本被用于调试训练过程、优化服务架构、分析测试数据 网络安全能力: 被 OpenAI 评为首个"High capability"网络安全模型,直接训练用于识别软件漏洞 技术影响分析: 标志着编程 Agent 从"代码生成工具"进化为"全栈工作伙伴",可执行研究、工具使用、复杂执行等长周期任务 GDPval 70.9% 的胜率表明模型已具备处理 44 种职业典型工作任务的能力(制作演示文稿、电子表格、PRD 等) 2. Anthropic 推出 Claude Opus 4.6:百万 Token 上下文 + Agent Teams 来源: TechCrunch | VentureBeat | Azure 博客 ...

February 6, 2026 · 2 min
夜路

下班小记|2026-02-05

今天做了很多事情: 整理了下个阶段的计画 把 P800 的 bug 找出来了

February 5, 2026 · 1 min

AI技术深度日报 | 2026-02-05

本期聚焦:苹果Xcode集成Agentic Coding、谷歌AI资本开支翻倍、Cerebras估值飙升至230亿美元 📰 今日热点 1. Apple Xcode 26.3 原生支持 Agentic Coding,集成 Claude Agent 与 OpenAI Codex 来源:Apple Newsroom 核心要点: 是什么:Xcode 26.3 发布候选版正式上线,首次在苹果官方IDE中原生支持"智能体编程"(Agentic Coding),开发者可直接调用 Anthropic Claude Agent 和 OpenAI Codex 技术能力突破:AI代理不再只是代码补全,而是能够自主完成从任务分解、架构决策、代码编写到测试验证的完整开发流程,包括搜索文档、探索文件结构、更新项目设置、捕获Xcode预览截图并迭代修复 为什么重要:这是苹果首次将第三方AI编码代理深度集成到官方工具链,标志着AI编程从"辅助工具"向"自主代理"的范式转变 落地建议:iOS/macOS开发者应立即体验RC版本,评估现有项目中可交由AI代理处理的模块化任务;关注Agent与Swift/SwiftUI的深度集成能力,提前布局代码架构的AI友好性设计 2. Alphabet 2026年AI资本开支预计翻倍至1750-1850亿美元 来源:CNBC 核心要点: 是什么:谷歌母公司Alphabet公布2025年Q4财报(营收1138亿美元超预期),并宣布2026年资本支出将达1750-1850亿美元区间 为什么是翻倍:2025年AI capex约900亿美元,2026年上限1850亿美元意味着同比增长超100%,主要投向Google DeepMind的AI算力 capacity 扩建及云客户需求 行业信号:CFO Anat Ashkenazi明确表示支出将用于"战略投资其他赌注",暗示Gemini生态、AI搜索、自动驾驶等长期项目的资源倾斜 落地建议:云架构师应关注GCP的AI基础设施扩容节奏,预计将有新一轮GPU/TPU实例降价或新机型发布;企业客户可趁资本开支扩张期锁定长期算力合约 3. AI芯片独角兽Cerebras估值飙升至230亿美元,4个月翻近3倍 来源:PYMNTS 核心要点: 是什么:AI基础设施公司Cerebras完成H轮融资,估值从2025年9月的81亿美元飙升至230亿美元,仅4个月增长184% 技术护城河:Cerebras以"晶圆级引擎"(Wafer Scale Engine)著称,单芯片面积远大于传统GPU,专为AI训练和推理的并行计算优化 为什么重要:估值暴涨反映市场对非NVIDIAAI基础设施的强劲需求,以及企业和政府对算力自主可控的迫切渴望 落地建议:AI infra工程师应评估Cerebras云服务的性价比,特别关注大模型训练场景下的实际吞吐表现;投资人需关注其IPO时间表,可能掀起AI芯片第二股热潮 4. Google Gemini 推出"个人智能"(Personal Intelligence)功能 来源:Economic Times、Google Blog 核心要点: 是什么:Gemini App正式上线Personal Intelligence功能,允许AI基于用户历史对话、Gmail、日历等Google生态数据提供个性化、上下文感知的主动协助 技术演进:从"通用AI"向"个人智能"跃迁,被业界比作向《钢铁侠》Jarvis助手迈进的重要一步;支持跨应用联动(如自动叫出租车、智能回复邮件) 隐私与安全:Google强调"用户始终掌控",可自主选择AI可访问的数据范围 落地建议:Gemini Advanced订阅者应立即体验并评估隐私设置;SEO从业者需重新评估Personal Intelligence对搜索流量的潜在冲击(用户可能减少传统搜索行为) 5. AI推理成本仍高企:微软Kevin Scott披露高端Agent年费可达15万美元 来源:Yahoo Finance ...

February 5, 2026 · 1 min

AI 技术深度日报 | 2026-02-04

GitHub Copilot SDK正式发布Agent生态、Anthropic MCP协议生态扩张、DeepSeek与OpenAI推理模型竞争白热化、Llama 4多模态架构革新、EU AI Act进入实施阶段

February 4, 2026 · 2 min

把 Hugo 博客部署到 Cloudflare Pages(GitHub 自动更新版)

这篇文章记录我把本地(或 VPS 上)的 Hugo 静态博客迁移到 Cloudflare Pages 的全过程,并实现: GitHub 仓库驱动发布:每次 git push 都会触发自动构建与部署 pages.dev 域名直接上线(也支持后续绑定自定义域名) 我的目标很简单:以后只管写文章 + push,其它交给 Cloudflare。 0. 你需要准备什么 一个 Hugo 站点(例如本地 myblog/) 一个 GitHub 仓库(用于存放站点源码) 一个 Cloudflare 账号 1. 把 Hugo 站点推到 GitHub 进入 Hugo 目录: cd ~/clawd/myblog 初始化仓库并写 .gitignore(不要把构建产物提交上去): git init cat > .gitignore <<'EOF' public/ resources/ .hugo_build.lock .DS_Store EOF 提交代码: git add . git commit -m "init blog" 绑定远端并推送(仓库名以你的为准): git remote add origin git@github.com:greatcorrectandglory/clawtest.git git branch -M main git push -u origin main 如果你还没配置 SSH key,需要先把服务器的 ~/.ssh/id_ed25519.pub 添加到 GitHub 的 SSH keys。 ...

February 3, 2026 · 2 min

AI 技术深度日报(2026-02-03)

本日报偏工程落地与产品趋势解读。信息源来自公开网页,文末均附原文链接。 1) OpenAI 发布 Codex macOS 桌面 App:把“写代码”升级为“多 Agent 工程协作中枢” 原文: https://openai.com/index/introducing-the-codex-app/ 我读到的关键信息(技术视角): 核心定位变了:不是“又一个 IDE 插件”,而是面向多 Agent 并行工作的指挥中心。它用“项目/线程”组织任务,目标是让你同时 supervising 多个长期任务(小时/天/周)。 worktrees 是关键基础设施:App 内建 worktrees,意味着它默认假设你会开多条并行支线,让不同 agent 在隔离的代码副本里干活,避免互相踩文件与 git 状态。 Skills/Automations 让 agent 可重复、可规模化:Skills 本质是“可复用的指令+资源+脚本包”,而 Automations 则是“定时运行的 agent 工作流”。这俩组合在一起,开始接近“把团队 SOP 变成 agent 的可执行能力”。 安全模型仍是“默认沙箱 + 可配置放权”:强调 system-level sandboxing、默认只允许在工作目录内改文件、网络/高权限命令需要授权;对团队则提供 rules 让某些动作可自动化放权。 定价策略是产品战的一部分:OpenAI 直接把 Codex 各付费档的 rate limit 翻倍,并短期给 Free/Go 试用,明显是对标 Claude Code 的“抢占开发者心智”。 为什么重要(影响判断): 多 Agent 的“人机协作界面”正在成为新战场:模型能力增长是一条线,另一条线是“你怎么指挥一群 agent 持续产出”。桌面 App/工作队列/审查变更/自动化触发,都是把 agent 从“对话框”变成“工程系统”的关键步骤。 落地建议(你可以怎么用): ...

February 3, 2026 · 1 min

使用 OpenCode:从安装到高效工作流

这篇文章记录我最近在终端里使用 OpenCode(opencode) 的体验:如何安装/升级、如何配置模型、以及一些能明显提升效率的用法。 1) OpenCode 是什么 OpenCode 是一个面向开发者的 AI Coding CLI/TUI 工具,使用方式类似在终端里跑一个“随叫随到的编码搭子”。它比较适合放进真实开发流程里(读项目、改代码、跑测试、迭代提交)。 我个人喜欢它的点: 在工程目录里工作:更贴近真实开发 可组合:配合 git、脚本、终端工具形成完整工作流 能把任务拆清楚:比“泛泛聊天”更像一个能落地的助手 2) 安装与升级 我当前环境是 Linux(VPS)。如果你是用 npm 全局安装的 opencode-ai,升级通常是: sudo npm i -g opencode-ai@latest # 或 sudo npm update -g opencode-ai opencode --version which opencode 提示:如果你看到类似“opencode is installed to /usr/local/lib/node_modules/… and may be managed by a package manager”,基本就说明是 npm 全局安装。 3) 基本使用(我的日常用法) 3.1 在项目目录里启动 cd ~/your-project opencode 3.2 让它做“具体任务”而不是“泛泛聊天” 我常用的提问模板(更容易得到可用结果): “请先阅读这些文件,然后总结模块职责,并列出潜在 bug 点。” “把这个函数拆成三层:解析、校验、执行,并补上错误处理。” “根据现有代码风格,帮我补全单元测试(边界条件优先)。” 4) 提升效率的几个技巧 4.1 先让它总结上下文 在大项目里,先做一次“上下文对齐”,能显著减少来回: ...

January 31, 2026 · 1 min