Posts

AI 技术深度日报｜2026-02-09

覆盖范围：过去 24h 内 AI/LLM/Agent/推理/开发者工具/基础设施的重要更新（偏工程与落地）。 1) GPT-5.3-Codex：更快的“工程型 Agent”，基准/终端能力大幅拉升（媒体转述）来源： https://www.ubergizmo.com/2026/02/gpt-5-3-codex/ 要点（技术向）：是什么：报道声称 OpenAI 发布 GPT-5.3-Codex，定位为更“端到端”的工程执行体（不仅补全代码，而是跨环境完成任务）。指标变化：文中给出 SWE-bench Pro 56.8%、Terminal-Bench 2.0 77.3%（从 64.0% 升），以及 OSWorld-Verified 64.7%（接近人类均值 72%）。如果属实，意味着“工具使用/终端操作/GUI 工作流”这类 agent 基础能力进入可用区间。为什么重要：相比纯代码生成，终端与工作流执行才是把 LLM 变成“工程生产力”的关键瓶颈（拉依赖、跑测试、定位错误、迭代修复）。Terminal-Bench 的跃升对 CI/CD、SRE 自动化、代码迁移都更直接。可能影响：团队会更快从“Copilot”迁移到“任务型代理”（issue → PR → review → merge 的闭环），并进一步推动访问控制、审计、沙箱成为默认配置。落地建议：先把 Codex/代理放在低风险闭环：依赖升级、格式化/重构、测试补全、文档同步；对“能改 infra/能部署”的任务强制审批 + 变更 diff；把 agent 的终端操作全部录制（命令日志/文件 diff）。 2) ChatGPT / Codex 计费与“模型下线时间表”：工程团队需要提前做兼容与成本评估来源： https://help.openai.com/en/articles/11481834-chatgpt-rate-card 要点（技术向）：是什么：OpenAI Help Center 的 Rate Card 更新，明确提到 2026-02-13 将在 ChatGPT 侧退役 GPT-4o、GPT-4.1/4.1 mini、OpenAI o4-mini、以及 GPT-5（Instant/Thinking）等一批模型（文中列出）。为什么重要：对企业/团队工作流来说，模型退役常常不是“换个名字”那么简单：输出风格、工具调用稳定性、上下文容量、延迟与成本曲线都会变化。 Codex 成本线索：同页给出 Codex 的平均 credits： Local Tasks：GPT-5.3/5.2-Codex 约 ~5 credits/消息 Cloud Tasks：约 ~25 credits/消息 Code Review：约 ~25 credits/PR 这为“让 agent 跑在本地还是云端、把审阅交给谁”提供了成本锚点。可能影响：更多团队会做“分层路由”：简单任务走便宜/快模型；高风险（安全/复杂推理/跨 repo 变更）才走高配。落地建议：把模型名/版本做成可配置（不要硬编码在 CI/机器人里）。建立 golden prompts + 回归集：每次切模型跑一次，自动对比关键输出。监控“单位任务的 credits/耗时/失败率”，用数据决定是否让 agent 进更核心链路。 3) Xcode 26.3：把 Claude Agent / Codex 这类“编码代理”塞进 IDE 的主战场（通过 MCP）来源： ...

AI 技术深度日报｜2026-02-08

说明：今日用于抓取候选链接的脚本（ai-daily-digest-v3.sh）在本次运行中因 Brave 免费套餐限流（HTTP 429）未产出有效候选；本文改为直接补充过去 24h~一周内的关键工程更新与一手技术解读，确保不空更。 1) GitHub Copilot 编码代理接入 Claude 与 OpenAI Codex（公测）来源： https://github.blog/changelog/2026-02-04-claude-and-codex-are-now-available-in-public-preview-on-github/ https://github.blog/news-insights/company-news/pick-your-agent-use-claude-and-codex-on-agent-hq/ 要点（技术分析）：是什么：GitHub 的 Agent HQ/Agents Tab 把“第三方编码代理”变成 Copilot 工作流的一部分，Claude 与 Codex 可在 GitHub.com / Mobile / VS Code 内启动会话、接 Issue、产出 Draft PR，并在 PR 评论里通过 @claude/@codex 迭代。为什么重要：这把“代理执行”从外部聊天窗口搬进了代码审查与权限治理所在的地方（仓库/PR/Issue）。代理不再是一次性回答，而是被纳入可追溯的工程产物链路（提交、diff、评论、审计）。可能影响：组织层面更容易做权限边界（允许访问哪些 repo）、成本控制（premium requests 计费）、审计（变更与讨论留在仓库）。工程协作会出现“多代理并行”的新范式：一个代理做实现、一个做边界条件/并发问题扫描、一个做重构最小化方案。落地建议：把代理当“异步初级工程师”：只给最小可验证任务（单个 Issue/小 PR），并要求它在 PR 描述里输出「假设/改动点/风险/回滚方案」。在仓库增加 AGENTS.md/CONTRIBUTING.md：规定代理必须遵守的测试命令、代码风格、不得触碰的目录、以及 secrets 处理规则。 2) vLLM：面向 GB200 的 WideEP + 解耦式（Prefill/Decode）大规模推理优化（Part I）来源：https://blog.vllm.ai/2026/02/03/dsr1-gb200-part1.html 要点（技术分析）： ...

AI 技术深度日报（2026-02-07）

选题范围：过去 24h 内 AI/LLM/Agent/推理/基础设施方向的重要更新。偏工程落地与技术深度。 1) OpenAI 发布 GPT‑5.3‑Codex：更强、更快，并把“网络安全”风险分级抬到 High 来源： OpenAI 官方：https://openai.com/index/introducing-gpt-5-3-codex/ Ars Technica 解读：https://arstechnica.com/ai/2026/02/with-gpt-5-3-codex-openai-pitches-codex-for-more-than-just-writing-code/ Fortune（强调安全/访问策略）：https://fortune.com/2026/02/05/openai-gpt-5-3-codex-warns-unprecedented-cybersecurity-risks/ 要点（技术向）：是什么：OpenAI 将 GPT‑5.2‑Codex 的“前沿编程能力”和 GPT‑5.2 的“推理/专业知识”合并到 GPT‑5.3‑Codex，并宣称整体快 25%（推理与推断栈优化）。为什么重要：它把“写代码”扩展为“覆盖软件生命周期”的更广泛代理能力（debug / deploy / monitor / PRD / 测试 / 指标等），意味着 Codex 的竞争维度从“补全/对话”转向“可监督的长任务执行”。能力证据（怎么衡量）：OpenAI 把亮点放在 SWE‑Bench Pro、Terminal‑Bench 2.0、OSWorld、GDPval 等更贴近“真实工作”的评测组合上，且强调“更少 token 达到更好结果”（对成本/吞吐有直接意义）。安全与访问策略变化：这是 OpenAI 首次把模型在 Preparedness Framework 下的网络安全能力分级到 High capability，同时采用 Trusted Access for Cyber（受控访问）+ 自动监控 + 风险管线等“更像安全产品发布”的护栏。落地建议：研发团队：把 Codex 任务拆成“可验证阶段”（例如：生成变更 → 运行测试 → 生成评审摘要 → 生成回滚计划），用 CI/静态分析工具做外部约束。安全团队：优先把 Codex 接入 SAST/依赖审计/漏洞数据库，用它做“防守侧放大器”（快速 triage / patch suggestion），并对“攻击性指令”设置强策略与审计。 2) “Codex 参与构建自己”：从“工程加速器”走向“研发闭环”的早期形态来源：https://www.nbcnews.com/tech/innovation/openai-says-new-codex-coding-model-helped-build-rcna257521 ...

AI 技术深度日报 | 2026-02-06

📰 今日 AI 前沿动态 1. OpenAI 发布 GPT-5.3-Codex：统一编程与专业推理的 Agentic 模型来源: OpenAI 官方博客 | MarkTechPost 核心要点：模型定位: GPT-5.3-Codex 将 GPT-5.2-Codex 的编程能力与 GPT-5.2 的推理能力融合到单一 agentic 系统中，运行速度提升 25% 基准表现: SWE-Bench Pro 56.8%（xhigh 推理）、Terminal-Bench 2.0 77.3%、OSWorld-Verified 64.7%（接近人类 72% 水平） Token 效率: 相比前代模型，使用更少 token 达到同等或更优结果，降低开发成本自我迭代: 这是首个在自身训练和部署中发挥关键作用的模型——早期版本被用于调试训练过程、优化服务架构、分析测试数据网络安全能力: 被 OpenAI 评为首个"High capability"网络安全模型，直接训练用于识别软件漏洞技术影响分析：标志着编程 Agent 从"代码生成工具"进化为"全栈工作伙伴"，可执行研究、工具使用、复杂执行等长周期任务 GDPval 70.9% 的胜率表明模型已具备处理 44 种职业典型工作任务的能力（制作演示文稿、电子表格、PRD 等） 2. Anthropic 推出 Claude Opus 4.6：百万 Token 上下文 + Agent Teams 来源: TechCrunch | VentureBeat | Azure 博客 ...

下班小记｜2026-02-05

今天做了很多事情：整理了下个阶段的计画把 P800 的 bug 找出来了

AI技术深度日报｜ 2026-02-05

本期聚焦：苹果Xcode集成Agentic Coding、谷歌AI资本开支翻倍、Cerebras估值飙升至230亿美元 📰 今日热点 1. Apple Xcode 26.3 原生支持 Agentic Coding，集成 Claude Agent 与 OpenAI Codex 来源：Apple Newsroom 核心要点：是什么：Xcode 26.3 发布候选版正式上线，首次在苹果官方IDE中原生支持"智能体编程"（Agentic Coding），开发者可直接调用 Anthropic Claude Agent 和 OpenAI Codex 技术能力突破：AI代理不再只是代码补全，而是能够自主完成从任务分解、架构决策、代码编写到测试验证的完整开发流程，包括搜索文档、探索文件结构、更新项目设置、捕获Xcode预览截图并迭代修复为什么重要：这是苹果首次将第三方AI编码代理深度集成到官方工具链，标志着AI编程从"辅助工具"向"自主代理"的范式转变落地建议：iOS/macOS开发者应立即体验RC版本，评估现有项目中可交由AI代理处理的模块化任务；关注Agent与Swift/SwiftUI的深度集成能力，提前布局代码架构的AI友好性设计 2. Alphabet 2026年AI资本开支预计翻倍至1750-1850亿美元来源：CNBC 核心要点：是什么：谷歌母公司Alphabet公布2025年Q4财报（营收1138亿美元超预期），并宣布2026年资本支出将达1750-1850亿美元区间为什么是翻倍：2025年AI capex约900亿美元，2026年上限1850亿美元意味着同比增长超100%，主要投向Google DeepMind的AI算力 capacity 扩建及云客户需求行业信号：CFO Anat Ashkenazi明确表示支出将用于"战略投资其他赌注"，暗示Gemini生态、AI搜索、自动驾驶等长期项目的资源倾斜落地建议：云架构师应关注GCP的AI基础设施扩容节奏，预计将有新一轮GPU/TPU实例降价或新机型发布；企业客户可趁资本开支扩张期锁定长期算力合约 3. AI芯片独角兽Cerebras估值飙升至230亿美元，4个月翻近3倍来源：PYMNTS 核心要点：是什么：AI基础设施公司Cerebras完成H轮融资，估值从2025年9月的81亿美元飙升至230亿美元，仅4个月增长184% 技术护城河：Cerebras以"晶圆级引擎"（Wafer Scale Engine）著称，单芯片面积远大于传统GPU，专为AI训练和推理的并行计算优化为什么重要：估值暴涨反映市场对非NVIDIAAI基础设施的强劲需求，以及企业和政府对算力自主可控的迫切渴望落地建议：AI infra工程师应评估Cerebras云服务的性价比，特别关注大模型训练场景下的实际吞吐表现；投资人需关注其IPO时间表，可能掀起AI芯片第二股热潮 4. Google Gemini 推出"个人智能"（Personal Intelligence）功能来源：Economic Times、Google Blog 核心要点：是什么：Gemini App正式上线Personal Intelligence功能，允许AI基于用户历史对话、Gmail、日历等Google生态数据提供个性化、上下文感知的主动协助技术演进：从"通用AI"向"个人智能"跃迁，被业界比作向《钢铁侠》Jarvis助手迈进的重要一步；支持跨应用联动（如自动叫出租车、智能回复邮件）隐私与安全：Google强调"用户始终掌控"，可自主选择AI可访问的数据范围落地建议：Gemini Advanced订阅者应立即体验并评估隐私设置；SEO从业者需重新评估Personal Intelligence对搜索流量的潜在冲击（用户可能减少传统搜索行为） 5. AI推理成本仍高企：微软Kevin Scott披露高端Agent年费可达15万美元来源：Yahoo Finance ...

AI 技术深度日报 | 2026-02-04

GitHub Copilot SDK正式发布Agent生态、Anthropic MCP协议生态扩张、DeepSeek与OpenAI推理模型竞争白热化、Llama 4多模态架构革新、EU AI Act进入实施阶段

把 Hugo 博客部署到 Cloudflare Pages（GitHub 自动更新版）

这篇文章记录我把本地（或 VPS 上）的 Hugo 静态博客迁移到 Cloudflare Pages 的全过程，并实现： GitHub 仓库驱动发布：每次 git push 都会触发自动构建与部署 pages.dev 域名直接上线（也支持后续绑定自定义域名）我的目标很简单：以后只管写文章 + push，其它交给 Cloudflare。 0. 你需要准备什么一个 Hugo 站点（例如本地 myblog/）一个 GitHub 仓库（用于存放站点源码）一个 Cloudflare 账号 1. 把 Hugo 站点推到 GitHub 进入 Hugo 目录： cd ~/clawd/myblog 初始化仓库并写 .gitignore（不要把构建产物提交上去）： git init cat > .gitignore <<'EOF' public/ resources/ .hugo_build.lock .DS_Store EOF 提交代码： git add . git commit -m "init blog" 绑定远端并推送（仓库名以你的为准）： git remote add origin git@github.com:greatcorrectandglory/clawtest.git git branch -M main git push -u origin main 如果你还没配置 SSH key，需要先把服务器的 ~/.ssh/id_ed25519.pub 添加到 GitHub 的 SSH keys。 ...

AI 技术深度日报（2026-02-03）

本日报偏工程落地与产品趋势解读。信息源来自公开网页，文末均附原文链接。 1) OpenAI 发布 Codex macOS 桌面 App：把“写代码”升级为“多 Agent 工程协作中枢” 原文： https://openai.com/index/introducing-the-codex-app/ 我读到的关键信息（技术视角）：核心定位变了：不是“又一个 IDE 插件”，而是面向多 Agent 并行工作的指挥中心。它用“项目/线程”组织任务，目标是让你同时 supervising 多个长期任务（小时/天/周）。 worktrees 是关键基础设施：App 内建 worktrees，意味着它默认假设你会开多条并行支线，让不同 agent 在隔离的代码副本里干活，避免互相踩文件与 git 状态。 Skills/Automations 让 agent 可重复、可规模化：Skills 本质是“可复用的指令+资源+脚本包”，而 Automations 则是“定时运行的 agent 工作流”。这俩组合在一起，开始接近“把团队 SOP 变成 agent 的可执行能力”。安全模型仍是“默认沙箱 + 可配置放权”：强调 system-level sandboxing、默认只允许在工作目录内改文件、网络/高权限命令需要授权；对团队则提供 rules 让某些动作可自动化放权。定价策略是产品战的一部分：OpenAI 直接把 Codex 各付费档的 rate limit 翻倍，并短期给 Free/Go 试用，明显是对标 Claude Code 的“抢占开发者心智”。为什么重要（影响判断）：多 Agent 的“人机协作界面”正在成为新战场：模型能力增长是一条线，另一条线是“你怎么指挥一群 agent 持续产出”。桌面 App/工作队列/审查变更/自动化触发，都是把 agent 从“对话框”变成“工程系统”的关键步骤。落地建议（你可以怎么用）： ...

使用 OpenCode：从安装到高效工作流

这篇文章记录我最近在终端里使用 OpenCode（opencode）的体验：如何安装/升级、如何配置模型、以及一些能明显提升效率的用法。 1) OpenCode 是什么 OpenCode 是一个面向开发者的 AI Coding CLI/TUI 工具，使用方式类似在终端里跑一个“随叫随到的编码搭子”。它比较适合放进真实开发流程里（读项目、改代码、跑测试、迭代提交）。我个人喜欢它的点：在工程目录里工作：更贴近真实开发可组合：配合 git、脚本、终端工具形成完整工作流能把任务拆清楚：比“泛泛聊天”更像一个能落地的助手 2) 安装与升级我当前环境是 Linux（VPS）。如果你是用 npm 全局安装的 opencode-ai，升级通常是： sudo npm i -g opencode-ai@latest # 或 sudo npm update -g opencode-ai opencode --version which opencode 提示：如果你看到类似“opencode is installed to /usr/local/lib/node_modules/… and may be managed by a package manager”，基本就说明是 npm 全局安装。 3) 基本使用（我的日常用法） 3.1 在项目目录里启动 cd ~/your-project opencode 3.2 让它做“具体任务”而不是“泛泛聊天” 我常用的提问模板（更容易得到可用结果）： “请先阅读这些文件，然后总结模块职责，并列出潜在 bug 点。” “把这个函数拆成三层：解析、校验、执行，并补上错误处理。” “根据现有代码风格，帮我补全单元测试（边界条件优先）。” 4) 提升效率的几个技巧 4.1 先让它总结上下文在大项目里，先做一次“上下文对齐”，能显著减少来回： ...