科技日报

🔍

深度技术解读

Harness Engineering 的三个层级：模型、Harness 与上下文

LangChain 的创始人 Harrison Chase 最近指出，在构建复杂的 AI Agent 系统时，所谓的"持续学习"（Continual Learning）不应仅局限在模型权重的微调上，而是需要从三个维度思考：模型层（Model）、框架调度层（Harness）和上下文层（Context）。

传统的微调只能解决"知识"问题，但在多步推理和复杂任务的执行中，通过优化 Harness——即构建合理的规划、生成和评估三节点循环（例如 Anthropic 提出的 Three-agent harness），能用更低的成本实现可靠性的跨越。

实践意义

不要盲目迷信微调。对于长时运行的复杂编码任务，开发者应投入更多精力优化系统级的脚手架（Harness）。如何设计状态机，如何让 Agent 在每一步都能获得清晰的评估反馈，以及如何处理上下文的动态修剪（如 Claude Code 中的 Prompt Caching 优化），这些都是决定 Agent 成败的核心。

解析 Agent Memory 的本质：不仅是 RAG，更是状态机 Harness

Sarah Wooders 在讨论中澄清了一个常见的技术误区：RAG（检索增强生成）并不等于 Memory。真正的 Memory 是 Agent Harness 核心职责的一部分。将 RAG 品牌化为"记忆"导致很多人以为只需插个数据库插件就行了。

实际上，MemGPT 或 Letta 这样的框架，本质是 Stateful Agent Harness。Agent 的"记忆"来自于框架暴露给它的底层工具接口（允许主动重写、压缩状态），以及框架中那些隐形的决策：如何压缩上下文？保留多少文件系统信息？何时修改系统提示？

迁移建议

在为你的 Agent 添加记忆功能时，请放弃单纯依赖向量数据库进行语义匹配的想法。你需要建立一个结构化的上下文管理引擎，允许 Agent 通过显式的工具调用（Function Calling）来管理自己的短期、长期内存和系统环境变量。

从 Vibe Coding 到 Dark Factories：AI 接管软件生产的路线图

在最新的播客中，一线开发者分享了他们的感受："今天，我 95% 的代码都不是自己打的"。从最初的 Copilot 辅助补全，到现在的 Cursor / Claude Code 全局 Vibe Coding，软件开发正在向着 "Dark Factories"（即无需人类干预的全自动无灯工厂）演进。

但是，随着编码本身不再是瓶颈，需求定义、架构设计和结果验证将成为新的成本黑洞。AI 可以在一秒钟内写出功能代码，但如果你的架构或测试规范模糊不清，它产生的是成倍的技术债务。

实践建议

开发者的职责正在从"石匠"转变为"建筑师"。学习如何写出高质量的 `PRD` 和 `AGENTS.md` 才是新的核心竞争力。采用诸如 Addy Osmani 提出的 19 项 Agent Skills 规范，通过极度清晰的接口契约（Spec before code）来指导 AI。

Prompt Caching 在多轮对话系统中的正确实现姿势

随着大模型支持的上下文越来越长，Prompt Caching（提示词缓存）成为了降本增效的核心。但由于 MCP 工具的动态加载、图片等非文本节点的历史清理等操作，很容易在不知不觉中破坏前缀匹配规则，导致缓存穿透命中率极低。

近期对 OpenClaw 的 PR 修复为我们展示了标准解法：必须保证历史记录序列在字节层面上保持绝对一致。修剪大体积元素（如图片）时，必须设定固定轮次的安全缓冲（比如保留最近 3 轮），而动态注入的工具列表（Tool Call Schemas）也必须在每次发送前进行强制字典序排序，保证 JSON 前缀不变。

核心变化

这要求开发者在编写多轮对话上下文管理逻辑时，不能再用传统的简单列表 `.append()` 和 `.pop()`，而需要将请求载荷视为不可变的前缀树链条，所有非必要的动态数据必须放在请求体的尾部。

突破 API 限制：当 Anthropic 切断第三方工具时的后备策略

Anthropic 突然切断 Claude Pro 账号在第三方工具（如 OpenClaw）上的白嫖额度，再次给所有依赖单一提供商的开发者敲响了警钟。由于第三方 Harness 工具产生的巨大并发与 API 消耗，平台方收紧限制是必然趋势。

这对开发实践的影响是深远的。它迫使我们在本地工具栈中集成混合路由策略，例如：高推理复杂度的规划步骤走昂贵的 Claude API，而生成海量样板代码的步骤回落到本地运行的 Gemma 4 或云端的 Qwen 3.6-Plus。

迁移建议

1. 拥抱多模型路由架构，解耦业务逻辑与特定模型接口。2. 加快探索以 LM Studio / Ollama + Gemma 4 / Qwen 为代表的本地化 Agent 解决方案。3. 为核心 Agent 工具提供本地大模型回退（Fallback）支持。

TigerFS 的启示：万物皆可文件系统的工程美学

TigerFS 将 PostgreSQL 包装成了普通文件目录，这不是简单的噱头。Unix 哲学 "一切皆文件" 在今天 AI Agent 时代焕发了新的生机。绝大多数 Agent 和 LLM 对 Unix CLI 工具（如 grep, cat, ls, find）的使用极其熟练，远超它们理解各类企业级 SDK 或 GraphQL API 的能力。

将数据库挂载为文件系统，实际上是把一个复杂的数据库交互问题，降维成了一个 LLM 最擅长的基础文本读写和终端命令行操作问题，这极大地简化了让 Agent 去执行复杂数据运维任务的开发难度。

技术背景

为 AI 暴露能力的最佳方式，往往不是提供一套重型的 HTTP/RPC 接口，而是将其映射为文件系统、标准输入输出或是简单的 CLI 命令（就像最近大火的飞书 CLI 工具一样），这才是 Agent-Native 的接口设计模式。

今日热榜

GitHub Agentic Workflows 技术预览版发布

Andrej Karpathy：Idea file 正在取代 PRD

Anthropic 正式封杀 OpenClaw 等第三方工具白嫖额度

Google Cloud AI 总监开源 Agent Skills：生产级工程集合

TigerFS：将 PostgreSQL 挂载为文件系统的黑科技

Qwen 3.6-Plus：百万上下文窗口，重点强化 Agentic Coding

同事.skill 爆火 GitHub：用离职同事聊天记录炼化数字分身

Claude Code 创建者为 OpenClaw 修复 Prompt Caching 稳定性问题

Gemma 4 发布：支持 20B、40B、MoE 和 31B 稠密模型

AI-Scientist-v2：全程自动化搞科研，产出论文通过 ICLR 评审

微软开源 VibeVoice：超强语音合成与识别模型家族

本地 API 调试工具新选择：轻量级、开源的 Bruno

腾讯云发布龙虾记忆服务 Agent Memory

GitHub 平台活跃度飙升：今年提交量有望破百亿

Apple Xcode 接入 Agent 辅助编程机制

深度技术解读

Harness Engineering 的三个层级：模型、Harness 与上下文

实践意义

解析 Agent Memory 的本质：不仅是 RAG，更是状态机 Harness

迁移建议

从 Vibe Coding 到 Dark Factories：AI 接管软件生产的路线图

实践建议

Prompt Caching 在多轮对话系统中的正确实现姿势

核心变化

突破 API 限制：当 Anthropic 切断第三方工具时的后备策略

迁移建议

TigerFS 的启示：万物皆可文件系统的工程美学

技术背景

工具推荐

参考链接汇总