
Agent项目失败是因为你不想让它不够聪明反直觉论点Agent项目失败的原因不是技术不够强而是团队不愿意在让它不够聪明上做设计。越聪明的Agent越不可靠越窄的Agent越值钱。一、一个观察你有没有注意到成功的AI Agent产品和失败的AI Agent产品有一个关键差异成功的产品Agent能做的事很少。失败的产品Agent什么都能做。这不是随口感慨。我们来看数据Sierra做AI客服2023年成立2026年E轮融资9.5亿美元估值158亿美元。它只做一件事帮客户解决问题解决不了就转人工。它不会闲聊不会推荐商品不会主动发邮件。Apple Intelligence的设计哲学是窄而深Siri理解设备端意图复杂问题交给ChatGPT。它不试图做一个无所不能的助手。Anthropic官方Agent构建指南的第一条原则“优先选择最简单的方案仅在必要时增加复杂性。”原文When building with LLMs, the most successful solutions are often the simplest.再看失败的那边Gartner 2024年的研究指出30%的生成式AI项目将在概念验证后被放弃仅28%能完全达到预期ROI。失败最常见的原因是对AI能力抱有不切实际的期望。不切实际的期望翻译一下就是你期望Agent什么都能做。它不能。为什么二、让它更聪明是一个陷阱2.1 智能不等于可靠一个能做100件事的Agent和一个只能做5件事但每件都做对的Agent哪个更有用答案取决于谁在用以及出错成本有多大。如果是一个开发者自己在终端里用Claude Code能做100件事是好事。用错了自己修成本自己担。Claude Code的用户是专业开发者他们有能力判断Agent的输出是否正确也有能力在出错时快速修复。但如果是一个非技术用户——一个客服、一个销售、一个运营人员——他们不需要Agent能做很多事他们需要Agent做的事一定对。智能和可靠是两个维度而且经常互相矛盾。这不是直觉是数学。Agent越聪明自主性越高、决策空间越大它的行为就越不可预测。不可预测不等于不智能但不可预测等于不可信赖。用一个更形式化的表述可靠度 准确率 ^ 决策维度数一个Agent在每种场景下都有95%的准确率。看起来很高。但如果你让这个Agent同时负责5个场景用户对它的整体信任度不是95%而是95% × 95% × 95% × 95% × 95% 77.4%10个场景呢95%^10 59.9%。近一半的概率会出问题。能力维度每增加一个整体可靠度就指数级下降。这就是为什么成功的Agent产品都是窄的不是因为他们做不到宽而是因为宽会稀释信任。Sierra只做客服解决。Apple Intelligence只做设备端意图。不是能力限制是设计选择。2.2 聪明的Agent有一个隐蔽的失败模式一个聪明的Agent最危险的地方不是它做错了而是它做错得看起来很对。一个笨的Agent做错了你会立刻发现——因为它要么报错要么给出明显不合理的结果。一个聪明的Agent做错了它可能给出一个看起来合理、逻辑自洽、语言流畅的答案但事实上它是错的。而且你无法通过表面判断它错了因为它的错误不在语法层面在语义层面。这种失败模式在生产环境中极其危险它延迟了错误的发现时间。一个客服Agent给了用户一个错误的退款政策用户当时不会发现。三天后用户发现退款没到账打电话投诉这时候你才知道Agent给了错误信息。修复成本已经从改一个输出变成了处理一单客诉。2.3 现实中的教训一个在家庭服务器跑了三个月AI Agent的开发者写了这样的总结“指令模糊是灾难的开始。帮我检查邮件’变成了Agent自作主张回复垃圾邮件。监控社交媒体’变成了到处点赞。你以为的常识AI根本没有。现在我学乖了扫描这几个人的邮件标记紧急的未经许可不准回复。就是要这么死板。”这段话的关键不在于Agent做了蠢事——这在预期之内。关键在于解决方案不是让Agent更聪明地理解指令而是缩小指令的范围消除歧义加上硬约束。解决问题的方式不是提升智能是降低自由度。三、为什么团队不愿意让它不够聪明3.1 交付压力功能列表比可靠性好看产品经理需要一个能演示的功能列表。投资人在看deck时想看到这个Agent能做多少事。“我们的Agent能自动完成客户服务、营销邮件、数据分析、会议纪要、社交媒体管理”——这比我们的Agent能解决客户退款问题听起来有吸引力得多。但在演示环境和生产环境之间隔着一个巨大的鸿沟演示只需要一次成功生产需要每次成功。演示的时候Agent做得很好。因为演示场景是精心挑选的输入是预定义的边界case是不存在的。但生产环境不是演示环境。用户会问Agent没见过的东西。输入会有噪声。边界case会出现。而且每次出现用户都会记住。5次成功 1次失败 ≠ 5/6的好评。它 1次差评。3.2 通用的政治正确在AI行业“通用智能”AGI是终极叙事。做一个专用的Agent好像在说我们做不到通用。这在融资、招人、品牌上都是劣势。但你看真正赚钱的AI公司OpenAI靠GPT赚钱但GPT只是一个通用语言模型不是一个通用Agent。OpenAI自己的Agent产品是Operator做的是最窄的事帮你操作浏览器完成特定任务。Anthropic做Claude但官方Agent指南的核心建议是用Workflow而不是Agent——Anthropic自己在告诉你不要用我的模型做Agent除非你真的需要。Sierra做AI客服估值158亿美元做的就是最窄的事。创始人Bret Taylor前Salesforce联席CEO、OpenAI董事会主席选择做最窄的赛道不是因为没有野心是因为他知道窄可靠值钱。越赚钱的Agent产品越窄。这是一个经验规律不是一个巧合。3.3 工程师的本能复杂就是高级工程师喜欢解决难题。让Agent自己决定怎么做比给Agent写一个固定流程更有技术挑战性更有成就感。Anthropic的指南把方案分成了三个层次Workflow预定义流程步骤固定LLM只负责每个步骤内的决策Agent自主决策步骤不固定LLM自己决定下一步做什么多Agent协作多个Agent分别负责不同任务自主协调很多团队上来就选3。但Anthropic的明确建议是“从最简单的方案开始只在简单方案不足时才增加复杂性。”这跟软件工程的基本原则一致不要过度设计。但在AI Agent领域这个原则被智能这个词模糊了。很多人认为用Agent是更高级的技术选择就像用微服务比用单体更高级一样。但用Agent不是更高级是更危险。就像用微服务不是更高级是更复杂。更复杂只在确实需要时才是更高级。3.4 Thin Harness, Fat Skills一个正在形成的设计范式2025-2026年间一个叫Thin Harness, Fat Skills轻驾驭、重技能的Agent架构设计范式正在社区中形成共识。核心理念将大模型当做纯粹的推理引擎不处理零散复杂的临时指令。这个范式的主张是Harness驾驭层应该尽量薄只做三件事理解用户意图、选择合适的Skill、把结果返回给用户。所有的复杂逻辑都应该放在Skill技能里每个Skill做一件事、做到可靠。这跟让它不够聪明是同一个思路Harness不聪明但Skill专业。不聪明的驾驭层专业的技能层 聪明的驾驭层 粗糙的技能层。ECC项目182K stars就是一个这种范式的实践。它不试图让Agent什么都会而是把每个能力做成独立的SkillHarness只负责调度。四、不够聪明的设计长什么样4.1 死板但有保障一个运营团队的日报Agent正确的设计不是AI理解你的需求自主完成日报而是# 这是一个Workflow不是一个Agent# 步骤完全确定不需要LLM做任何决策defdaily_report_workflow():# 1. 每天固定8:00触发cron# 2. 从固定数据源拉取固定指标metrics{dau:fetch_dau(),revenue:fetch_revenue(),conversion_rate:fetch_conversion_rate(),}# 3. 用固定模板生成日报reportREPORT_TEMPLATE.format(**metrics)# 4. 发送到固定渠道send_to_slack(channel#daily-report,contentreport)这个Agent“不聪明”。它不能理解我觉得今天的日报应该重点关注XX。它不能自己决定换一个数据源。它不能在数据异常时自动写一段分析。但它每次都能按时、准确、稳定地出日报。它不会有一天突然忘记拉取DAU。它不会有一天把日报发到错误的Slack频道。它不会有一天生成一段关于数据异常的分析——而那段分析恰好是错的。4.2 边界清晰定义不能做什么比能做什么更重要不够聪明的设计核心是明确定义Agent不能做什么而不是它能做什么。一个有边界的设计# Agent能力边界定义capabilities:can_do:-query_order_status# 查询订单状态-process_refund:# 处理退款constraints:amount_max:500# 金额上限500元within_days:30# 30天内require_approval:false# 不需要人工审批must_escalate:-refund_amount_over_500# 超过500元转人工-refund_after_30_days# 超过30天转人工-any_complaint# 任何投诉转人工-user_requests_human# 用户要求人工cannot_do:-modify_order# 不能修改订单-issue_discount# 不能发放折扣-access_other_user_data# 不能访问其他用户数据一个没有边界的设计# 反面示例能力模糊capabilities:can_do:-处理客户的各种问题# 什么叫各种-根据上下文自主判断# 判断的边界在哪哪个更安全哪个更容易被用户信任哪个在出问题时更容易排查答案显而易见。4.3 失败模式可控知道它会怎么失败不够聪明的Agent有一个关键特性它的失败模式是可预测的。它要么成功完成范围内的事要么明确告诉你这个我处理不了帮你转人工而聪明的Agent的失败模式是不可预测的它可能给出了一个看起来合理但错误的答案你可能到很晚才发现。这在工程上有一个重要推论可预测的失败可以被设计防护不可预测的失败只能靠运气。如果一个Agent在遇到超出范围的问题时一定会转人工你可以设计一个监控指标escalation_rate转人工率。如果这个率突然升高说明Agent的覆盖范围需要扩展。这是一个可控的改进循环。如果一个Agent在遇到超出范围的问题时自主发挥你无法监控它的错误率——因为你不知道它的输出是不是错的直到用户投诉。可控的失败 不可控的成功。五、什么时候聪明是必要的不要误解不是所有场景都应该不够聪明。需要Agent自主决策的场景确实存在开放式探索分析一个从未见过的数据集步骤无法预定义创意性任务根据设计文档写新功能每一步的输出影响下一步无法穷举步骤的复杂任务修复一个未知原因的Bug需要不断试错但注意这些场景的共同特征步骤无法预先定义每一步的输出影响下一步的决策。如果你的任务步骤是可以预先定义的用Workflow。用Agent不是更先进是更危险。Anthropic的指南给出了明确的选择框架特征WorkflowAgent步骤是否可预定义是否需要灵活性吗不太需要必须成本Token消耗低高可靠性高需要额外保障可调试性高步骤可追踪低决策路径不确定适用场景定义明确的任务开放式任务出错成本低快速定位高需要回溯决策链一个常见的错误是把偶尔需要灵活性等同于需要Agent。大多数业务任务95%的时候步骤是确定的5%的时候需要灵活处理。正确的做法是用Workflow覆盖95%在Workflow中嵌入一个异常处理节点——当遇到5%的特殊情况时转人工或者触发一个受约束的子流程。而不是为了5%的灵活性把整个系统设计成Agent。六、一个推论窄不是弱窄是专业如果我们接受Agent项目失败是因为不够窄那么下一个问题是怎么才能做到窄而不显得弱答案是窄不是弱窄是专业。Sierra只做客服158亿美元估值。不是因为它弱是因为它在这个领域做得比任何通用Agent都好。一个只做日报生成的Agent如果每次都准时、准确、格式统一它比一个能做日报但有时会出错的通用Agent有用一百倍。专业的反面不是通用是可靠。更深层地看窄是一种设计决策不是能力限制。做一个窄的Agent需要你深入理解一个领域把它的所有情况穷举出来为每种情况设计确定性的处理逻辑。这比做一个什么都交给AI自己决定的Agent难得多。因为窄意味着你必须做领域建模。你必须知道这个领域的边界在哪。你必须知道哪些情况是正常的、哪些是异常的。你必须为异常情况设计兜底方案。做窄的Agent需要更多的领域知识不是更少。而让它什么都做表面上是给Agent更多自由实际上是你自己没有想清楚。你不知道这个领域的边界在哪所以你让AI自己去探索。这不是智能这是偷懒。Gartner的数据已经说了30%的AI项目在PoC后被放弃20%彻底失败。最常见的原因是对AI能力抱有不切实际的期望。不切实际的期望往往来自于你自己没有做足够的设计。所以下次你在设计一个Agent时先问自己三个问题这个任务有明确的步骤吗如果有用Workflow不要用Agent。如果它做错了我能预测它怎么错吗如果不能缩小它的范围直到你能预测。如果它遇到处理不了的事它会怎么告诉我如果答案不是明确转人工重新设计它的边界。让Agent不够聪明是你能为它做的最聪明的事。数据来源Sierra2026年5月E轮融资9.5亿美元估值158亿美元Tiger Global和GV领投2025年11月ARR破1亿美元Anthropic官方Agent构建指南2025Workflow vs Agent选择框架“优先最简方案”Apple Intelligence设计哲学本地意图识别ChatGPT处理复杂查询Gartner 202430%生成式AI项目PoC后被放弃仅28%达到预期ROI20%彻底失败24/7运行AI Agent三个月的踩坑总结开发者博客Google DORA 2024报告AI辅助开发稳定性下降7.2%Google DORA 2026年1月续作AI辅助软件开发的ROI框架Thin Harness, Fat Skills架构范式2025-2026社区共识ECC项目182K starsHarness性能优化系统实践