
前面几篇把 Deep Research Agent 训练前的活儿讲得差不多了数据怎么构造、轨迹怎么采样、SFT 的 Loss Mask、GRPO 的奖励函数。今天讲一件更靠后的事第一次真把数据喂进去之后那份评估报告该怎么看、怎么用。先讲个上周的事。有个学员去蚂蚁面大模型应用岗简历上写了一行「完成 Deep Research Agent 首轮 SFT 训练输出格式合规率从 20% 提升到 100%」。面试官扫了一眼笑“首轮训练多少条数据”“清洗完 187 条。”187 条合规率 100%。面试官把简历往桌上一放“我说句不客气的这是整页简历里最没用的一个数。格式是表层模式几十条同构样本就能刷到 100%。工具选对几道答案对几道这两个数你敢写吗”学员笑了“敢。您翻到下半页工具选择 2/10答案准确 3/10我都写上去了。”面试官愣了一下。“下面还有为什么只有 2/10训练数据里 search 和 visit 轨迹占比太高模型学成了默认先搜连’什么是人工智能’都要搜一圈。再往下是下一批数据怎么补简单题比例拉到多少search 轨迹压到多少分几个阶段都在。”面试官沉默了几秒把简历拿回去从第一行重新看看完说“你这份翻车报告比我这周看到的所有成功案例都值钱。下周二面我亲自面。”他敢把 2/10 写上简历是因为想明白了一件事第一次训练的价值从来不是训出能用的模型而是用最小的成本暴露数据的真实问题。今天就把这份翻车报告完整拆开四个指标各动了多少三个 badcase 暴露了什么问题归因到哪下一批数据分几个阶段怎么堆。一、先把第一次训练的报告摆出来很多人训练完只看一个数比如 loss 降了或者格式对了就宣布成功。我习惯先把评估报告整张摊开看因为单看一个数最容易自我感动。这次第一次训练的配置很朴素故意压得很小就是为了快速验证整条链路能不能跑通模型Qwen3-0.6B LoRA 训练数据data/train_v3_200_clean.jsonl清洗后 187 条 训练参数epoch1, max_length8192, gradient_accumulation8 评估scripts/full_eval.py10 个通用测试用例基线模型 vs 训练后模型对比评估维度有五个格式是否合规、工具该不该用、工具准确性、答案准确性、答案完整度。跑完 full_eval 之后基线和训练后的对比是这样的评估维度基线模型训练后怎么看这个变化格式得分满分 20420几乎是从不会到全会最亮眼工具选择正确10 题02动了但只动了一点点答案准确10 题03同上聊胜于无答案完整度均值0%23%有起色但离能用差得远第一眼看格式那一行确实让人兴奋。基线模型 10 道题里几乎吐不出一个合法的thinktool_call结构得分只有 4 分训练后稳定输出标准格式直接干到满分 20。光看这一行首轮训练成功这句话写得理直气壮。但把视线往下挪两行问题就出来了。工具选择从 0 道到 2 道答案准确从 0 道到 3 道完整度从 0% 到 23%。这几个才是真正决定模型有没有用的指标它们动了但动得非常勉强。我当时给这次训练的结论就一句话格式能力提升显著训练后几乎稳定输出thinktool_call{JSON}但工具该不该用、用哪一个、答得准不准都还在及格线以下。Deep Research 第一次训练评估报告对比这就是为什么我不建议拿格式合规率 100%“当训练成功的标志。格式是表层模式而已模型见过几十条结构一致的样本照着摆出来并不难。难的是工具选择和答案质量那是要模型真正理解什么时候该搜、搜到的东西怎么用”这层能力 187 条样本根本喂不出来。二、三个 badcase比四个数字更能说明问题数字告诉你动了多少但不告诉你为什么。所以我从 10 道测试题里挑了三个最典型的 case逐个看模型到底学会了什么、没学会什么。Case 1「什么是人工智能」这是一道常识题期望的行为是直接 finish 给答案根本不需要搜索。模型训练后的表现是格式完全正确think标签、tool_call结构都对但它调用了 search。也就是说它学会了怎么调工具但没学会这道题不该调工具。一道张口就能答的常识题它也要先去搜一圈。这个 case 单独拎出来就解释了为什么工具选择只对了 2 道。Case 2「50×20 等于多少」这是计算题期望调用 calculator或者直接 finish 算出来。模型这次工具选对了调了 calculator这是个好信号说明计算题用计算器这个模式它沾到了一点。但问题出在后半段calculator 返回结果之后它的 finish 输出不稳定答案完整度一般有时候算出来了却没好好把最终答案包进answer里。这说明工具调用的结构学到了但 finish 这一步的稳定性还不行还得靠更多样本去磨。Case 3「水的化学式是什么」这是事实题期望 finish 加正确答案。这道模型答对了输出了正确的化学式结构也稳定。但我没法因为这一道就高兴因为它更像是通用事实在预训练里本来就有微调之后碰巧迁移出来了不是一个稳定现象。换一道冷门一点的事实题它大概率又露馅。三个 badcase格式对了不等于用对了这三个 case 串起来看模型这次到底学到了什么就很清楚了它学会了把输出格式摆整齐沾到了一点计算题用计算器的影子对个别通用事实有微弱迁移。但它没学会的是最关键的那件事判断这道题到底该不该搜、该用哪个工具。把这个判断力单独拎出来恰恰是面试官最后那句话的意思格式是表层工具选择才是 Deep Research Agent 的核心能力。Agent 这块的工具选择和 ReAct 决策面试里被追问的角度其实很固定官网题库里整理了Agent 这块的高频追问题把该不该调工具这类判断题做几道比死记定义管用。三、归因为什么格式飙升能力却没怎么动报告和 case 都摆出来了接下来是复盘里最值钱的一步归因。同样一次训练有人看完就说再多训几个 epoch 呗有人能看出问题出在数据的哪个具体位置。这次我归到了三条。第一条样本量根本不够。187 条样本对格式这种表层模式够了因为格式的模式空间很小几十条就能覆盖。但工具选择策略是一个复杂得多的决策分布什么样的问题该搜什么样的该算什么样的直接答。这种判断力 187 条远远撑不起来模型只能学个皮毛。第二条分布偏移搜索类轨迹占比太高。这是比样本量更隐蔽的问题。我回头去查了训练数据的构成发现 search 和 visit 类的轨迹占了绝大多数常识题直接 finish、计算题用 calculator 这类不搜索的样本少得可怜。模型是数据分布的镜子你喂给它的大部分轨迹都是先搜一下它自然就学成了默认先搜。Case 1 里那道什么是人工智能也去 search根子就在这。第三条输出规范还不够强。JSON 格式的 tool_call 规范化基本做完了但数据里还残留少量重复输出和finish 缺失的样本。这些脏样本不致命但会让 finish 这一步的稳定性打折扣Case 2 里 calculator 调对了却没好好 finish跟这个有关。我见过不少训练教程训完看一眼格式合规率上去了就宣布成功这其实是最会骗自己的一种验收方式。格式合规率是所有指标里最容易刷上去的因为它是表层模式几十条同构样本就能让它逼近 100%。真正该盯的是工具选择正确率和答案准确率这两个数它们才反映模型有没有学到判断力。第一次训练如果只有格式动了那不叫成功叫链路跑通了能力还没开始练。当然上面这套归因是针对 0.6B 这种小模型加小样本的场景。如果你用的是更大的底座模型样本量不足这条的权重会下降模型本身的先验能扛一部分判断力不一定需要把数据配比抠得这么细。但小模型没有这个待遇它几乎只认数据分布你喂什么它学什么。四、下一批数据怎么补分三阶段往上堆归因清楚了补数据就有了方向。这次我没有一上来就把数据从 187 条堆到几千条而是定了一个分阶段的爬坡路线每个阶段解决一个具体问题配比也跟着调。分阶段数据生成策略从 200 到 3000阶段一先到 200 条目标是稳住格式和工具调用结构。这个阶段不贪心就是先让格式彻底稳下来role 对齐tool 角色不要乱JSON tool_call 规范统一。但有两个配比上的硬约束是直接冲着前面的归因去的简单题的比例要拉到 25% 以上让模型见够这道题不用搜直接 finish的样本search 和 visit 类轨迹的占比压到 60% 以下把之前那个默认先搜的分布偏移先扳回来一点。阶段二从 200 爬到 1000 条目标是提工具选择和答案准确性。这是最关键的一个阶段专治第一次训练里那两个没怎么动的数。配比上的要求更细常识题必须直接 finish计算题优先 calculator事实题只在不确定的时候才 search。另外专门加 10% 那种不需要搜索但需要引用的示例让模型学会我知道答案但我得标清楚来源。这个阶段还有个硬性校验每批次生成完都做清洗保证 finish 的完整率超过 95%把上一轮那些finish 缺失的脏样本挡在外面。阶段三从 1000 到 3000 条目标是把答案准确性和全面性拉起来。到这个量级开始抠两件事。一是引用一致性答案里的引用编号要和工具的实际输出对得上不能模型说根据 [2]但第 2 条搜索结果讲的根本不是这个。二是覆盖面visit 类轨迹的比例控制在 20% 左右避免模型过度依赖深度访问同时按 4 个行业乘 6 种问题类型的矩阵做均衡覆盖别让数据偏科。这个阶段还要单独建一个 20 到 50 题的行业场景测试集光靠那 10 道通用题已经测不出区分度了。光分阶段还不够有两条执行纪律我觉得比配比本身更重要。一条是训练和评估要形成闭环。不要憋到 3000 条一次性训完再看结果。我的做法是每 200 到 300 条就做一次小训练加一次 full_eval盯着工具选择正确率和答案准确率这两条曲线的趋势走。如果某一批加进去之后工具选择不升反降立刻回头查这批数据的配比是不是又偏了而不是傻等到最后才发现方向错了。另一条是单独建一个工具选择训练集。把常识题、计算题这类工具选择明确的样本拎出来明确标注这道直接 finish“这道用 calculator”作为一个专项数据子集喂进去。这是针对默认 search这个毛病的靶向治疗比在大池子里稀释着治有效得多。分阶段不是没有代价的。它的成本就是工程量每个阶段都要重新生成、重新清洗、重新规范化、重新跑评估等于把训练这件事从一锤子买卖拆成了好几个迭代周期时间和人力都翻倍。如果你的样本本来就充足、分布也均衡其实没必要这么折腾直接堆量训一把可能更省事。分阶段爬坡是给样本紧张、分布有偏、还想把每一批数据的钱花在刀刃上的场景准备的第一次训练翻了车恰好就是这种场景。五、面试怎么答第一次训练效果不好怎么办这道题面试官真问起来最想听的不是你训得多好而是你拿到一份不及格的报告之后会怎么分析、怎么定下一步。按这个框架答层次感很清楚。先讲怎么看报告别被单一指标骗30 秒。“我不会只看格式合规率那是最容易刷上去的表层指标。我会把格式、工具选择、答案准确、完整度几个维度一起看。我们第一次训练就是格式从 4 分飙到满分 20但工具选择只有 2/10、答案准确 3/10说明模型只学会了摆格式判断力没动。”再讲归因落到数据上40 秒。“我归了三条一是样本量不够187 条撑不起工具选择这种复杂决策二是分布偏移训练数据里 search/visit 轨迹占比太高模型学成了默认先搜连’什么是人工智能’都去搜索三是输出规范还有 finish 缺失和重复输出的脏样本。三条里分布偏移是最隐蔽也最关键的。”最后讲怎么补给出可执行的路线30 秒。“我定了分阶段补数据先到 200 条稳格式、把简单题比例拉到 25% 以上、search/visit 压到 60% 以下再到 1000 条专治工具选择常识题强制 finish、计算题用 calculator、加 10% 需引用不需搜索的样本最后到 3000 条抠引用一致性和行业覆盖。关键是每 200 到 300 条做一次小训加评估形成闭环盯着工具选择正确率的趋势走而不是一次性堆完再看。”面试官问这道题就是想看你有没有真的盯着一份评估报告做过决策。能说出格式飙升但工具选择没动模型默认先搜是因为数据里搜索轨迹占比太高这种具体观察的人和只会说效果不好就多训几轮的人差距一句话就听出来了。写在最后第一次训练的价值从来不是训出一个能用的模型而是用最小的成本暴露出数据的真实问题。187 条样本、一个 epoch、10 道测试题这套配置训不出什么像样的能力但它精准地告诉了我两件事格式这层能力很廉价几十条就够工具选择这层能力很昂贵要靠成百上千条配比正确的数据慢慢喂。知道了这两件事后面三个阶段的数据该往哪个方向堆、配比怎么调心里就有谱了。最怕的是第一次训练只看格式合规率看到 100% 就以为成了然后闷头把数据堆到几千条最后发现工具选择还是上不去回头都不知道问题出在第一步的分布偏移上。第一次训练不是用来庆祝的是用来归因的。这些训练和数据策略的完整细节我都整理在了网站项目案例里有 Deep Research Agent 从数据构造到训练评估的完整文档配可运行的脚本和每一步的评估报告题库里有工具选择、SFT 数据配比这些点的关联面试题按公司和难度分好了。学AI大模型的正确顺序千万不要搞错了2026年AI风口已来各行各业的AI渗透肉眼可见超多公司要么转型做AI相关产品要么高薪挖AI技术人才机遇直接摆在眼前有往AI方向发展或者本身有后端编程基础的朋友直接冲AI大模型应用开发转岗超合适就算暂时不打算转岗了解大模型、RAG、Prompt、Agent这些热门概念能上手做简单项目也绝对是求职加分王给大家整理了超全最新的AI大模型应用开发学习清单和资料手把手帮你快速入门学习路线:✅大模型基础认知—大模型核心原理、发展历程、主流模型GPT、文心一言等特点解析✅核心技术模块—RAG检索增强生成、Prompt工程实战、Agent智能体开发逻辑✅开发基础能力—Python进阶、API接口调用、大模型开发框架LangChain等实操✅应用场景开发—智能问答系统、企业知识库、AIGC内容生成工具、行业定制化大模型应用✅项目落地流程—需求拆解、技术选型、模型调优、测试上线、运维迭代✅面试求职冲刺—岗位JD解析、简历AI项目包装、高频面试题汇总、模拟面经以上6大模块看似清晰好上手实则每个部分都有扎实的核心内容需要吃透我把大模型的学习全流程已经整理好了抓住AI时代风口轻松解锁职业新可能希望大家都能把握机遇实现薪资/职业跃迁这份完整版的大模型 AI 学习资料已经上传CSDN朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】