通用大模型 CoT 项目标注规则文档
本文档适用于 CoT 数据构建项目中的标注员、质检员与项目负责人。页面风格参考你上传的网站模板进行了同风格重制。
1.1 项目背景
本项目面向通用大模型 SFT 阶段的 CoT(Chain of Thought)专项数据建设。模型在预训练后具备基础语言能力,但在复杂推理、多条件判断、约束理解和中间步骤展开方面仍存在短板。
为提升模型处理数学、逻辑、规则推断、文本分析和多步问题的能力,本项目采用“筛选问题 → 评估原始 think → 人工改写优质推理链 → 质检入库”的方式,构造高质量三段式训练数据:
Q(问题) → <think>(推理过程) → <answer>(最终答案)
1.2 项目目标
模型能力目标
- 提升数学与逻辑推理正确率
- 提升多约束任务的中间步骤稳定性
- 降低答案对、路径错的“假优质”样本占比
- 让模型学会在复杂题上给出更自然、更可核验的思考过程
数据交付目标
- 构建 30,000 条合格 CoT 数据
- 最终入库 24,000–27,000 条
- 首轮质检通过率 ≥ 85%
- 答案正确率 ≥ 97%,think-answer 一致率 ≥ 98%
1.3 CoT 质量优先级
2.1 数据来源
| 来源类型 | 占比参考 | 说明 |
|---|---|---|
| 历史问答语料池 | 35% | 从既有通用问答项目中筛出适合 CoT 化的问题 |
| 竞品模型输出 | 30% | 参考 QwQ、Claude、GPT 等模型的优质推理路径 |
| 人工构造样本 | 20% | 项目组围绕能力缺口手工设计高价值题目 |
| 公开数据清洗改写 | 15% | 对公开数学 / 逻辑 / 推理数据集做格式统一与再加工 |
2.2 输入 / 输出格式
输入字段
- Question / Prompt
- 参考答案(可选)
- 竞品 think(可选)
- Baseline 模型原输出(可选)
输出字段
- Q:用户问题
- <think>:推理过程
- <answer>:最终答案
- 质量等级 / 质检结论
3.1 人员分工
| 角色 | 人数 | 职责 |
|---|---|---|
| 项目经理 / 规则负责人 | 1 | 定规则、处理争议样本、把控质量阈值 |
| 培训讲师 / 试标校准 | 1 | 组织培训、试标、案例沉淀与口径统一 |
| 正式标注员 | 12 | 判断适配性、评估 think、改写或重写 CoT |
| 质检员 | 4 | 抽检、全检高风险题、返修判定、问题归因 |
3.2 人效假设
| 角色 | 每小时 | 每天 | 6 周正式期单人总量 | 备注 |
|---|---|---|---|---|
| 标注员 | 8–10 条 | 52–65 条 | 1,872–2,340 条 | 按 6.5 小时有效作业时长估算 |
| 质检员 | 18–25 条 | 117–162 条 | 4,212–5,832 条 | 人工抽检与重点复核并行 |
3.3 成本示意
| 角色 | 人数 | 单人月成本(元) | 周期(月) | 总成本(元) |
|---|---|---|---|---|
| 标注员 | 12 | 8,000 | 2 | 192,000 |
| 质检员 | 4 | 10,000 | 2 | 80,000 |
| 项目经理 | 1 | 15,000 | 2 | 30,000 |
| 培训负责人 | 1 | 14,000 | 2 | 28,000 |
| 项目总人工成本 | 约 330,000 元 | |||
4.1 核心策略
本项目采用 “筛选—评估—改写—复核—入库” 的标准生产链路。不是所有题都做 CoT,也不是所有 think 都值得修。
先判断题目是否适合 CoT
若一句话即可直接回答,或属于纯创意、纯宣传、明显高风险问题,则不进入 CoT 生产链路。
评估原始 think 质量
重点检查答案正确性、路径完整性、条件覆盖率、是否存在跳步与矛盾。
按等级决定轻改 / 重写 / 剔除
- A:轻改后可入库
- B:中度改写
- C:重写 think 与 answer
- D:剔除或转其他项目池
质检后入库
机审过滤 + 分层抽检 + 高风险全检,最终只保留可直接进入 SFT 训练集的数据。
4.2 质量等级定义
| 等级 | 定义 | 处理方式 |
|---|---|---|
| A 优质 | 基本可直接入库,仅需轻微格式修正或微调措辞 | 轻改 |
| B 可用 | 主体正确,但有冗余、跳步、表达不自然等问题 | 中度改写 |
| C 不佳 | 存在明显逻辑缺失或答案不稳,无法通过小修解决 | 重写 |
| D 不可用 | 题目不适合 CoT、无法核验、或含安全风险 | 剔除 |
5.1 适合做 CoT 的题型
例如方程、比例、排列组合、应用题。
例如真假话、排序、组合、约束满足、表格推断。
例如阅读理解、多条件比较、规则解释、选项排除。
5.2 不适合做 CoT 的题型
| 类型 | 原因 | 处理建议 |
|---|---|---|
| 纯创意写作 / 文案 | 更看重创意与风格,而非确定性推理路径 | 转普通创作或对话项目池 |
| 一句事实可直接回答的问题 | 无必要展开思维链,容易制造无效冗长 | 转普通 QA 池 |
| 算命 / 玄学 / 宣传类 | 训练目标与 CoT 推理增强不匹配 | 剔除 |
| 高风险安全类 | 不应训练详细推理路径,存在安全风险 | 按安全规则处理 |
| 顶级专业难题且无法核验 | 标注员无法确认正误,易引入伪高质数据 | 剔除或上报 |
6.1 核心规则维度
| 维度名称 | 解释 | 标注技巧 | 正向案例 | 负向案例 |
|---|---|---|---|---|
| 任务适配性 | 判断该问题是否值得做 CoT | 看是否需要多步分析;若一句话可答,不建议做 CoT | “一个班 40 人,男生比女生多 8 人,男女各多少?” | “法国首都是哪里?” |
| 需求理解充分 | think 是否准确抓住题意,不偏题、不漏条件 | 先把限制条件逐项圈出,再检查 think 是否全部覆盖 | 题目要求“按价格升序并排除缺货项”,think 明确处理两点 | 只做排序,漏掉“排除缺货项” |
| 推理完整 | 是否有清晰中间步骤,能支撑最终结论 | 看每个结论前是否有依据,不能从条件直接跳答案 | 先列已知,再分步计算,最后验算 | 中间关键步骤缺失,直接给结果 |
| 逻辑合理 | 步骤间是否前后自洽,无矛盾 | 倒推检查最终答案能否被前文支撑 | 前文得出总数 12,后文求和也为 12 | 前文判定 x>y,后文却按 x<y 推导 |
| 信息获取率高 | 是否提取了题目中的全部关键条件 | 逐个核对数字、否定词、范围词与限制项 | 注意到“至少”“不能重复”“只选一次” | 漏掉“不能重复”导致答案错误 |
| 去冗余 | think 是否简洁,不绕圈,不重复复述 | 删除空话、套话和低信息密度句子 | 4 步完成推理并得出结论 | 连续多句都在说“我需要认真思考” |
| 可验证性 | 关键步骤是否可以被人类检查 | 优先写可核验步骤,不写模糊感受判断 | “20×3=60,再减去10,得50” | “我感觉应该是这个答案” |
| 答案一致性 | answer 是否与 think 尾结论一致 | 最后单独核对 think 尾句与 answer 数值/文本 | think 得出 24,answer 也写 24 | think 算出 24,answer 却写 26 |
| 事实 / 计算正确性 | 最终答案是否客观正确 | 数学题重算,规则题反推,事实题查证 | 计算结果正确,规则匹配正确 | 步骤看似完整,但数字算错 |
| 风格自然度 | think 是否像高质量理性思考,而非模板堆叠 | 避免固定套话,保持自然、克制、专业 | “先看总量,再根据差值列方程。” | “首先我将开始全面系统地认真分析。” |
6.2 五大优质 CoT 标准
需求理解充分
- 精准围绕用户问题展开
- 条件覆盖率建议 ≥ 90%
推理完整
- 关键步骤不断裂
- 不存在不可解释跳步
逻辑合理
- 前后自洽
- 无明显矛盾与自我否定
信息获取率高
- 不遗漏关键限制条件
- 不把题干重要信息当背景噪声
表达自然克制
- 不机械、不空话、不啰嗦
- 像正常理性思考过程
加分项
- 表达有层次感
- 在不冗长的前提下更清晰易读
6.3 标注维度与选项
标注员在 Excel 表格中需按以下选项进行打标,保证口径统一。
prompt 判断
| 选项 | 说明 |
|---|---|
| 通过 | 题目适合做 CoT,进入后续标注流程 |
| 舍弃 | 题目不适合 CoT,剔除或转其他项目池 |
| 跳过(数学/英文) | 纯数学公式推导或纯英文题目,按项目规则跳过,需在「舍弃原因」中注明 |
优质竞品 think 选择
| 选项 | 说明 |
|---|---|
| think1 | 以 r1 模型的 think 为主要参考 |
| think2 | 以 qwq 模型的 think 为主要参考 |
| think1&think2 | 综合 r1 与 qwq 的 think 进行融合改写 |
| 其他参考(文心、豆包等) | 参考文心、豆包等其他竞品模型的输出 |
think 改写维度 / response 改写维度
当竞品输出存在问题时,需标注具体问题类型;若可直接通过则选「通过」。
| 选项 | 说明 |
|---|---|
| 通过 | 无需改写,可直接使用 |
| 指令不遵循 | 未按 prompt 要求作答 |
| 指令不遵循-中英文混杂 | 要求中文却输出英文,或中英混杂不符合要求 |
| 指令不遵循-不合理拒答 | 本可回答却无故拒绝 |
| 准确性错误 | 事实、计算或结论错误 |
| 逻辑错误 | 推理步骤矛盾、跳步或无法支撑结论 |
| 大量重复 | 同一内容反复出现 |
| 表达性问题-冗余 | 空话、套话、低信息密度 |
| 表达性问题-表达瑕疵 | 语病、不通顺、用词不当 |
| 内容低质-文创低质 | 创意写作类输出质量差 |
| 内容低质-问答低质 | 问答类输出信息不足或答非所问 |
| 格式错误-markdown 格式错误 | Markdown 语法错误、渲染异常 |
| 格式错误-其他格式问题 | 换行、标点、结构等格式不规范 |
| 安全性问题 | 含敏感、违规或高风险内容 |
| 异常截断 | 输出中途截断,内容不完整 |
| 其他问题 | 上述未覆盖的其他问题类型 |
6.4 标注示例
以下为「文本信息提取」类任务的标注示例,表格结构与 Excel 标注表横向一致,可左右滚动查看。
| prompt | r1 | qwq | think1 | answer1 | think2 | answer2 | prompt判断 | 舍弃原因 | 其他原因备注 | 优质竞品think选择 | think改写维度 | 改写原因 | 其他优质参考链接 | 最终think | 优质竞品response选择 | response改写维度 | 改写原因 | 其他优质参考链接 | 最终response | 标注人 | 质检结论 | 质检备注 | 质检人 | 验收结论 | 验收备注 | 验收人 |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| 文本:羽翔F150双无刷直驱遥控3D特技电动直升飞机六通道单桨成人 提取上述文本中和交通/运输工具相关的信息。注意:只需要提供具体的交通工具名称,如果存在多个,用竖线分隔;如果不存在,则输出「没有」,现在请给出提取的结果: |
— | — | 好的,我需要从给定的文本中提取与交通或运输工具相关的信息。文本是「羽翔F150双无刷直驱遥控3D特技电动直升飞机六通道单桨成人」。首先,我要仔细分析每个词语。 首先,「羽翔F150」可能是一个品牌或型号名称。接下来,「双无刷直驱」可能指的是电机类型,双无刷电机和直接驱动技术,属于技术参数。「遥控」说明这是通过遥控器控制的设备。「3D特技」可能指的是能够进行三维特技动作的功能。「电动」明确动力来源是电力。「直升飞机」是关键部分,这里明确提到了「直升飞机」,也就是直升机。后面的「六通道单桨」可能描述其控制通道和桨叶结构,属于技术细节。「成人」可能指适合成年人使用。 现在需要确定哪些部分属于交通工具名称。交通工具通常指用于运输人或货物的设备,如汽车、飞机、船舶等。这里明确提到「直升飞机」,属于直升机类别,是交通工具中的一种。其他部分如「羽翔F150」可能是型号,但本身不单独构成交通工具名称,而是作为型号名称与直升机结合。其他技术参数如「双无刷直驱」、「电动」等是描述特性,不属于名称部分。 因此,提取的结果应该是「直升飞机」。需要检查是否存在多个名称,但文本中只有「直升飞机」一个明确的交通工具名称。其他部分如「F150」可能作为型号补充,但单独不算交通工具名称。因此,最终结果应为「直升飞机」。 |
直升飞机 | 好的,我现在需要处理用户提供的这个文本,提取出和交通或运输工具相关的信息。用户给的文本是:「羽翔F150双无刷直驱遥控3D特技电动直升飞机六通道单桨成人」。首先,我要仔细分析每个部分,看看哪些属于交通工具。 首先,「羽翔F150」看起来像是产品型号,可能属于某个品牌的产品,但不确定具体是什么类型的交通工具。接下来的「双无刷直驱」可能是指电机类型,属于技术参数,不是交通工具名称。「遥控3D特技」描述的是功能或用途,可能是指遥控的3D特技表演,这部分也不是交通工具名称本身。 然后,「电动直升飞机」这几个词组合起来,应该是一个交通工具,具体来说是直升机的一种,属于航空类交通工具。这里的关键是「直升飞机」,也就是直升机,属于交通工具的一种。后面的「六通道单桨成人」可能描述的是技术规格和适用人群,比如六通道遥控、单旋翼设计,以及适合成人使用,这些都不属于交通工具的名称部分。 所以,整个文本中明确提到的交通工具名称就是「直升飞机」。虽然前面有「羽翔F150」作为型号,但用户要求的是具体的交通工具名称,而不是型号或品牌,因此只需要提取「直升飞机」即可。检查是否有其他可能的交通工具,比如是否有汽车、飞机等,但这里只有直升机相关的内容。因此最终结果应该是「直升飞机」。 不过,再仔细看看有没有其他可能被忽略的部分。比如「电动」是否属于交通工具的一部分?通常交通工具名称可能包含「电动」作为修饰词,比如电动车,但这里明确是「电动直升飞机」,所以整个名称是「电动直升飞机」还是「直升飞机」?根据用户的要求,需要具体的交通工具名称,可能更倾向于「直升飞机」,因为「电动」只是动力类型,而核心名称是直升机。查一下,通常直升飞机作为交通工具的名称,而「电动」只是其类型,所以核心名称还是「直升飞机」。因此最终提取的应该是「直升飞机」。另外,确认是否存在其他交通工具,但原文是「直升飞机」,可能是一个词,所以直接提取。因此答案应该是「直升飞机」。 |
直升飞机 | 通过 | — | — | think1 | 表达性问题-冗余 | 原 think 已较完整,仅微调去冗余 | — | 好的,我需要从给定的文本中提取与交通或运输工具相关的信息。文本是「羽翔F150双无刷直驱遥控3D特技电动直升飞机六通道单桨成人」。首先分析各词语:「羽翔F150」为型号,「双无刷直驱」「遥控」「3D特技」「电动」「六通道单桨」「成人」为技术参数或描述。「直升飞机」明确属于交通工具。因此提取结果为「直升飞机」。 |
answer1 | 通过 | 答案正确,无需改写 | — | 直升飞机 | 张三 | Pass | — | 李四 | 通过 | — | 王五 |
7.1 标注员单条作业流程
阅读问题
确认题目问什么,标出所有显式条件与隐藏限制。
判断是否适合 CoT
不适合则剔除或转普通问答池,不进入后续改写。
阅读原始 answer / think
先看 answer 是否正确,再看 think 是否真的支撑了 answer。
判定质量等级
按 A / B / C / D 四级打标,决定轻改、中改、重写或剔除。
改写 think 与 answer
保留正确思路,删除错误路径与废话,必要时整体重写。
提交前自检
- 条件是否齐全
- 有无跳步或矛盾
- answer 是否正确且一致
- 格式是否符合规范
7.2 推荐写法模板
| 题型 | 推荐结构 | 说明 |
|---|---|---|
| 数学 / 计算类 | 提取已知 → 确定关系 → 分步计算 → 验算 → 输出答案 | 不要堆叠无用解释,重点写清式子与关系 |
| 逻辑 / 规则类 | 列约束 → 逐条排除 → 保留可能项 → 得出结论 | 推荐显式写出排除依据 |
| 文本分析类 | 明确问题 → 定位信息 → 对比候选解释 → 输出结论 | 不要用空泛语言替代证据 |
8.1 质检维度
结果层检查
- 题目是否真的适配 CoT
- 最终 answer 是否正确
- think 与 answer 是否一致
- 格式是否符合统一规范
过程层检查
- 推理链是否完整、无关键断层
- 是否遗漏重要条件
- 是否存在逻辑矛盾
- 表达是否冗余、机械、低信息密度
8.2 质检抽样机制
| 阶段 | 抽检策略 | 说明 |
|---|---|---|
| 首周校准期 | 100% 全检 | 新标注员连续两天准确率 ≥ 95% 后方可转抽检 |
| 正式生产期 | 普通标注员 20% 抽检 | 波动大、返修多、新人提升至 50% 抽检 |
| 高风险题型 | 30%–50% 抽检 | 复杂数学、多约束逻辑、争议样本重点关注 |
| 终轮验收 | A/B 样本 5% 验收抽检;C 级样本 15%–20% | 控制“返修后表面变好、实则仍错”的情况 |
8.3 质检判级
| 结果 | 定义 | 处理方式 |
|---|---|---|
| Pass | 可直接通过 | 入库 |
| Pass with Edit | 存在轻微问题,但不影响训练方向 | 质检修正后入库 |
| Reject-Revise | 存在明显问题,但仍可返修 | 退回标注员 |
| Reject-Drop | 问题严重或不适配项目 | 剔除 |