通用大模型 CoT 项目标注规则文档

本文档适用于 CoT 数据构建项目中的标注员、质检员与项目负责人。页面风格参考你上传的网站模板进行了同风格重制。

文档版本
v1.0
生效日期
2026-03-18
项目代号
COT-SFT-01
标注方式
评估 + 改写 + 质检
适用角色
标注 / 质检 / PM
1
项目背景与目标

1.1 项目背景

本项目面向通用大模型 SFT 阶段的 CoT(Chain of Thought)专项数据建设。模型在预训练后具备基础语言能力,但在复杂推理、多条件判断、约束理解和中间步骤展开方面仍存在短板。

为提升模型处理数学、逻辑、规则推断、文本分析和多步问题的能力,本项目采用“筛选问题 → 评估原始 think → 人工改写优质推理链 → 质检入库”的方式,构造高质量三段式训练数据:

Q(问题) → <think>(推理过程) → <answer>(最终答案)

CoT 项目的核心不是让模型“写得更长”,而是让模型学会 理解条件、逐步推理、稳定得出正确结论。因此所有规则都围绕“正确、完整、自洽、可验证”四个关键词展开。

1.2 项目目标

模型能力目标

  • 提升数学与逻辑推理正确率
  • 提升多约束任务的中间步骤稳定性
  • 降低答案对、路径错的“假优质”样本占比
  • 让模型学会在复杂题上给出更自然、更可核验的思考过程

数据交付目标

  • 构建 30,000 条合格 CoT 数据
  • 最终入库 24,000–27,000 条
  • 首轮质检通过率 ≥ 85%
  • 答案正确率 ≥ 97%,think-answer 一致率 ≥ 98%

1.3 CoT 质量优先级

正确性一票否决
逻辑完整关键闭环
信息覆盖不漏条件
表达自然克制简洁
2
数据概况
原始候选池
120,000
条候选问题
适合 CoT
48,000
筛选后保留
目标产出
30,000
进入正式生产
入库目标
24k–27k
通过率 80–90%

2.1 数据来源

来源类型占比参考说明
历史问答语料池35%从既有通用问答项目中筛出适合 CoT 化的问题
竞品模型输出30%参考 QwQ、Claude、GPT 等模型的优质推理路径
人工构造样本20%项目组围绕能力缺口手工设计高价值题目
公开数据清洗改写15%对公开数学 / 逻辑 / 推理数据集做格式统一与再加工

2.2 输入 / 输出格式

输入字段

  • Question / Prompt
  • 参考答案(可选)
  • 竞品 think(可选)
  • Baseline 模型原输出(可选)

输出字段

  • Q:用户问题
  • <think>:推理过程
  • <answer>:最终答案
  • 质量等级 / 质检结论
统一要求:think 必须服务 answer,answer 必须能被 think 支撑。不允许出现“答案碰巧对,但推理路径不可用”的样本入库。
3
人力配置与人效
总人数
18
含 PM 与培训
正式标注员
12
CoT 主生产
质检员
4
抽检 + 重点全检
总周期
8 周
1+6+1 模式

3.1 人员分工

角色人数职责
项目经理 / 规则负责人1定规则、处理争议样本、把控质量阈值
培训讲师 / 试标校准1组织培训、试标、案例沉淀与口径统一
正式标注员12判断适配性、评估 think、改写或重写 CoT
质检员4抽检、全检高风险题、返修判定、问题归因

3.2 人效假设

角色每小时每天6 周正式期单人总量备注
标注员8–10 条52–65 条1,872–2,340 条按 6.5 小时有效作业时长估算
质检员18–25 条117–162 条4,212–5,832 条人工抽检与重点复核并行

3.3 成本示意

角色人数单人月成本(元)周期(月)总成本(元)
标注员128,0002192,000
质检员410,000280,000
项目经理115,000230,000
培训负责人114,000228,000
项目总人工成本约 330,000 元
4
项目生产策略

4.1 核心策略

本项目采用 “筛选—评估—改写—复核—入库” 的标准生产链路。不是所有题都做 CoT,也不是所有 think 都值得修。

先判断题目是否适合 CoT

若一句话即可直接回答,或属于纯创意、纯宣传、明显高风险问题,则不进入 CoT 生产链路。

评估原始 think 质量

重点检查答案正确性、路径完整性、条件覆盖率、是否存在跳步与矛盾。

按等级决定轻改 / 重写 / 剔除

  • A:轻改后可入库
  • B:中度改写
  • C:重写 think 与 answer
  • D:剔除或转其他项目池

质检后入库

机审过滤 + 分层抽检 + 高风险全检,最终只保留可直接进入 SFT 训练集的数据。

4.2 质量等级定义

等级定义处理方式
A 优质基本可直接入库,仅需轻微格式修正或微调措辞轻改
B 可用主体正确,但有冗余、跳步、表达不自然等问题中度改写
C 不佳存在明显逻辑缺失或答案不稳,无法通过小修解决重写
D 不可用题目不适合 CoT、无法核验、或含安全风险剔除
优先参考
r1 / QwQ
think1、think2 对应 r1、qwq 模型输出,可综合选用或融合改写。
其他参考
文心、豆包等
标注时可选「其他参考」,参考文心、豆包等竞品进行补充。
使用原则
竞品只做参考
最终写入训练集的路径必须由标注员独立判断、核验与重组。
5
题型与适配边界

5.1 适合做 CoT 的题型

🧮
数学计算类
需要列式、变形、分步运算

例如方程、比例、排列组合、应用题。

列式验算多步计算
🧠
逻辑规则类
需要综合条件、排除与判断

例如真假话、排序、组合、约束满足、表格推断。

约束排除法条件整合
📄
文本分析类
需要定位信息、比较和综合

例如阅读理解、多条件比较、规则解释、选项排除。

定位比较归纳

5.2 不适合做 CoT 的题型

类型原因处理建议
纯创意写作 / 文案更看重创意与风格,而非确定性推理路径转普通创作或对话项目池
一句事实可直接回答的问题无必要展开思维链,容易制造无效冗长转普通 QA 池
算命 / 玄学 / 宣传类训练目标与 CoT 推理增强不匹配剔除
高风险安全类不应训练详细推理路径,存在安全风险按安全规则处理
顶级专业难题且无法核验标注员无法确认正误,易引入伪高质数据剔除或上报
判断适配性时只问三个问题:是否至少需要 2 步推理?是否存在多个条件?最终结论是否依赖中间过程? 三问中有两问以上为“是”,通常可进入 CoT 流程。
6
标注规则表

6.1 核心规则维度

维度名称解释标注技巧正向案例负向案例
任务适配性 判断该问题是否值得做 CoT 看是否需要多步分析;若一句话可答,不建议做 CoT “一个班 40 人,男生比女生多 8 人,男女各多少?” “法国首都是哪里?”
需求理解充分 think 是否准确抓住题意,不偏题、不漏条件 先把限制条件逐项圈出,再检查 think 是否全部覆盖 题目要求“按价格升序并排除缺货项”,think 明确处理两点 只做排序,漏掉“排除缺货项”
推理完整 是否有清晰中间步骤,能支撑最终结论 看每个结论前是否有依据,不能从条件直接跳答案 先列已知,再分步计算,最后验算 中间关键步骤缺失,直接给结果
逻辑合理 步骤间是否前后自洽,无矛盾 倒推检查最终答案能否被前文支撑 前文得出总数 12,后文求和也为 12 前文判定 x>y,后文却按 x<y 推导
信息获取率高 是否提取了题目中的全部关键条件 逐个核对数字、否定词、范围词与限制项 注意到“至少”“不能重复”“只选一次” 漏掉“不能重复”导致答案错误
去冗余 think 是否简洁,不绕圈,不重复复述 删除空话、套话和低信息密度句子 4 步完成推理并得出结论 连续多句都在说“我需要认真思考”
可验证性 关键步骤是否可以被人类检查 优先写可核验步骤,不写模糊感受判断 “20×3=60,再减去10,得50” “我感觉应该是这个答案”
答案一致性 answer 是否与 think 尾结论一致 最后单独核对 think 尾句与 answer 数值/文本 think 得出 24,answer 也写 24 think 算出 24,answer 却写 26
事实 / 计算正确性 最终答案是否客观正确 数学题重算,规则题反推,事实题查证 计算结果正确,规则匹配正确 步骤看似完整,但数字算错
风格自然度 think 是否像高质量理性思考,而非模板堆叠 避免固定套话,保持自然、克制、专业 “先看总量,再根据差值列方程。” “首先我将开始全面系统地认真分析。”

6.2 五大优质 CoT 标准

需求理解充分

  • 精准围绕用户问题展开
  • 条件覆盖率建议 ≥ 90%

推理完整

  • 关键步骤不断裂
  • 不存在不可解释跳步

逻辑合理

  • 前后自洽
  • 无明显矛盾与自我否定

信息获取率高

  • 不遗漏关键限制条件
  • 不把题干重要信息当背景噪声

表达自然克制

  • 不机械、不空话、不啰嗦
  • 像正常理性思考过程

加分项

  • 表达有层次感
  • 在不冗长的前提下更清晰易读

6.3 标注维度与选项

标注员在 Excel 表格中需按以下选项进行打标,保证口径统一。

prompt 判断

选项说明
通过题目适合做 CoT,进入后续标注流程
舍弃题目不适合 CoT,剔除或转其他项目池
跳过(数学/英文)纯数学公式推导或纯英文题目,按项目规则跳过,需在「舍弃原因」中注明

优质竞品 think 选择

选项说明
think1以 r1 模型的 think 为主要参考
think2以 qwq 模型的 think 为主要参考
think1&think2综合 r1 与 qwq 的 think 进行融合改写
其他参考(文心、豆包等)参考文心、豆包等其他竞品模型的输出

think 改写维度 / response 改写维度

当竞品输出存在问题时,需标注具体问题类型;若可直接通过则选「通过」。

选项说明
通过无需改写,可直接使用
指令不遵循未按 prompt 要求作答
指令不遵循-中英文混杂要求中文却输出英文,或中英混杂不符合要求
指令不遵循-不合理拒答本可回答却无故拒绝
准确性错误事实、计算或结论错误
逻辑错误推理步骤矛盾、跳步或无法支撑结论
大量重复同一内容反复出现
表达性问题-冗余空话、套话、低信息密度
表达性问题-表达瑕疵语病、不通顺、用词不当
内容低质-文创低质创意写作类输出质量差
内容低质-问答低质问答类输出信息不足或答非所问
格式错误-markdown 格式错误Markdown 语法错误、渲染异常
格式错误-其他格式问题换行、标点、结构等格式不规范
安全性问题含敏感、违规或高风险内容
异常截断输出中途截断,内容不完整
其他问题上述未覆盖的其他问题类型
think 与 response 共用同一套改写维度选项。标注时分别对 think 和 response 进行判断,可多选或组合标注(如同时存在「准确性错误」和「表达性问题-冗余」时,在「改写原因」中说明)。

6.4 标注示例

以下为「文本信息提取」类任务的标注示例,表格结构与 Excel 标注表横向一致,可左右滚动查看。

prompt r1 qwq think1 answer1 think2 answer2 prompt判断 舍弃原因 其他原因备注 优质竞品think选择 think改写维度 改写原因 其他优质参考链接 最终think 优质竞品response选择 response改写维度 改写原因 其他优质参考链接 最终response 标注人 质检结论 质检备注 质检人 验收结论 验收备注 验收人
文本:羽翔F150双无刷直驱遥控3D特技电动直升飞机六通道单桨成人

提取上述文本中和交通/运输工具相关的信息。注意:只需要提供具体的交通工具名称,如果存在多个,用竖线分隔;如果不存在,则输出「没有」,现在请给出提取的结果:
好的,我需要从给定的文本中提取与交通或运输工具相关的信息。文本是「羽翔F150双无刷直驱遥控3D特技电动直升飞机六通道单桨成人」。首先,我要仔细分析每个词语。

首先,「羽翔F150」可能是一个品牌或型号名称。接下来,「双无刷直驱」可能指的是电机类型,双无刷电机和直接驱动技术,属于技术参数。「遥控」说明这是通过遥控器控制的设备。「3D特技」可能指的是能够进行三维特技动作的功能。「电动」明确动力来源是电力。「直升飞机」是关键部分,这里明确提到了「直升飞机」,也就是直升机。后面的「六通道单桨」可能描述其控制通道和桨叶结构,属于技术细节。「成人」可能指适合成年人使用。

现在需要确定哪些部分属于交通工具名称。交通工具通常指用于运输人或货物的设备,如汽车、飞机、船舶等。这里明确提到「直升飞机」,属于直升机类别,是交通工具中的一种。其他部分如「羽翔F150」可能是型号,但本身不单独构成交通工具名称,而是作为型号名称与直升机结合。其他技术参数如「双无刷直驱」、「电动」等是描述特性,不属于名称部分。

因此,提取的结果应该是「直升飞机」。需要检查是否存在多个名称,但文本中只有「直升飞机」一个明确的交通工具名称。其他部分如「F150」可能作为型号补充,但单独不算交通工具名称。因此,最终结果应为「直升飞机」。
直升飞机
好的,我现在需要处理用户提供的这个文本,提取出和交通或运输工具相关的信息。用户给的文本是:「羽翔F150双无刷直驱遥控3D特技电动直升飞机六通道单桨成人」。首先,我要仔细分析每个部分,看看哪些属于交通工具。

首先,「羽翔F150」看起来像是产品型号,可能属于某个品牌的产品,但不确定具体是什么类型的交通工具。接下来的「双无刷直驱」可能是指电机类型,属于技术参数,不是交通工具名称。「遥控3D特技」描述的是功能或用途,可能是指遥控的3D特技表演,这部分也不是交通工具名称本身。

然后,「电动直升飞机」这几个词组合起来,应该是一个交通工具,具体来说是直升机的一种,属于航空类交通工具。这里的关键是「直升飞机」,也就是直升机,属于交通工具的一种。后面的「六通道单桨成人」可能描述的是技术规格和适用人群,比如六通道遥控、单旋翼设计,以及适合成人使用,这些都不属于交通工具的名称部分。

所以,整个文本中明确提到的交通工具名称就是「直升飞机」。虽然前面有「羽翔F150」作为型号,但用户要求的是具体的交通工具名称,而不是型号或品牌,因此只需要提取「直升飞机」即可。检查是否有其他可能的交通工具,比如是否有汽车、飞机等,但这里只有直升机相关的内容。因此最终结果应该是「直升飞机」。

不过,再仔细看看有没有其他可能被忽略的部分。比如「电动」是否属于交通工具的一部分?通常交通工具名称可能包含「电动」作为修饰词,比如电动车,但这里明确是「电动直升飞机」,所以整个名称是「电动直升飞机」还是「直升飞机」?根据用户的要求,需要具体的交通工具名称,可能更倾向于「直升飞机」,因为「电动」只是动力类型,而核心名称是直升机。查一下,通常直升飞机作为交通工具的名称,而「电动」只是其类型,所以核心名称还是「直升飞机」。因此最终提取的应该是「直升飞机」。另外,确认是否存在其他交通工具,但原文是「直升飞机」,可能是一个词,所以直接提取。因此答案应该是「直升飞机」。
直升飞机 通过 think1 表达性问题-冗余 原 think 已较完整,仅微调去冗余
好的,我需要从给定的文本中提取与交通或运输工具相关的信息。文本是「羽翔F150双无刷直驱遥控3D特技电动直升飞机六通道单桨成人」。首先分析各词语:「羽翔F150」为型号,「双无刷直驱」「遥控」「3D特技」「电动」「六通道单桨」「成人」为技术参数或描述。「直升飞机」明确属于交通工具。因此提取结果为「直升飞机」。
answer1 通过 答案正确,无需改写 直升飞机 张三 Pass 李四 通过 王五
7
标注执行 SOP

7.1 标注员单条作业流程

1

阅读问题

确认题目问什么,标出所有显式条件与隐藏限制。

2

判断是否适合 CoT

不适合则剔除或转普通问答池,不进入后续改写。

3

阅读原始 answer / think

先看 answer 是否正确,再看 think 是否真的支撑了 answer。

4

判定质量等级

按 A / B / C / D 四级打标,决定轻改、中改、重写或剔除。

5

改写 think 与 answer

保留正确思路,删除错误路径与废话,必要时整体重写。

6

提交前自检

  • 条件是否齐全
  • 有无跳步或矛盾
  • answer 是否正确且一致
  • 格式是否符合规范

7.2 推荐写法模板

题型推荐结构说明
数学 / 计算类提取已知 → 确定关系 → 分步计算 → 验算 → 输出答案不要堆叠无用解释,重点写清式子与关系
逻辑 / 规则类列约束 → 逐条排除 → 保留可能项 → 得出结论推荐显式写出排除依据
文本分析类明确问题 → 定位信息 → 对比候选解释 → 输出结论不要用空泛语言替代证据
💡
提交前必做四件事:重算一次、反推一次、对齐一次、删空话一次。这是 CoT 项目里最便宜、也最有效的提质动作。
8
质检标准

8.1 质检维度

结果层检查

  • 题目是否真的适配 CoT
  • 最终 answer 是否正确
  • think 与 answer 是否一致
  • 格式是否符合统一规范

过程层检查

  • 推理链是否完整、无关键断层
  • 是否遗漏重要条件
  • 是否存在逻辑矛盾
  • 表达是否冗余、机械、低信息密度

8.2 质检抽样机制

阶段抽检策略说明
首周校准期100% 全检新标注员连续两天准确率 ≥ 95% 后方可转抽检
正式生产期普通标注员 20% 抽检波动大、返修多、新人提升至 50% 抽检
高风险题型30%–50% 抽检复杂数学、多约束逻辑、争议样本重点关注
终轮验收A/B 样本 5% 验收抽检;C 级样本 15%–20%控制“返修后表面变好、实则仍错”的情况

8.3 质检判级

结果定义处理方式
Pass可直接通过入库
Pass with Edit存在轻微问题,但不影响训练方向质检修正后入库
Reject-Revise存在明显问题,但仍可返修退回标注员
Reject-Drop问题严重或不适配项目剔除

8.4 项目 KPI

首轮质检通过率
≥85%
核心过程指标
答案正确率
≥97%
一票否决项
一致率
≥98%
think-answer 对齐
非 CoT 误入率
≤5%
适配判断能力
最终交付标准:题目适配 CoT、推理链完整、答案正确、think-answer 一致、格式规范、通过质检阈值,方可进入 SFT 训练集。