领域里的专业理解是基础模型在产业中实际应用的最大门槛。各行业都在发展过程中沉淀了大量的运行数据、科研论文、工作文档、图片影像,在这些原始数据中沉淀了宝贵的领域知识,但原始数据模型无法直接学习。例如,在电商领域,有商品的文字描述、展示图片、购买记录,在科研领域,有论文文章、论证公式、实验图表,在工业领域,有设备的运行时序数据、性能状态、结构图纸。利用大模型的理解能力,可以将不同格式的数据提炼成描述文字,这在业内被称为“Data to Caption”。例如,根据设备明细数据总结产线的运行状态、理解产品图片并生成质量描述,把“生数据”做成“熟知识”,转化为模型可以学习或利用的问答对,补足领域知识缺陷。
在模型对齐阶段合成数据标注的占比正在快速增加,能大幅提升训练效率,理论上以能力较弱的模型训练出能力更强的模型(Weak to Strong),被认为是当前技术向通用人工智能演进的必经突破口。例如,Nvidia披露了Nemotron-4模型的训练过程,利用奖励模型产生的合成数据占比在对齐阶段达到了98%。同时在Llama 3的技术报告中提到利用合成数据实现自博弈强化学习(Self-Play RL),即让大语言模型对自己生成的回复打分,并根据打分形成新的训练数据,再继续训练模型。
模型合成的数据被用于模型自身训练并提高模型能力,也引发了模型能力过强、脱离人类控制的担忧,通过人类的参与和控制(Human in/over the loop)可以控制模型逃逸或者失控风险。对此,头部厂商不断提高合成数据技术的透明度,例如OpenAI向用户展示思维链CoT输出总结,让模型合成数据并用于模型训练的过程受到人类监督和控制。与此同时,头部厂商正在利用合成数据监控模型能力、管控模型风险。例如,OpenAI最新发布的o1大模型在复杂推理能力上显著提升,研发团队相应设置了对思维链(CoT)输出结果的欺骗性检测,该方案利用ChatGPT合成提问数据,评估并监测o1模型的回复是否有意或无意地忽略重点事实和人类要求。两项测试结果显示,通过有效的技术透明可以实现模型风险可控,合成数据并未引发模型“超级智能”的逃逸,而合成数据在安全方面的应用可以成为管控模型风险、保持模型可控性的一项抓手。