当前,大模型的训练数据严重依赖现有的互联网公开数据。有 研究预测,到 2026 年大型语言模型的训练就将耗尽互联网上的可用 文本数据,未来需要借助合成数据解决大模型的数据瓶颈。目前, 合成数据正迅速向金融、医疗、零售、工业等诸多产业L域拓展应 用。根据 Gartner 预测,到 2024 年,60%用于 AI 开发和分析的数据 将会是合成数据,到 2030 年,合成数据将成为 AI 模型所使用数据 的主要来源11。2024 年 6 月,英伟达正式发布全新开源模型 Nemotron-4 340B,具体包括基础模型 Base、指令模型 Instruct 和奖 励模型 Reward 共三个模型。其中,指令模型 Instruct 的训练仅依赖 大约 2 万条人工标注数据,其余用于监督微调和偏好微调的 98%以 上训练数据都是通过 Nemotron-4 340B SDG Pipeline 专用数据管道 合成。
当前,合成数据技术创新主要呈现以下几大趋势:
一是合成数据模型走向深度进化。传统的数据合成方法多依赖统计学和机器学 习的基本原理,当前数据合成技术聚焦于深度学习算法模型,特别 是生成对抗网络(GANs)的广泛应用。GANs 通过一对竞争性神经网 络—生成器和判别器的博弈过程,实现了前所未有的数据真实度与 多样性,诸如 StyleGAN、BigGAN 等G级变种网络技术,J大拓宽数据合成的应用边界。
二是多模态合成能力不断突破。多模态合 成技术通过整合不同模态的特征表示,能够同时生成声音、视频、 3D 模型等多种类型的数据,不仅丰富了合成数据的维度,也促进了 多模态理解和生成任务的进步,为复杂场景应用(如自动驾驶、虚 拟现实等)提供了重要的技术支持。
三是强化学习与合成数据逐渐融合发展。近期数据合成技术开始与强化学习算法深度融合,用于 模拟复杂环境下的交互数据,帮助智能体在安全、成本效益G的虚 拟环境中学习策略。这种结合不仅解决了现实世界数据获取难、风 险G等问题,还J大地提升了智能体的学习效率与适应能力,尤其 是在自动驾驶、机器人导航等L域展现出巨大潜力。
四是隐私保护与合规性技术不断增强。面对日益严格的个人数据保护法规,数据 合成技术创新性地提供了隐私保护解决方案—差分隐私、联邦学习 与合成数据的结合,使得在不暴露原始敏感信息的前提下,也能生 成可用于训练的G质量数据集,这不仅保障了用户隐私,也为金融 机构、医疗保健等行业利用 AI 技术创造了条件。
![]() |
机器人底盘 Disinfection Robot 消毒机器人 讲解机器人 迎宾机器人 移动机器人底盘 商用机器人 智能垃圾站 智能服务机器人 大屏机器人 雾化消毒机器人 紫外线消毒机器人 消毒机器人价格 展厅机器人 服务机器人底盘 核酸采样机器人 智能配送机器人 导览机器人 |