文章作者、来源：新智元随着基础模型规模不断扩大，真实数据在成本、隐私、质量和可控性上的限制，正逐渐成为 AI 继续发展的关键瓶颈。尤其是在医疗等高价值场景中，真实数据本身难以获取，「依赖数据自然产生」的范式正在失效。在这样的背景下，合成数据正在从「真实数据的补充」，转变为“主动构造高质量训练与评估数据的核心机制”文章作者、来源：新智元随着基础模型规模不断扩大，真实数据在成本、隐私、质量和可控性上的限制，正逐渐成为 AI 继续发展的关键瓶颈。尤其是在医疗等高价值场景中，真实数据本身难以获取，「依赖数据自然产生」的范式正在失效。在这样的背景下，合成数据正在从「真实数据的补充」，转变为“主动构造高质量训练与评估数据的核心机制”

合成数据≠生成模型：一文读懂合成数据的全新范式

来源：MetaEra

2026/04/16 14:43

阅读时长 10 分钟

如需对本内容提供反馈或相关疑问，请通过邮箱 [email protected] 联系我们。

文章作者、来源：新智元

随着基础模型规模不断扩大，真实数据在成本、隐私、质量和可控性上的限制，正逐渐成为 AI 继续发展的关键瓶颈。

尤其是在医疗等高价值场景中，真实数据本身难以获取，「依赖数据自然产生」的范式正在失效。

在这样的背景下，合成数据正在从「真实数据的补充」，转变为“主动构造高质量训练与评估数据的核心机制”。

基于对300+篇代表性文献的系统梳理，南洋理工大学、清华大学、四川大学、中山大学的研究人员提出了一个统一的How / Why / Where框架，重新定义了合成数据的方法边界，并从应用层面给出了更完整的发展路径。

论文链接：https://www.techrxiv.org/users/1016218/articles/1378802-synthetic-data-beyond-generative-models-a-comprehensive-survey-of-how-why-and-where

论文资源库：https://github.com/Egg-Hu/Awesome-Synthetic-Data-Generation

首先，合成数据方法该如何分类？

很多工作默认认为「合成数据 = 生成模型」，该综述重新定义了「数据合成」的方法边界，跳出「合成数据 = 生成模型」的单一视角。也就是说，合成数据并不等同于“用生成模型造数据”，反演、仿真、增强等方式也都应被纳入合成数据的范畴。

下表给出了整体分类框架：

第二，合成数据应用在哪些核心场景？

不同于以往按具体任务或领域划分的方式，本文从更高层次出发，将合成数据的应用组织为一条逐步演进的能力路径。

在这一框架下，最基础的是数据中心人工智能（Data-centric AI），其核心目标是解决真实数据稀缺、获取成本高以及隐私受限等问题，通过合成数据扩展训练集并提升数据质量，为模型训练提供稳定的数据基础。

在此之上，随着数据可获得性的提升，研究重点逐渐转向模型中心人工智能（Model-centric AI），此时合成数据不仅用于补充数据，还被用于能力注入，例如提升模型的推理、编码与对齐能力，并构建可控的评测基准。

进一步地，随着模型能力的增强，对系统可靠性的需求不断提高，催生了可信人工智能（Trustworthy AI），在这一阶段，合成数据被广泛用于隐私保护、安全防护、公平性提升以及模型可解释性分析。

最后，合成数据的应用从数字空间走向现实世界，对应的是具身智能（Embodied AI），其目标是支持感知、交互与泛化能力，使智能体能够在复杂物理环境中进行决策与行动。下表给出了整体结构（具体细节可参考原论文）：

进一步地，文章将上述四类应用场景细化到了 30+ 个具体机器学习任务层级，从而构建起从宏观分类到具体问题的系统化映射。

如下图所示，每一类场景都被进一步拆解为多个典型问题：例如，在数据中心人工智能中，涵盖了零/少样本学习、联邦学习、无数据学习、数据蒸馏等任务；在模型中心人工智能中，则进一步细化为模型通用能力提升，以及推理、编码、指令对齐等特定能力的增强，同时也包括基于合成数据的模型评测任务；

在可信人工智能中，主要聚焦于隐私保护、模型攻击、安全防护、长尾学习与可解释性等任务；而在具身智能中，则进一步延伸到感知、交互以及跨场景泛化等面向真实环境的任务。

最后，合成数据面临哪些挑战与机遇？

尽管在方法体系与应用落地方面已经取得了显著进展，但合成数据仍处于快速发展阶段，仍然存在一系列关键挑战有待解决。

随着模型越来越多地依赖自生成数据进行训练，一个核心风险逐渐显现：模型坍塌（model collapse）。当模型反复在自身生成的数据上迭代训练时，可能导致分布逐渐收缩，数据多样性下降，从而影响模型性能与泛化能力。
在实际应用中，如何在数据效用与隐私保护之间取得平衡，仍然是一个长期存在的问题，即所谓的数据效用与隐私保护的权衡（utility–privacy tradeoff）。过强的隐私约束可能降低数据可用性，而过高的数据保真度又可能带来潜在的隐私泄露风险。
当合成数据被用于模型评测时，还可能引入新的偏差来源。例如，生成-评测偏差（generation–evaluation bias）指的是模型在由相似生成机制产生的测试数据上表现更优，从而导致评估结果失真，影响对模型真实能力的判断。
在方法层面，多个前沿方向也仍有待探索。例如，主动式数据合成（active data synthesis）强调根据模型需求动态生成最有价值的数据，以提升数据利用效率；而多模态数据合成（multi-modal data synthesis）则关注如何生成语义一致、跨模态对齐的高质量数据，这对于多模态模型的发展尤为关键。
最后，一个基础但尚未完全解决的问题是：如何系统性评估合成数据的质量。这不仅包括数据的有效性（utility）与多样性（diversity），还涉及隐私（privacy）与安全性（security）等多个维度，目前仍缺乏统一且标准化的评测体系。

下图给出了该综述的总体整理框架，具体细节可参考原文。

这篇综述最值得关注的地方，不只是整理了现有方法，更重要的是它改变了我们理解合成数据的方式：合成数据不再只是生成模型的一个应用方向，而正在成为连接数据、模型、评测与真实世界交互的新型基础设施。

如果说过去AI的竞争核心是「谁拥有更多真实数据」，那么未来很可能会变成「谁能更高效、更安全、更可控地生成高价值数据」。

仅需一分钟，20 USDT 免费拿！

充值 $100，多拿 $300 GOLD 仓位！

免责声明: 本网站转载的文章均来源于公开平台，仅供参考。这些文章不代表 MEXC 的观点或意见。所有版权归原作者所有。如果您认为任何转载文章侵犯了第三方权利，请联系 [email protected] 以便将其删除。MEXC 不对转载文章的及时性、准确性或完整性作出任何陈述或保证，并且不对基于此类内容所采取的任何行动或决定承担责任。转载材料仅供参考，不构成任何商业、金融、法律和/或税务决策的建议、认可或依据。