现代文生图模型能否作为可靠的训练数据生成工具
T2I 模型生成的图像在实际下游任务中的表现究竟如何?作者讨论了“使用不同的 T2I 模型生成的数据训练分类器,对真实数据进行分类”这一下游任务,通过评估分类 ACC 来思考现代 T2I 模型作为可靠训练数据生成器的能力。
1 合成数据
使用先进的 T2I 模型生成的图像数据可以被称为“合成视觉数据(Synthetic Vision Data)”。合成数据通常被认为是突破数据稀缺瓶颈的重要手段。
但是 T2I 模型的进步是否真的能转化为更优质的合成数据生成器?
研究表明,尽管在视觉保真度和提示词遵循度方面有明显进步,但使用更新的 T2I 模型作为训练数据生成器时,在真实测试数据上的分类准确率却持续下降。
这项工作通过探究与真实数据在纹理、结构和光谱频率上的不匹配,来研究这种下降的原因——越先进的模型会坍缩到狭窄的、以审美为中心的分布,从而破坏了多样性和标签对齐。
不过更详细的文本 prompt 似乎可以缓解这种现象。
提示词:使用两种类型的提示词进行文本到图像生成,以确定文本输入的影响:类名和详细描述。
详细描述是通过使用 GPT-4.1-nano 对真实图像重新生成描述而得到的。让 LLM 为每张图像生成两到三句话的描述,涵盖背景、前景,并描述所有可见物体。来自详细描述的提示词遵循模板(“[类名],[描述]”),以确保与标签对齐,即使提示词没有提到类名也是如此。
2 整体 ACC 分析
合成数据生成器(T2I 模型):
Stable Diffusion V1.5(2022年)、Stable Diffusion 2.1(2023年)、Stable Diffusion XL(2023年)、Stable Diffusion 3.5(2024年)、Sana(2024年)、Flux-Dev(2024年)、Qwen-Image(2025年)以及Lumina 2.0(2025年)。
为了评估面向效率的变体,还纳入了蒸馏版本,即 SDXL-Turbo(2023年)、Stable Diffusion 3.5-Large-Turbo(2024年)和 Flux-Schnell(2024年)。
针对 ImageNet-1k 类别的一个子集训练 ResNet-50 分类器,并在真实测试数据上评估其准确率(从合成数据到真实数据)。结果显示了一种随时间下降的趋势。作为可靠的训练数据生成器,较新的模型表现越来越差。
| 指标 | 核心衡量维度 | 评估目的 | 关键细节 |
|---|---|---|---|
| GenEval | 细粒度物体属性的文本 - 图像还原 | 衡量精细的提示词遵循能力 | 聚焦具体属性:颜色、位置、物体数量(如提示 “红色苹果”,是否生成红色、苹果数量是否匹配) |
| ClipScore | 图文在 CLIP 嵌入空间的整体对齐 | 衡量全局的图文语义一致性 | 基于 CLIP 的跨模态嵌入空间,量化提示词与图像的语义匹配度(不局限于具体属性,看整体是否贴合) |
随着 T2I 模型的进步,较新的模型在文本对齐指标上得分更高。然而,文本到图像对齐与合成数据性能成反比。这些结果表明,在提示跟随和给定模型作为训练数据生成器的性能之间存在隐藏的权衡。
3 纹理与结构
之前的研究表明,即使是相对不明显的伪影,也足以破坏细粒度分类任务中与类别相关的细节。此外,卷积神经网络(CNN)存在纹理偏差,这可能使其对纹理层面的失真和伪影尤为敏感。
3.1 实验设计
为了量化合成数据与真实数据之间纹理和结构的差异对分类下游任务的影响,工作比较了在两种设置下,使用经过转换的合成数据和真实数据训练的模型的性能差距:一种模型仅基于结构进行分类,另一种仅基于纹理进行分类。
结构分类器:一个 ResNet50,它处理通过使用 Depth Anything V2 模型进行单目估计获得的深度图。深度空间去除了所有颜色和纹理信息,只保留完整的整体结构和形状。结构模型在深度空间中进行训练和测试,以解决因纹理信息去除而导致的性能下降问题。
纹理分类器:一个 BagNet 分类器,它对 9×9 的图像块进行操作,BagNet 较小的感受野使其无法看到纹理之外的信息。
如果纹理是观察到的性能差距的关键因素,则预计在基于结构的设置中,这种差距会缩小。在基于结构的设置中,有问题的纹理会被去除,这与基于纹理的设置不同:在纹理设置中,这些纹理在信号中占主导地位。
3.2 实验结果
无论是哪种 prompt,在所有测试 T2I 模型上,在移除纹理特征之后,分类准确率相比于原始合成数据都出现了上升,而在移除结构特征之后 ACC 出现了下降。同时结构空间中运行的分类器与真实数据的差距始终比纹理空间分类器的差距小得多。同时使用更详细的 caption 提示词后,这种差距会缩小。
从实际角度来看,现代的文本到图像(T2I)模型在遵循提示词方面表现良好,生成的图像全局构图和真实感方面对人类观察者而言可能显得连贯且逼真,但缺乏神经网络用于泛化所需的纹理。
4 变频失真
真实自然图像遵循相近的幂律振幅谱,然而 T2I 生成的图像偏离了这种自然分布,往往表现出向高频偏移。同时 CNN 倾向于高频信息,使得它们对高频失真特别敏感。
4.1 实验设计
为了量化失真的影响,我们在经过高低通滤波的真实和合成图像版本上训练并评估 ResNet-50。高通条件量化了保留频率 $f≤0.2×f_{N}$ 的图像上的性能差距;而在低通设置中,图像保留 $f≥0.8×f_{N}$,其中 $f_{N}$ 指奈奎斯特频率。
如果高频成分的真实性下降,预计与高通滤波(保留不匹配的频谱部分)相比,在低通滤波(去除频谱中不匹配的部分)下,相对性能差距会缩小。
4.2 实验结果
实验结果表明,无论是去除高频信息还是低频信息,相比于完整的合成数据 ACC 都发生了下降,但是在去除高频数据后,低频分类的准确率下降并不显著。
低频域的性能与 RGB 域非常接近,这表明合成图像忠实地保留了平滑的空间过渡和全局对比度。相比之下,在高频域中,观察到其与 RGB 空间的差距更大。此外,提供详细的 prompt 并没有显著提升高频域的性能,尤其是与低频域的性能提升相比。
说明现代 T2I 模型在低频细节方面通常较为准确,但是高频细节仍存在缺失。
5 密度与覆盖率
先前的研究表明,生成模型往往会以多样性换取保真度,将样本集中在真实数据流形的有限区域内。为了评估这种影响,使用覆盖率和密度指标用于合成数据。
- 密度计算有多少生成的样本落在真实图像周边邻域内
- 覆盖率衡量在其周边邻域中至少有一个生成样本的真实图像的比例
这些指标为合成数据分布与真实数据分布的一致性提供了补充见解。高密度与低覆盖率相结合表明过度集中,而低密度和低覆盖意味着实质性的域移位。
随密度降低与覆盖率的提高,用合成数据训练的分类器在真实数据上的分类准确率会上升。许多表现不佳的模型呈现出高密度,这表明它们的分布出现了坍缩。然而,一些模型(如 SDXL、Sana 与 SD2.1)则表现出低密度和低覆盖率,这意味着图像分布发生了显著偏移。
使用从真实数据中提取的更详细的 prompt 描述能显著提高覆盖率并降低密度。对于那些在使用简单类别名称作为 prompt 时表现不佳的模型来说,这种变化尤为明显。
在真实数据上训练并在合成图像上评估的模型(真实→合成)与反向设置(合成→真实)的分类准确率如上图。对于在真实数据上训练的模型而言,合成数据的分类难度越来越低,但在合成数据上训练的分类模型向真实测试图像的分类效果却越来越差。
现有 T2I 模型往往更注重样本真实性而非分布真实性。单个合成图像往往相对容易分类,这说明样本真实性保持得相对较好。然而,正如密度和覆盖率数值所显示的,分布真实性显著下降,导致模型在真实数据上的迁移效果不佳。高提示词遵循度是以分布坍缩和/或偏移为代价的,这使得近期的文本到图像模型不适合用于合成数据生成,除非先获得高度详细的描述。
6 结论与讨论
通过对 2022-2025 年 13 款主流 T2I 模型的系统性实验,得出三大核心结论:
- 现代 T2I 模型存在显著的提示词遵循度-数据分布质量权衡,新模型仅在详细描述提示词下能提升合成数据训练效用,仅用类别名时下游迁移精度随模型迭代持续衰退,提示词对齐能力与训练数据有效性呈负相关;
- 合成图像存在持续性高频纹理真实度缺陷,全局结构与低频信息可通过优化提示词改善,但纹理细节、高频成分的失真与提示词输入解耦,无法通过提示词修复,是下游性能损失的核心载体;
- 存在单样本真实度与分布真实度的严重错配,真实数据训练的模型可轻松识别合成图像,但合成数据训练的模型泛化能力极差,根源是新模型为追求单样本视觉美学,生成分布坍缩为高密度、低覆盖的狭窄模态,牺牲了类内多样性与整体分布真实度。
T2I模型的视觉生成质量进步,并不等价于训练数据有效性的提升。















