研究警示:使用AI生成的内容训练可能导致模型崩溃
AI奇点网6月15日报道 | 随着AI生成内容的广泛应用,一个令人担忧的问题开始浮现:当AI生成的内容在互联网上不断增加,并且用于训练模型时,会发生什么?
最近来自英国和加拿大的研究人员对这个问题进行了深入研究,并在开放获取期刊arXiv上发表了一篇相关论文。他们的研究发现令人忧虑,即使用模型生成的数据进行训练会导致生成的模型出现不可逆转的缺陷,被称为"模型崩溃"。
研究人员主要研究了文本到文本和图像到图像的AI生成模型的概率分布。他们得出结论称,从其他模型生成的数据中进行学习会导致模型崩溃,这是一个逐渐退化的过程,随着时间的推移,模型会逐渐忘记真正的底层数据分布。即使在理想的长期学习条件下,这个过程也是不可避免的。
当AI训练模型接触到更多AI生成的数据时,模型的性能会逐渐下降。它会在生成的响应和内容中产生更多错误,并且响应的非错误多样性也会减少。
AI生成数据的"污染"导致模型对现实的感知产生了扭曲。即使研究人员尝试训练模型不要生成过多重复的响应,他们发现模型崩溃仍然会发生,因为模型会编造错误的响应以避免频繁重复数据。
幸运的是,即使在现有的转换器和LLM(语言模型)的情况下,有一些方法可以避免模型崩溃。研究人员强调了两种具体的方法。
首先是保留原始的完全或名义上由人工生成的数据集的副本,并且不要与AI生成的数据混淆。然后,可以定期重新训练模型或从头开始使用完全新的数据集来刷新模型。
第二种方法是将新的、干净的、由人类生成的数据重新引入到训练中,以避免响应质量下降并减少模型中不需要的错误或重复。
然而,研究人员指出,这需要内容制作者或人工智能公司采用一种大规模标签机制或努力来区分人工智能生成的内容和人类生成的内容。
总之,这些研究发现对于人工智能领域具有重要意义,强调了需要改进方法以保持生成模型的完整性随着时间的推移。它们也提醒我们注意未经检查的生成过程的风险,并可能指导未来的研究以制定防止或管理模型崩溃的策略。