AIGC不仅会污染互联网还会严重威胁大模型开发的未来今日关注

发布时间：2023-06-20 06:04:03 来源：腾讯网

财联社6月20日讯（编辑史正丞）过去几天有关“AI污染中文互联网环境”的讨论又重新热闹起来，这个话题也带出了另一个AI“终极命题”：如果世界上绝大部分内容都依靠AI生成，届时我们还能使用这些内容训练出更“聪明”的AI大模型么？

先说结论：情况将变得非常困难且棘手。在目前为数不多但颇受认可的研究中，这种情况被称为“递归的诅咒”：如果大模型的训练高度依赖AIGC内容，将很容易出现“崩溃”的情形。

此话怎讲？

【资料图】

虽然现在互联网上能找到的文字大部分都是真人写的，但不可否认的是，目前AIGC内容正在以非常快的速度出现在广告营销、流量资讯平台以及各式各样的数字载体中。从增量的角度来看，随着大模型的应用在未来半年、一年里开花结果，AIGC内容如潮水一般涌入互联网平台只是时间问题。

科技的进步从来不是单方面的祝福，往往也会伴随着诅咒。

正如温室气体，以及人类向海洋里排放的各种奇奇怪怪物质，互联网的“海洋”也在面临类似的威胁。

牛津大学、剑桥大学、伦敦帝国学院、多伦多大学等机构的研究人员近期在预印本平台上发表的一篇论文，恰好就是论述这个话题的。

（来源：arxiv）

研究人员发现，在使用AIGC内容训练模型时，会造成模型出现“不可逆的缺陷”，并且这种情况在变分自编码器、高斯混合模型和大语言模型中都会出现。

同样是内容，为何AIGC的内容会导致“模型崩溃”呢？

研究人员解释称：

模型崩溃是一种影响学习生成模型的退化过程，其中生成的数据最终会污染下一代模型的训练集；使用被污染数据进行训练，会导致模型误解现实。这里还有两种特殊情况：早期模型崩溃和晚期模型崩溃。在早期模型崩溃中，模型开始丧失关于分布尾部的信息；在晚期模型崩溃中，模型将原始分布的不同模式相互纠缠，并收敛到与原始模型相差甚远的分布，通常方差非常小。

这个过程与灾难性遗忘的过程不同，因为我们考虑的是随时间推移的多个模型，这些模型不会忘记以前学习的数据，而是开始误解他们认为的真实。

（遭到AIGC内容干扰后丧失能力的模型，来源：论文）

考虑到大多数人可能看不太懂这两段话，这篇论文的作者之一，牛津大学的Ilia Shumailov接受媒体采访时举了一个AIGC图片的例子：假设在训练模型时，使用了100张狗狗的照片，里面有90只狗狗有黄色眼睛，还有10只有绿色眼睛。由于数据集中黄眼睛狗狗的数量占据绝大多数，那么这样训练出的模型中，蓝眼睛狗狗实际的颜色会变得更加绿（黄加蓝=绿）一些。如果有人从互联网上抓取这样生成的图片，重复进行生成—抓取—训练的过程，将会导致模型识别蓝眼睛狗狗的能力最终消失。这种对信息的丧失或扭曲，就是模型崩溃。

引申开来，这也引发了另一层竞争：先行的GPT模型们，可能会堵住后来者开发更强大模型的路。或者说，想要“弯道超车”的后来者，需要花在可信赖数据上的时间和金钱，将远远超越领跑的这一批科技巨头。

研究人员总结称，训练大语言模型的特质预示着“先行者优势”的存在。这篇论文证明了使用AIGC语料训练会导致分布改变，以及模型崩溃。为了确保模型在长期内学习持续进行，需要确保非AIGC语料的可及性。但目前为止，如何跟踪和识别大模型生成内容的机制尚不明确，如果继续大规模地从互联网上爬取数据，训练新版本的大模型将变得原来越困难。

（财联社史正丞）

标签：

上一篇：vb1是什么维生素_vb1

下一篇：最后一页

现场直击 | 聚尚美第三届形象美学行业盛会当闪光灯聚焦时——众“星”汇聚
2022年8月13日,聚尚美女性教育机构(以下简称聚尚美)在深圳南山举办了聚尚美第三届形象美学行业盛会。这不仅是一场形象美学行业人的盛会,也

2022-08-14 来源：财讯网
花8000多元买的商品，白等两个月却没收到货？亚马逊回应
“花8000多元买的商品，白等了两个月却没收到货。”近日，消费者赵先生向《中国消费者报》投诉，称他通过亚马逊购物APP下了两笔订单，在等待两个月后订单均被强制取消。

2022-03-18 来源：中国消费者报
广东省消委会发布二手车买卖合同示范文本
为配合广东省推进“阳光二手车”工作，促进二手车流通行业健康发展，推动经营主体树立诚信经营理念，规范二手车交易行为，切实保护消费者的合法权益。

2022-03-18 来源：中国消费者报
国家卫健委：家庭医生签约服务“最后一公里”有望打通
3月15日，国家卫生健康委、财政部等六部门共同提出的《关于推进家庭医生签约服务高质量发展的指导意见》(以下简称《意见》)发布。

2022-03-18 来源：城市金融报
2022年1~2月房企拿地榜出炉：冠军碧桂园
近日，中指研究院公布了2022年1~2月房企拿地(金额)TOP100榜单。令业内惊讶的是，除了品牌房企名次“乾坤大挪移”，榜单内还冒出了许多“名不见经传”的新面孔。

2022-02-15 来源：城市金融报

X 关闭

资讯

X 关闭

聚焦

人物排行