跳到主要内容

警惕AI时代对内容创作者的掠夺

· 阅读需 3 分钟

昨天在开长途车回家的路上突然想到一个问题:基于LLM模型的AI(ChatGPT、Deepseek之类都算)正在对互联网上内容进行疯狂的抢夺。 诚然LLM模型在这半年的表现确实亮眼,起码在特定领域能提高效率和降低行业门槛、能帮助普通人快速提取关键信息,对于使用者无疑是便捷的。而大家都非常关心不同模型的效率,正确性等等,却忽视了模型背后被用于训练的数据源。

LLM模型AI没有创造能力

LLM本质是更高级的搜索引擎。传统的搜索引擎是针对关键词进行索引和匹配;LLM是通过分解句子的逻辑,找到逻辑匹配的数据源提取出来,所以LLM的能力在于训练和内容来源。目前各大模型都在爬取一些特定网站作为训练模型的来源。 目前最大的问题在于LLM模型目前没有对内容平台和内容创作者足够的尊重,没有公开的标准禁止机器人采集(noindex 之类的),成为数据来源后也没有通知平台和创作者,仿佛创作者不存在一样。同样,这些AI平台的在进行收费的时候也没有给与内容创作者一定的分成。 对于大型的私域平台,或许还可以通过风控策略禁止爬虫。对于独立博客创作者,似乎目前没有太多办法

与搜索引擎比较

搜索引擎和AI不同,搜索引擎很明确只提供概览,详细的内容需要点击进去查看。对内容创作者是有帮助的,是一个流量入口。而且已经形成了规范,那些内容允许爬虫都是网站可以控制的(虽然有部分爬虫可能不遵守)。而且大搜索引擎都会有Console去查看自己被索引和提取的情况。搜索引擎和网站之间会有明显的边界。 而LLM则不然,通过训练后提取的模型相当于将所有内容融为一锅。这锅模型的属权是谁,谁又应该对内容负责。恐怕随着AI的发展,这个是必须明确的事情。而且通过AI的精确提取,大部分的内容都在上下文上。用户对内容不满意,也会重新给提示词。就算某些平台提供来源链接,用户大概率的不会点击进去。

何去何从

"前"互联网时代由于用户大多数是科技、技术前沿人员,深知知识分享的重要性。所以兴起很多我称为分享主义的行动。例如Wiki、开源、GPL、博客、论坛。此时分享者和使用者处于一个平衡位置,大部分的使用者也属于分享者。所以不会有“被掠夺”感。 但随着互联网使用用户的泛化、商业公司的加入。分享不再那么纯粹,正如标题所说。开源也变成一种商业策略,当使用者远远大于分享者时;甚至分享者连最基本的署名权都被剥夺时,谁还会在意内容环境的一团糟呢。 这可能也是部分我关注的博主停更博客的原因吧。我相信他们应该并非不再创作,只是不愿分享罢了。