警惕AI时代对内容创作者的掠夺

2025年8月7日 · 阅读需 3 分钟

昨天在开长途车回家的路上突然想到一个问题：基于LLM模型的AI（ChatGPT、Deepseek之类都算）正在对互联网上内容进行疯狂的抢夺。诚然LLM模型在这半年的表现确实亮眼，起码在特定领域能提高效率和降低行业门槛、能帮助普通人快速提取关键信息，对于使用者无疑是便捷的。而大家都非常关心不同模型的效率，正确性等等，却忽视了模型背后被用于训练的数据源。

LLM模型AI没有创造能力

LLM本质是更高级的搜索引擎。传统的搜索引擎是针对关键词进行索引和匹配；LLM是通过分解句子的逻辑，找到逻辑匹配的数据源提取出来，所以LLM的能力在于训练和内容来源。目前各大模型都在爬取一些特定网站作为训练模型的来源。目前最大的问题在于LLM模型目前没有对内容平台和内容创作者足够的尊重，没有公开的标准禁止机器人采集（noindex 之类的），成为数据来源后也没有通知平台和创作者，仿佛创作者不存在一样。同样，这些AI平台的在进行收费的时候也没有给与内容创作者一定的分成。对于大型的私域平台，或许还可以通过风控策略禁止爬虫。对于独立博客创作者，似乎目前没有太多办法。

与搜索引擎比较

搜索引擎和AI不同，搜索引擎很明确只提供概览，详细的内容需要点击进去查看。对内容创作者是有帮助的，是一个流量入口。而且已经形成了规范，那些内容允许爬虫都是网站可以控制的（虽然有部分爬虫可能不遵守）。而且大搜索引擎都会有Console去查看自己被索引和提取的情况。搜索引擎和网站之间会有明显的边界。而LLM则不然，通过训练后提取的模型相当于将所有内容融为一锅。这锅模型的属权是谁，谁又应该对内容负责。恐怕随着AI的发展，这个是必须明确的事情。而且通过AI的精确提取，大部分的内容都在上下文上。用户对内容不满意，也会重新给提示词。就算某些平台提供来源链接，用户大概率的不会点击进去。

何去何从

"前"互联网时代由于用户大多数是科技、技术前沿人员，深知知识分享的重要性。所以兴起很多我称为分享主义的行动。例如Wiki、开源、GPL、博客、论坛。此时分享者和使用者处于一个平衡位置，大部分的使用者也属于分享者。所以不会有“被掠夺”感。但随着互联网使用用户的泛化、商业公司的加入。分享不再那么纯粹，正如标题所说。开源也变成一种商业策略，当使用者远远大于分享者时；甚至分享者连最基本的署名权都被剥夺时，谁还会在意内容环境的一团糟呢。这可能也是部分我关注的博主停更博客的原因吧。我相信他们应该并非不再创作，只是不愿分享罢了。

LLM模型AI没有创造能力​

与搜索引擎比较​

何去何从​

LLM模型AI没有创造能力

与搜索引擎比较

何去何从