警惕AI时代对内容创作者的掠夺

Update(2025-10-22): 今天谷歌了一下,发现已经很多人也意识到这个问题了:https://blog.cloudflare.com/zh-cn/content-independence-day-no-ai-crawl-without-compensation/ 昨天在开长途车回家的路上突然想到一个问题:基于LLM模型的AI(ChatGPT、Deepseek之类都算)正在对互联网上内容进行疯狂的抢夺。 诚然LLM模型在这半年的表现确实亮眼,起码在特定领域能提高效率和降低行业门槛、能帮助普通人快速提取关键信息,对于使用者无疑是便捷的。而大家都非常关心不同模型的效率,正确性等等,却忽视了模型背后被用于训练的数据源。 LLM模型AI没有创造能力 LLM本质是更高级的搜索引擎。传统的搜索引擎是针对关键词进行索引和匹配;LLM是通过分解句子的逻辑,找到逻辑匹配的数据源提取出来,所以LLM的能力在于训练和内容来源。目前各大模型都在爬取一些特定网站作为训练模型的来源。 目前最大的问题在于LLM模型目前没有对内容平台和内容创作者足够的尊重,没有公开的标准禁止机器人采集(noindex 之类的),成为数据来源后也没有通知平台和创作者,仿佛创作者不存在一样。同样,这些AI平台的在进行收费的时候也没有给与内容创作者一定的分成。 对于大型的私域平台,或许还可以通过风控策略禁止爬虫。对于独立博客创作者,似乎目前没有太多办法。 与搜索引擎比较 搜索引擎和AI不同,搜索引擎很明确只提供概览,详细的内容需要点击进去查看。对内容创作者是有帮助的,是一个流量入口。而且已经形成了规范,那些内容允许爬虫都是网站可以控制的(虽然有部分爬虫可能不遵守)。而且大搜索引擎都会有Console去查看自己被索引和提取的情况。搜索引擎和网站之间会有明显的边界。 而LLM则不然,通过训练后提取的模型相当于将所有内容融为一锅。这锅模型的属权是谁,谁又应该对内容负责。恐怕随着AI的发展,这个是必须明确的事情。而且通过AI的精确提取,大部分的内容都在上下文上。用户对内容不满意,也会重新给提示词。就算某些平台提供来源链接,用户大概率的不会点击进去。 何去何从 “前"互联网时代由于用户大多数是科技、技术前沿人员,深知知识分享的重要性。所以兴起很多我称为分享主义的行动。例如Wiki、开源、GPL、博客、论坛。此时分享者和使用者处于一个平衡位置,大部分的使用者也属于分享者。所以不会有“被掠夺”感。 但随着互联网使用用户的泛化、商业公司的加入。分享不再那么纯粹,正如标题所说。开源也变成一种商业策略,当使用者远远大于分享者时;甚至分享者连最基本的署名权都被剥夺时,谁还会在意内容环境的一团糟呢。 这可能也是部分我关注的博主停更博客的原因吧。我相信他们应该并非不再创作,只是不愿分享罢了。

2025年8月7日 · 阿肠

情感反诈模拟器云通关评测

最近《情感反诈模拟器》AKA《捞女游戏》。最近因为游戏名字被“冲”出圈了。借机到B站云评测一下,顺便当短剧来看。 声明 云评测(CloudReview)是指没有购买游戏本体,没有进行游玩,而是观看通关视频而作出了个人 、主观的评测。 导演的风格很熟悉,搜了一下,好像就是一路向西的导演。视频拍摄的质量还是挺高的,演员演技水平线以上,比国产剧的要好。 游戏“火”出圈表面原因是标题,深层原因是现在的男女对立状态。 游戏的主线是纯爱,同时体现了现代社会一些常见的男女关系,所以会引起一些共鸣。 这类型的游戏本质上就是电视剧,会有一定的受众。 B站和Youtube其实是做这类型游戏最好的平台。 B站曾经也出过交互视频。不过之前的交互视频都比较简单,都是UP主小大小闹。 B站和抖音可以系统化的做成游戏平台,可以掀起新的媒体交互方式。 本质上跟以前的交互式DVD类似,不过交互式DVD可以选的分支比较少? 要处理好各个分支视频拍摄感觉还是挺难的,脚本也挺难写好的。

2025年6月22日 · 阿肠

最近更新了一下博客和PKM的更新流程

用了一段时间hugo+quartz作为博客和笔记发布的组合,流程上总感觉有一些不顺。因此把Hugo和Quartz都干掉,直接用Docusaurus一站解决。 对于我来说使用Hugo和Quartz的组合主要是看重Hugo的生成速度和Quartz跟Obsidian的整合。但是使用起来整体感受会有以下问题: Hugo和Quartz非常割裂,我曾经试过用通一个Vault去管理文章和数字花园,但是两边的语法不一样导致Obsidian用起来比较别扭 要解决两个系统的问题,非常浪费时间。我最近这两周都浪费在这上面,反而内容的协作一点没有。 希望能跟主笔记Vault整合,Quartz的发布策略比较简单,IgnorePattern+Draft+ExplicitPubsh。Docusaurus提供的方式灵活一点。 Quartz的定制性很强,相对的提供的功能就没有其他SSG多。而且对我来说Backlink和InteractiveGraph并不是必须。在我定义里,笔记应该是Well-Structured。 能提供笔记和博客一站式组合的目前只有mkdocs for material,mkdocs for material很多功能都需要付费。 或许有一天我需要发布Zettelkasten里面的笔记发布,Quartz的用处似乎更大,但是我目前只需要Docusaurus

2025年3月16日 · 阿肠

从安全角度讨论homepage等Homelab Dashboard应用

这篇笔记纯粹是自己两次眼馋Homepage的功能而装了两次,到配置阶段而后又放弃。为了避免第三次安装而记录下我的个人观点。我知道很多人都使用homepage,我也知道很方便,你可以继续使用,不需要跟我辩论。 安全性 Homepage在我看起来有个突出的安全性问题。Homepage作为Dashboard需要主动的请求其他的服务。这就意味着如果你要在homepage中配置你所有其他服务的地址、账号密码。 虽然密码账号都配置在后端中,而且一般也不会部署到外网。但是依然风险很高,尤其Homepage本身不用鉴权,只要网络通就可以随意访问,只要出现漏洞泄露后端配置文件,整个内部系统一锅端。 而且对于一些鉴权不完善的系统,本身不支持Token、API和权限配置的,就更危险。而且对于普通的NAS玩家,大概率是admin、root往配置上怼的。 诚然,这种设计更加方便,你不需要嵌入到每个系统,只需要在Homepage实现widget就可以获得信息。这也是homepage能支持一堆周边系统的原因,但我并不喜欢这个设计。 并且Homepage里面的一堆Widget应该很多是社区贡献,你完全不知道每个Widget的代码质量。万一一个有漏洞,整个系统一锅端1。 配置便利性 虽然homepage支持docker服务发现。但我对这个服务发现的可用性还是存疑。我们还需要配置每个服务的用户名密码,每个服务上下线都需要配置一遍。整体的便利性一般。 https://www.anvilsecure.com/blog/vulnerabilities-in-homepage-dashboard.html ↩︎

2025年2月9日 · 阿肠

致我自己和深受消费主义毒害的人

自从19年疫情开始有意识的关注消费主义,最近又看到一个宝藏视频。里面的观点其实跟之前一部分有重合:拒绝消费主义强加到消费品的符号。不过还提出了一个更加有意义的观点:不要消费自己想要的,消费自己需要。里面提到一个需求清单,在下面摘录出来了。我觉得很多人(包括我自己在内)被消费主义麻痹了。过多的关注消费带来的符号,而不是自己基础的需求。 消费主义的骗局!别被“断舍离”忽悠了! 需求清单: 1、身体健康有活力。 2、身体机能正常。 3、没有不必要的疼痛。 4、情绪稳定。 5、没有无来由的焦虑和怨恨。 6、一定程度上不受他人干涉的自由。 7、最基本的智力活动。 8、参与正常的社交。 9、最基本的财富、收入和经济保障。 10、可接受的社会和物质环境。

2024年12月6日 · 阿肠

从Jekyll切换到Quartz、Hugo作为静态网站生成器

为什么要用Jekyll Github集成,本地可以不用配置环境。Jekyll最早进入中文博客圈就是因为github默认使用Jekyll生成静态页面。 可以直接通过push 内容让github生成,本地不需要ruby环境。 为什么要迁移? Ruby是原罪。 Jekyll基本比较少更新。 Jekyll的模板引擎Liquid稀烂。 Jekyll的主题TexT定制性也是受限。 GithubAction可以更加灵活支持其他SSG。 无法本地预览可能会导致更多的Push。最终还是需要本地安装Ruby和Gems包。 为什么是Quartz和Hugo Quartz和Hugo都是SSG,都能很方便的被GH Action支持 Quartz偏向知识片段、文章的共享(EverGreenNotes)。有点像Wiki,强调知识之间的连接。 Hugo更偏向传统的博客。虽然Quartz也可以用于博客内容分享,但毕竟博客内容比较散乱,跟Quartz的定位不一致,最终决定还是分离。 目前来看Quartz可以和Hugo共享一个知识仓库,分开渲染。所以目前采取了这样一个组合。 更进一步 目前Quartz的域名在这里,Hugo的域名在这里。内容上是独立的,怎样将两者的内容整合呢。目前的想法是用Astro开发一个Dashboard之类的页面,部署在https://shaneyao.com 。顺便把国内Wordpress内容也整合进来。这样的解法似乎还可以接受。

2024年7月29日 · 阿肠

Homelab安全建议

数据安全 网络隔离依然是家庭homelab中有效的安全手段,非必要尽量不对外服务。 我同意upnp是一个毒瘤,对于有homelab或者nas的家庭网络建议直接关闭upnp。即便不关闭也要限制可以使用upnp的设备名单(白名单)。 对外暴露端口的机器尽量集中同一台机器上。只要对外开放端口的机器就可以认为数据不安全。 所有成品NAS安全堪忧1。 非数据安全的设备可以用于交叉备份,提高机器和空间利用率。但是备份需要加密。 Update(20240707):成品NAS又一个离谱的设定:所有非admin组的用户不能用ssh登录。群晖和威联通都是一样[^2],说是为了安全理由,认为普通用户不需要SSH。问题是SSH除了远程终端外还承载了加密信道、认证的功能,像RSYNC、GIT、BorgBackup之类的。如果你要用这些功能就必须给对应的用户管理组,这个看似“安全”的设定实际上引入更大的限制。 数据备份 备份原则 老生常谈,备份321原则。另外一些细节分析可以看韦易笑在知乎的回答:《如何长时间保存重要数据?》 有几点要补充我的看法: 光盘作为家用廉价的归档介质依然可靠。 但是需要考虑光盘的上下限,DVD时代的刻录盘由于成本问题,下限确实可以非常低。蓝光时代相对来说还能接受(我的经验) 压力对光盘的损坏不容忽视。不要堆叠到光盘薄,起码单独一个小盒子。 备份内容 自产内容(家庭照片、短片、笔记、源代码等)这部分的内容相当重要,而且独一无二。每个家庭每年能产出内容有限,执行321备份。 珍贵资源。来自互联网或者其他人分享,非独一无二。可以考虑本地双备份。 电影、电视剧(建议直接丢网盘:115、阿里、百度)。存储效率高,不会浪费,而且alist可以方便观看。 备份工具 BrogBackup(待研究) Restic(待研究) 一个好的备份工具,需要考虑: 客户端加密 是否支持appendonly 是否支持分卷模式 2、3是能方便备份到光盘的前提 References 研究人員揭露威聯通NAS作業系統漏洞,並指出15個漏洞僅有4個完成修補 ↩︎

2024年7月3日 · 阿肠

关于国内新能源发展的一些想法

最近看到B站有财经区UP主在讲《[2024—2025年节能降碳行动方案][1]》 大势不可逆,燃油车退出历史舞台的步伐会加快。不负责任的说,燃油车还有15-20年的寿命,然后逐步推出历史舞台,加入到博物馆行列。 电车用电成本低也随着燃油车退出舞台成为过去。以后公路的费用会由电车一起承担。 强迫生产端更新,取代化石燃料,工业用电需求会增加。电价肯定会涨,居民端应该不会有太激烈的调整幅度。生产端估计会成本增加不少。虽然不是直接传过来,但是物价涨估计在所难免。 用电的话,蓄能是一个大问题。对于农村地大,有条件自己建设蓄能设备,可以减少价差。现在的蓄能都是国家在搞,利用水利。城市的话各家各户自行建设蓄能不现实。那城市的蓄能会怎么发展呢?有没可能会统一在城市建蓄能站,然后由市场驱动低价电的买卖,形成市场化呢?这个是有可能的,另外还需要考虑峰谷电价差,只有足够大才有利润;另外蓄能的效率也是很讲究的,化学蓄能达不到水利蓄能的效率。

2024年6月5日 · 阿肠

中文的WordPress博客回来了

感谢阿里云的99计划,本来想试试阿里云的,但是发现要重新备案才能。现在阿里云备案(广东)要签承诺书,还要打手印,简直就像卖身。虽然我自己没什么不见得人的,但是就是不爽。还好腾讯也被卷起来了,99/年的轻量云还可以。带宽大一点,但是限流量(300G/月)还行吧。 主机拿到手后本来想搭的dokuwiki做分享的,但是搜着搜着找到我以前在V2的一句留言:”wiki 是给大家一起编辑用的,不是给大家看的;要给大家看的,CMS 了解一下” 对啊,既然我只是想整块分享内容,没有共享编辑的需求,为什么要用wiki呢?所以另辟蹊径,找到了Obsidian+Squartz的方案。跟jekyll类似,本质也是SSG。但是由于有Obsidian的Backlink加持,分享会更加成体系。目前的规划大概是Blog、数字花园(DigitalGarden)、首页。更新频率从高到低、内容质量从低到高这么一个规划。 或许这里以后会变成一个高频率、吐槽、低容量的地方。但总比荒凉之地要好吧? Update: 2025-03-16-最近更新了一下博客和PKM的更新流程

2024年4月7日 · 阿肠

给自己40岁的礼物?

自从博客衰落后,大家对每年的年终总结似乎都不在热衷。可能每年定下来的目标都不能完成,也有可能是大家觉得这种总结和计划不再有意思。 所以今年也想换个形式,不再以2024年计划。而是在自己40岁生日这一人生的小关口为节点,想一下到底要什么,在40岁要有一个什么目标? 2024年开年,工作上的事就一直在变化。从原有的项目转移,到新项目的流产。可以预计在工作上面不会有太大的起色。所以对工作我自己也什么期待,只能希望是细水长流,保持现状。 反而是自己身体的过度消耗,明显看到自己身体机能再走下坡。自从疫情之后,每天的睡眠基本不足7小时;体重从80,90到现在110,甚是恐怖。年纪越大,减重越困难。离自己40岁生日大概还有1年半,在这里给自己立个FLAG,40岁给自己的生日礼物:调整生活习惯,减重到80KG。 Get on my own bussiness!

2024年3月24日 · 阿肠