统计了1000个中文独立博客,我算出了他们的“腐烂率”

数据来源:https://github.com/saveweb/rss-list
总计:965个博客
托管于 Github Page 的博客:182个(不包含使用了 CDN 代理 Github Page 的博客)
腐烂的博客数:113个(不管网站是否删过内容,换过域名,只要博客主体存在,就不算腐烂)
统计持续时间:17个月
中文独立博客定义:
- 包含:独立域名 和 eu.org、github.io、gitlab.io、gitee.io 的三级域名。
- 不包含:wordpress.com、网易博客、blogger.com 等的三级域名。

经过简单计算,中文独立博客的年站点腐烂率为8.26% ,换句话说,每年约有8%的中文博客会消失(被其他网站采集,如 archive.org,也算消失)。

以此类推,现在这一批中文独立博客在9年之后,会有 50% 消失(0.91748)——半衰期是9年。15年之后,现在这一批中文独立博客将有 70% 消失(0.917414)。但互联网日新月异,未来腐烂率的数值是多少谁也说不准。

不过中文独立博客的年链接腐败率暂时难以量化统计(需分析收集到的59447个博文链接,要花上一些时间,有时间我会统计一下),但只会比站点年腐烂率更高。因为很多博客会出现数据库丢失、更换域名、博主主动删除文章、迁移博客程序等一系列导致永久链接失效的情况。所以我主观估计中文独立博客的年链接腐败率在 20~30% 左右。

同时,我们发现越来越多的中文博客选择使用静态博客程序并托管到 Github、Gitlab、Cloudflare 等 Pages 服务上,这一趋势无疑对减小腐烂率有益。且用户友好的低技术托管平台有助于中文独立博客数量的提升(网上一堆静态博客入门教程)。但需要指出的是,选择 Pages 服务托管静态网站本质上和选择 Blogspot、 Wordpress.com 等第三方博客托管平台并无区别,仍然面临平台倒闭或事故导致数据丢失的集中隐性风险(假如 Github Page 现在停止服务,我们将瞬间丢失至少 20% 的中文独立博客)。

而短期来看,自托管(self-host)博客仍然是风险、成本、技术要求较高的选项,比集中化的平台更容易发生链接腐烂的情况。

优质中文独立博客的年化"腐烂率"

「十年之约」项目有较高的博客收录要求 (https://www.foreverblog.cn/treaty.html)。

生活记录类:需已建立 一年以上,并有15篇以上的文章,其中原创文章占 75%以上。
学习记录类:需已建立 一年以上,并有30篇以上的文章,其中原创文章占 60%以上。

所以他们的数据一定程度上能代表高质量中文独立博客的情况。

我从「十年之约」管理员那里得到了他们的数据:

2017-08-31-2022-02-05,总收录量999,异常量149。 注:149个异常博客中有相当一部分是因为网站内容问题被标记异常,而不是网站关闭。

算出来「十年之约」收录博客的年腐烂率为 3.31%,但考虑到异常的博客不一定是关站的博客,且高质量博客有更大概率会“复活”,实际腐烂率会低于计算值。所以,优质中文独立博客的平均寿命比一般博客更长,“保鲜度”更好!

本文转自:一座桥在水上's Blog

Q.E.D.