⬇️如果有嘟友在不知情不同意的情况下被该项目收录了2024年终博客,希望删除的话可以告知我,我本周日统一提PR让项目主删掉

github.com/saveweb/review-2024

@HashBrown 这个项目算是玩具项目,我 (yzqzss) 一开始只是收集着玩。后来几年会在主动收录的时候在 commit msg 里 @ 一下博主的 github (如果博主有 telegram 的话,也会 telegram 发条消息)。
今年我把这个项目交给另一位朋友了,移交项目的时候没有把这个细节传达给朋友。十分抱歉。

@saveweb 啊那我想请问一下那个RSS聚集页又是怎么回事……为什么会在没有经过允许的情况下把独立博客的内容保存下来,我看了一下甚至有网友已经删除的博客

@HashBrown 因为我们是一个互联网存档小组,中文独立博客存档是我们的一个子项目。
中文独立博客每年有 8% 的“腐烂率”(关站),所以我们的目标就是存下来一部分。

然后我们确实是主动收录博客,不会通知博主。
部分原因是:联系方式找起来很麻烦费时间,而且随机发信容易进垃圾箱(另外:以前做这个项目的时候,花了非常非常非常非常久的精力,来找关站了的博客的博主联系方式,并询问状况。)。
主要原因是:公开博客+提供RSS,那我们假设可以收录。

当然,确实会有部分博主不想被收录,大致上有:
不想被存档(建议使用 html noarchive 标签,这样可以保证不会被存档性质的爬虫存档)
可以收录到 rss-list ,但不想内容被展示在 box. 上(我们可以设置隐藏,以及 box. 默认是 noindex 禁了搜索引擎索引的)
完全不想收录(可删除)

最后吧,rss-list 这个项目其实也不是我们的工作重点了,推进这个项目实在太费时间和精力了。我一开始做这个只是为了互联网上少点消失的独立博客 github.com/saveweb/doing/issues

(满字数了,下续)

@HashBrown
以前也有博主说我咸吃萝卜淡操心,但是从我自己的观察来看,感谢的占多数。真的,很多博客没有备份,说不定来一次宕机就是永久数据丢失。

这2k个rss,我承认,我确实不想一个个发收录通知……
前几年我还试过用 pingback 发收录通知,但是现在大多是静态博客了,效果不好,所以也就没继续了。

然后这 2k 个 rss 里,有大概 1k+ 是来自于博主自行提交的上游源。

好像说了很多无关的话,不管了(

@saveweb 两个问题:
“感谢的居多”是基于什么统计数据得出的,这个rss聚合页收录了两千个博客,其中大多数博主不知情,表达感谢的可以占总人数的10%甚至5%吗
这个聚合项目同时收录了技术博客和生活博客,技术博客一般不介意被收录和分发,但生活博客的内容更私人,博主对收录、存档和再分发的态度也更反感,由于生活博客涉及很多个人信息,此类收录甚至可能给博主带来信息安全和社会工程学风险。但由于该项目处在GitHub,技术博主看到的可能性远大于生活博主。前者表达的感谢不能被视为后者的认同

@HashBrown
感谢的居多是博主通过我们的存档找回了丢失的文章。

然后,生活博客的收录,我没有冒犯博主的想法,但是公开发在网上的内容……
互联网吧,超链接的初衷就是用来分享的,还有其他更多项目收集了比我们更多的。我们这边当然可以 opt-out,但是我觉得上网不涉密涉密不上网是常识……
然后就是,我们会跟踪RSS内容更新,只留最新快照,像你那样更新RSS内容来抹掉一些信息也是我们的目的之一。

不想被我们或者我们的同行们又或者那些 AI 收录、存档,最好的方法是加 /robots.txt ,加 noarchive 标签,加 WAF 。

@saveweb @HashBrown 并不是发布在互联网就可以随便侵犯他人权益。即使是娱乐内容跨平台的转载,也需要获得博主本人的授权。且不说你如今也没有统计数量,退一万步讲,收录这种事本来也应该是99个人同意了仍然要向第100个人征求许可。你们现在做的事情就是对博客作者的不尊重。

你说我不想被收录就应该加标签。凭什么。别人拿我东西是应该的?反而怪我家里没留纸条写“这个东西拿不得”?

Follow

@saveweb @HashBrown 你们“是一个互联网存档小组”“目标就是存下来一部分”,然后你们也意识到“现在大多是静态博客了”——静态博客,作者自己可以备份保存数据,那为什么还要出于存档的目的收录那么多静态博客?到底有什么需要您劳心劳力替我存的?

还是在您看来,我一个生活博客不同意您提名我博客的概率是0%,而我弄丢了自己静态博客的存档不得不来仰仗您的概率是100%?真是感天动地。

@xpihxb @HashBrown 我觉得我现在说啥整改你们都不会满意。不如这样,你想我怎么做?

@saveweb 我的观点就是收录需要得到博主本人的明确许可,当然我约束不了任何人

@saveweb @xpihxb @HashBrown

大概可以先检查一下是否具有 CC 协议之类的吧,如果没有声明此类协议的话,或许不太应该默认收录

我的博客具备 CC-BY-4.0 协议许可,不过没有被收录,所以大概也算是利益无关,我的上述提议仅供参考吧

@layonleaf @saveweb CC协议确实会合适一些。依照有没有提供RSS判断是否允许存档和再分发肯定不合适,一方面RSS只是传输协议不是许可协议,另一方面主流博客框架都自带RSS,很多博主未必知道自己的博客支持这个东西

(但有些博客主题比如hugo最流行的stack默认显示博文为CC协议,可能有博主不知道CC协议的许可范围但又没有改动这里,之前我小范围提醒过一次如果不想被转载不要保留这个东西)

Sign in to participate in the conversation
小球飞象

本实例是獭獭客厅,提供小球飞鱼,壁炉,风铃,獭獭提灯,散乱的书本和小雪人