仓库源文


title: "【随笔】好久没有来自Google搜索的来路访问了" date: 2019-09-12T00:41:40+08:00 draft: false categories: ["随笔"] tags: ["随笔", "博客被采集", "错误屏蔽搜索爬虫"]

slug: 3

最近Google对本博客的收录不怎么好。

最近的几次频繁改版肯定对收录的影响很大,加上将网址结构彻底改变了,这些都是对搜索引擎来说不太友好的行为。

最作死的是,错误的将测试用的屏蔽所有爬虫的robots.txt文件,当成博客用的文件使用了。这个作死的行为过来很久才发现,也是因为查看访问来路没有Google的关键词等来路,排查过程中发现那段时间新文章Google并没有收录。于是想起检查robots.txt文件,当看到设置错误的时候真想把自己割了...😂

改回正确的文件后,貌似我的博客就被Google降权了?反正以前标题搜索基本排第一或靠前,如今直接好多标题搜索后找不到了,如石沉大海。

更可气的是采集站排在了首页,我的文章一字未改... 所以今晚在文章末尾加了版权信息,虽然并没有什么卵用。这或许也算是静态博客不太好控制的地方,很容易被抓取,而动态博客可以使用插件管理。

当然咯,主要是我不会的缘故吧。或许有大佬知道怎么防止静态网页被恶意采集也未可知。

如果你知道怎么做,欢迎写个教程评论区发我链接,或者提供已有的参考资料给我?

老规矩: