百度官方公开课：网站抓取建设指南!

编辑搜图请点击输入图片描述(最多18字)

如上图所示，这段URL包含统计参数，可能会导致重复抓取，浪费站点权益，所以竟可能不使用参数，如果一定要使用参数，那么也可以保留必要参数，参数字符竟可能使用常规的连接符，比如“?”、“&”，避免非主流连接符。

2、合理发现链路：

爬虫是从首页开始一层一层抓取的，所以就需要做好首页与资源页的URL关系。这样爬虫抓取相对而言比较省力。

百度官方公开课：网站抓取建设指南!

编辑搜图请点击输入图片描述(最多18字)

如上图所示，从首页到具体内容的超链路径关系叫做发现链路，目前大多数移动站没有太注意发现链路的关系，所以导致爬虫无法抓取到内容页。

百度官方公开课：网站抓取建设指南!

编辑搜图请点击输入图片描述(最多18字)

如上图所示，这两个站点是移动网站常见的建站方式，从发现链路的角度来讲，这两类站点是不友好。

Feed流推荐：大多数做feed流的站点后台是有非常多的数据，用户不断的刷会有新的内容出现，但你刷新的次数再多，可能也只能刷到1%左右的内容，而爬虫相当于一个用户，爬虫不可能做到以这种方式将网站所有的内容都爬取到，所以就会导致一些页面爬虫不到，即使你有100万的内容，可能只能抓取到1-2万。

仅有搜索入口：如上图所示，首页只有一个搜索框，用户需要输入关键词，才能找到对应的内容，但爬虫不可能做到输入关键词然后再去爬取，所以爬虫只能爬取到首页后，就没有后链了，自然抓取和收录就会不理想。

解决方案：索引页下的内容按发布时间逆序排序的，这样做有一个好处，搜索引擎可以通过索引页即使的抓取到你网站最新的资源，另外新发布的资源要实时在索引页同步，很多纯静态的网页，内容更新了，但是首页(索引页)却没有出来，这样会导致搜索引擎通过索引页无法即使的抓取到最新的资源，第三个点是后链(最新文章)的URL需要直接在源码在露出，方便搜索引擎抓取，最后就是索引页不是越多越好，有少数优质的索引页就足够了，比如长城号，基本上只利用首页来做索引页。

百度官方公开课：网站抓取建设指南!

最近更新

相关文章

热点分析最新文章

热点分析排行榜推荐

热点分析排行榜精选

热点分析文章排行榜

热门标签