爬虫和蜘蛛:区别是什么有什么作用?

简单来说

简单的来说,爬虫关注从一个或多个预定义的网站中提取特定数据。而蜘蛛专注于在网络上发现 新的URL。

不同的目的

更深入地来说,Spider和Crawler的目的和它们的工作方式也有很大的不同。

在Crawler中,一切都与数据有关。您要从特定网站提取的数据字段。程序通常知道目标网站,虽然可能不知道具体的页面URL,但至少域名是限定内的。

而Spider可能既不知道具体的 URL,也可能不知道域名。通常来说,搜索引擎的抓取系统都是Spider,这些Spider用来索引页面并将其显示在搜索结果中。

不同的输出

对于Spider来说,输出数据是URL本身。

对于Crawler来说,我们通常会关注相当多的字段。 URL可以是符合pattern的一组URL,当Crawler抓取时,你提取的数据通常是网站上显示的其他数据字段,例如商品标题、价格、销量、评论等,主要取决于你的业务。