0
用户访问量
0
注册用户数
0
在线视频观看人次
0
在线实验人次

网络爬虫简介

作者：云创智学|发布时间：2022-05-24 13:20:38.0|来源：云创智学

网络爬虫（又被称为网页蜘蛛、网络机器人），是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本。网络爬虫还有另外一些不常使用的名字，如蚂蚁、自动索引、模拟程序或者蠕虫等。

网络爬虫的工作流程

网络爬虫的工作流程图如下图所示：

网络爬虫具体流程如下：

首先选取一部分种子URL

将这些URL输入待抓取URL队列

从待抓取URL队列中取出待抓取的URL，解析DNS，得到主机的IP地址，并将URL对应的网页下载下来，存储到已下载网页库中，再将这些URL放进已抓取URL队列

分析已抓取URL队列中的URL，分析其中的其他URL，并且将URL放入抓取URL队列

友情链接