欢迎访问海洋网动态IP云主机中心!


什么是爬虫?

发布时间:2022/6/29 16:09:00 阅读次数:

用一句话来给大家介绍爬虫:请求网站并提取数据的自动化程序。
请求网站的意思就是向网站发送请求,比如去百度搜索关键字“Python”,这个时候我们的浏览器就会向网站发送请求;
提取数据,数据包括了图片、文字、视频等等,都叫数据,在我们发送请求之后,网站会呈现搜索结果给我们,这其实就是返回了数据,这时候我们就可以对数据进行提取;
自动化程序,也就是我们写的代码,实现了自动提取程数据,比如批量对返回的图片进行下载和保存,替代我们一张一张图片进行手工操作。
一、爬虫的分类

根据使用场景,爬虫可以分为三类:
1.通用爬虫(大而全)
功能强大,采集面广泛,通常用于搜索引擎,比如百度浏览器就是一个很大的爬虫程序。
2.聚焦爬虫(小而精)
功能相对单一,只针对特定网站的特定内容进行爬取,比如说去某个网站批量获取某些数据,这也是我们个人最常用的一种爬虫了。
3.增量式爬虫(只采集更新后的内容)
这其实是聚焦爬虫的一个迭代爬虫,它只采集更新后的数据,对老数据是不采集,相当于一直存在并运行,只要有符合要求的数据更新了,就会自动爬取新的数据。
二、爬虫的4步
爬虫是怎么干活的?爬虫程序大致上可以分为四步走:
1.发起请求
通过HTTP库向目标站点发起请求,即发送一个Request,请求可以包含额外的headers等信息,等待服务器响应。
2.获取响应内容
如果服务器能正常响应,会得到一个Response,Response的内容便是所要获取的页面内容,类型可能有HTML、Json字符串和二进制数据(如图片视频)等类型。
3.解析内容
得到的内容可能是HTML,可以用正则表达式、网页解析库进行解析。可能是Json,可以直接转为Json对象解析,可能是二进制数据,可以做保存或者进一步的处理。
4.保存数据
保存的数据样式很多,可以保存为文本,也可以保存至数据库,或者保存为特定格式的文件。