主页 > 新闻资讯 > 培训大数据分析管理之Scrapy网络爬虫简介

培训大数据分析管理之Scrapy网络爬虫简介

作者:张老师 浏览次数: 2020-06-03 10:27
在大数据分析的工作任务当中,我们需要专业的大数据分析技术和工具的支持,这其中也包括网络爬虫技术,尤其是在数据采集环节,网络爬虫对于外部数据的收集是非常强有力的工具。今天的培训大数据分析管理分享,我们主要来聊聊Scrapy网络爬虫。

网络爬虫技术,在大数据分析管理当中,主要用于外部数据的获取,而外部数据信息是大数据的重要来源之一。

培训大数据分析管理

Scrapy是一个为了爬取网站数据、提取结构性数据而编写的应用框架,可以应用在包括数据挖掘、信息处理或存储历史数据等一系列的程序中。进入大数据时代,Scrapy也开始得到重用,成为大数据分析师们的重要利器。

Scrapy架构

Scrapy的整体架构由Scrapy引擎(ScrapyEngine)、调度器(Scheduler)、下载器(Downloader)、爬虫(Spiders)和数据项管道(itemPipeline)5个组件组成。

引擎(ScrapyEngine)是整个系统的核心,负责控制数据在整个组件中的流动,并在相应动作发生时触发事件。

调度器(Scheduler)是管理Request请求的出入栈,去除重复的请求。调度器从Scrapy引擎接收请求,并将请求加入请求队列,以便在后期需要的时候提交给Scrapy引擎。

下载器(Downloader) 负责获取页面数据,并通过Scrapy引擎提供给网络爬虫。

网络爬虫(Spiders)是Scrapy用户编写的用于分析结果并提取数据项或跟进的URL的类。每个爬虫负责处理一个(或者一组)特定网站。

数据项管道(ItemPipeline),负责处理被爬虫提取出来的数据项。典型的处理有清理、验证及持久化。

Scrapy如何工作

Scrapy中的数据流由Scrapy引擎控制,整体的流程如下:

1)Scrapy引擎打开一个网站,找到处理该网站的爬虫,并询问爬虫第一次要爬取的URL。

2)Scrapy引擎从爬虫中获取第一次要爬取的URL,并以Request方式发送给调度器。

3)Scrapy引擎向调度器请求下一个要爬取的URL。

4)调度器返回下一个要爬取的URL给Scrapy引擎,Scrapy引擎将URL通过下载器中间件转发给下载器。

5)下载器下载给定的网页,下载完毕后,生成一个该页面的结果,并将其通过下载器中间件发送给Scrapy引擎。

6)Scrapy引擎从下载器中接收到下载结果,并通过爬虫中间件发送给爬虫进行处理。

7)爬虫对结果进行处理,并返回爬取到的数据项及需要跟进的新的URL给Scrapy引擎。

8)Scrapy引擎将爬取到的数据项发送给数据项管道,将爬虫生成的新的请求发送给调度器。

9)从步骤(2)开始重复,直到调度器中没有更多的请求,Scrapy引擎关闭该网站。

关于培训大数据分析管理,Scrapy网络爬虫,以上就为大家做了一个简单的介绍了。大数据分析当中,Scrapy网络爬虫是需要掌握的重要知识点,学习当中也要重视起来。加米谷大数据,成都大数据培训机构,大数据分析与挖掘,零基础班本月正在招生中,课程大纲及试学资料可联系客服获取!
热点排行
推荐文章
立即申请>>