培训大数据分析管理之Scrapy网络爬虫简介

作者：张老师浏览次数： 2020-06-03 10:27

在大数据分析的工作任务当中，我们需要专业的大数据分析技术和工具的支持，这其中也包括网络爬虫技术，尤其是在数据采集环节，网络爬虫对于外部数据的收集是非常强有力的工具。今天的培训大数据分析管理分享，我们主要来聊聊Scrapy网络爬虫。

网络爬虫技术，在大数据分析管理当中，主要用于外部数据的获取，而外部数据信息是大数据的重要来源之一。

Scrapy是一个为了爬取网站数据、提取结构性数据而编写的应用框架，可以应用在包括数据挖掘、信息处理或存储历史数据等一系列的程序中。进入大数据时代，Scrapy也开始得到重用，成为大数据分析师们的重要利器。

Scrapy架构

Scrapy的整体架构由Scrapy引擎（ScrapyEngine）、调度器（Scheduler）、下载器（Downloader）、爬虫（Spiders）和数据项管道（itemPipeline）5个组件组成。

引擎（ScrapyEngine）是整个系统的核心，负责控制数据在整个组件中的流动，并在相应动作发生时触发事件。

调度器（Scheduler）是管理Request请求的出入栈，去除重复的请求。调度器从Scrapy引擎接收请求，并将请求加入请求队列，以便在后期需要的时候提交给Scrapy引擎。

下载器（Downloader）负责获取页面数据，并通过Scrapy引擎提供给网络爬虫。

网络爬虫（Spiders）是Scrapy用户编写的用于分析结果并提取数据项或跟进的URL的类。每个爬虫负责处理一个（或者一组）特定网站。

数据项管道（ItemPipeline），负责处理被爬虫提取出来的数据项。典型的处理有清理、验证及持久化。

Scrapy如何工作

Scrapy中的数据流由Scrapy引擎控制，整体的流程如下：

1）Scrapy引擎打开一个网站，找到处理该网站的爬虫，并询问爬虫第一次要爬取的URL。

2）Scrapy引擎从爬虫中获取第一次要爬取的URL，并以Request方式发送给调度器。

3）Scrapy引擎向调度器请求下一个要爬取的URL。

4）调度器返回下一个要爬取的URL给Scrapy引擎，Scrapy引擎将URL通过下载器中间件转发给下载器。

5）下载器下载给定的网页，下载完毕后，生成一个该页面的结果，并将其通过下载器中间件发送给Scrapy引擎。

6）Scrapy引擎从下载器中接收到下载结果，并通过爬虫中间件发送给爬虫进行处理。

7）爬虫对结果进行处理，并返回爬取到的数据项及需要跟进的新的URL给Scrapy引擎。

8）Scrapy引擎将爬取到的数据项发送给数据项管道，将爬虫生成的新的请求发送给调度器。

9）从步骤（2）开始重复，直到调度器中没有更多的请求，Scrapy引擎关闭该网站。

关于培训大数据分析管理，Scrapy网络爬虫，以上就为大家做了一个简单的介绍了。大数据分析当中，Scrapy网络爬虫是需要掌握的重要知识点，学习当中也要重视起来。加米谷大数据，成都大数据培训机构，大数据分析与挖掘，零基础班本月正在招生中，课程大纲及试学资料可联系客服获取！

标签：大数据分析培训大数据数据分析培训

上一篇：大数据培训还是人工智能培训好？哪个有前景
下一篇：大数据进阶培训班：大数据技术进阶学习建议

相关推荐

大家都在看

热点排行

推荐文章