主页 > 新闻资讯 > Spark ETL:关于Spark数据处理的比较分析

Spark ETL:关于Spark数据处理的比较分析

作者:张老师 浏览次数: 2020-02-10 15:14
提起大数据,数据处理是需要解决的核心问题,尤其是面对相比传统时期,具备更典型的互联网线上大数据,在ETL相关的数据处理环节当中,需要解决的问题和障碍更多。今天,我们就从Spark ETL的角度出来,来看看Spark数据处理的比较分析。

大数据时代的数据处理,因为数据的来源更加广泛,数据的格式也更加多样,因此在ETL环节也面临更大的任务量,数据的质量、数据的时效性、数据的准确性都将影响到下一阶段的数据分析挖掘、数据结果应用等。

Spark ETL

一般来说,数据处理的前期,主要是对原始数据的规整,比如时间格式化,字段补齐等,之后是根据数据统计分析的需求,对数据进行数据逻辑处理等,主要需要满足两个基本原则,完整性和准确性,即在尽量保证数据的完整性(也就是不要无故的丢失底层采集数据的情况下)对数据处理要保证准确性,而这些也都是ETL过程中需要注意的。

现阶段的数据处理方式,包括传统的ETL工具利用多线程处理,也有利用Hive结合其自定义函数的形式,再有就是我们今天主要要说的Spark ETL数据清洗。因为在实际工作当中处理数据的需求不同,可以采取更适合更快捷的方式。

传统的ETL工具,比如Kettle、Talend、Informatica等因为商业应用的性质,可视化操作,上手很快,但是随着数据规模的增大,系统面临压力可能会崩溃。

而Hive结合自定义函数的形式,采用sql的方式底层基于Hadoop的Mapreduce计算框架进行数据处理,优势在于离线数据的处理。

而Spark ETL,是基于内存计算的准Mapreduce,针对离线数据处理,使用Spark sql进行数据清洗,跟hive sql原理和操作其实差不多,只不过spark sql更加倾向于内存处理。

关于Spark ETL数据分析处理,因为Spark在数据分析计算上的实时计算优势,面对大规模数据计算,可能高效地完成数据分析处理任务,所以备受大家的喜爱。成都加米谷大数据,专业大数据培训机构,大数据开发2020春季班正在招生中,详情可联系客服了解!
热点排行
推荐文章
立即申请>>