ETL这个术语来源于数据仓库,ETL指的是将业务系统的数据经过抽取、清洗转换之后加载到数据仓库的过程。ETL的目的是将企业中的分散、零乱、标准不统一的数据整合到一起,为企业的...
查看详情 >>大数据平台当中的数据仓库,往往需要通过建模来更好地对数据进行存储和管理,这其中涉及到性能、成本、效率、质量等多方面的综合考量,对于工程师来说,也需要细细规划。今天...
查看详情 >>在企业级大数据平台的搭建过程中,数据仓库的建设是非常重要的一部分,而数据仓库的建设,一个基本的目标,就是需要使数据仓库秩序井然,架构清晰,能够满足业务发展不断提出...
查看详情 >>之前我们陆续对Redis入门(大数据开发:Redis入门简介),Redis集群环境搭建(大数据开发:Redis集群环境搭建流程详解)都做了介绍,今天的大数据培训分享,我们来接着讲,Redis主从架...
查看详情 >>前面我们对 Hive on Spark设计原则及架构 做了基本的讲解,可以看出,Hive on Spark的实质,其实是把Hive 查询转换为Spark任务来执行,这其中所涉及到的很多转换,可能会影响到整体的运行效...
查看详情 >>在Spark越来越受到主流市场青睐的大背景下,Hive作为Hadoop生态当中的数仓组件工具,在于Spark生态的配合当中,开始有了Hive on Spark的思路,那么具体是怎么实现的呢?今天的大数据学习...
查看详情 >>Hadoop MapReduce,作为分布式计算的第一代引擎,其经典的地位是不容动摇的,而越是经典越是有代表性的东西,也就越需要去深入理解其中的原理和运行机制。今天的大数据学习分享,我...
查看详情 >>在大数据计算引擎上,MapReduce和Spark是一直被拿来做比较的两个框架,尤其是作为后来者的Spark,越来越多地占据主流市场,这与Spark的性能表现优异是分不开的。那么Spark为什么能够性能...
查看详情 >>安装准备: Windows7 / win10 VMware Workstation12 软件 CentOS 6.9 镜像 SecureCRT 远程连接工具 注意:确保计算机硬盘有 20G 以上空闲空间 安装步骤: 第一步:安装 VMware 1. 解压 VMware Workstation 12.r...
查看详情 >>