主页 > 新闻资讯 > 大数据的Hadoop和数据库

大数据的Hadoop和数据库

作者:张老师 浏览次数: 2019-09-04 14:27
对于大数据和人工智能(AI)来说,已经发展十年了,这是我们在本世纪看到的最大的两个技术趋势。从数据驱动制造到自动驾驶汽车,我们目睹了数百个令人惊叹的,以前难以想象的壮举,这要归功于大数据分析和人工智能的进步。

由于数据仓库为结构化存储,在数据从其他系统进入数据仓库这个东西,我们通常叫做ETL过程,ETL动作和业务进行了强绑定,通常需要一个专门的ETL团队去和业务做衔接,决定如何进行数据的清洗和转换。

随着异构数据源的增加,例如如果存在视频,文本,图片等数据源,要解析数据内容进入数据仓库,则需要非常复杂等ETL程序,从而导致ETL变得过于庞大和臃肿。当数据量过大的时候,性能会成为瓶颈,在TB/PB级别的数据量上表现出明显的吃力。

数据库的范式等约束规则,着力于解决数据冗余的问题,是为了保障数据的一致性,但是对于数据仓库来说,我们并不需要对数据做修改和一致性的保障,原则上来说数据仓库的原始数据都是只读的,所以这些约束反而会成为影响性能的因素。

加米谷学院的大数据

ETL动作对数据的预先假设和处理,导致机器学习部分获取到的数据为假设后的数据,因此效果不理想。例如如果需要使用数据仓库进行异常数据的挖掘,则在数据入库经过ETL的时候就需要明确定义需要提取的特征数据,否则无法结构化入库,然而大多数情况是需要基于异构数据才能提取出特征。

在一系列的问题下,以Hadoop体系为首的大数据分析平台逐渐表现出优异性,围绕Hadoop体系的生态圈也不断的变大,对于Hadoop系统来说,从根本上解决了传统数据仓库的瓶颈的问题,但是也带来一系列的问题:

1、从数据仓库升级到大数据架构,是不具备平滑演进的,基本等于推翻重做。

2、大数据下的分布式存储强调数据的只读性质,所以类似于Hive,HDFS这些存储方式都不支持update,HDFS的write操作也不支持并行,这些特性导致其具有一定的局限性。

大数据,就是为决策服务的。快来学习大数据吧!成都加米谷学院有专业的老师,系统的课程,丰富的项目实战。真功夫不怕你来实地考察。
热点排行
推荐文章
立即申请>>