大数据的Hadoop和数据库

作者：张老师浏览次数： 2019-09-04 14:27

对于大数据和人工智能（AI）来说，已经发展十年了，这是我们在本世纪看到的最大的两个技术趋势。从数据驱动制造到自动驾驶汽车，我们目睹了数百个令人惊叹的，以前难以想象的壮举，这要归功于大数据分析和人工智能的进步。

由于数据仓库为结构化存储，在数据从其他系统进入数据仓库这个东西，我们通常叫做ETL过程，ETL动作和业务进行了强绑定，通常需要一个专门的ETL团队去和业务做衔接，决定如何进行数据的清洗和转换。

随着异构数据源的增加，例如如果存在视频，文本，图片等数据源，要解析数据内容进入数据仓库，则需要非常复杂等ETL程序，从而导致ETL变得过于庞大和臃肿。当数据量过大的时候，性能会成为瓶颈，在TB/PB级别的数据量上表现出明显的吃力。

数据库的范式等约束规则，着力于解决数据冗余的问题，是为了保障数据的一致性，但是对于数据仓库来说，我们并不需要对数据做修改和一致性的保障，原则上来说数据仓库的原始数据都是只读的，所以这些约束反而会成为影响性能的因素。

ETL动作对数据的预先假设和处理，导致机器学习部分获取到的数据为假设后的数据，因此效果不理想。例如如果需要使用数据仓库进行异常数据的挖掘，则在数据入库经过ETL的时候就需要明确定义需要提取的特征数据，否则无法结构化入库，然而大多数情况是需要基于异构数据才能提取出特征。

在一系列的问题下，以Hadoop体系为首的大数据分析平台逐渐表现出优异性，围绕Hadoop体系的生态圈也不断的变大，对于Hadoop系统来说，从根本上解决了传统数据仓库的瓶颈的问题，但是也带来一系列的问题：

1、从数据仓库升级到大数据架构，是不具备平滑演进的，基本等于推翻重做。

2、大数据下的分布式存储强调数据的只读性质，所以类似于Hive，HDFS这些存储方式都不支持update，HDFS的write操作也不支持并行，这些特性导致其具有一定的局限性。

大数据，就是为决策服务的。快来学习大数据吧！成都加米谷学院有专业的老师，系统的课程，丰富的项目实战。真功夫不怕你来实地考察。

标签：大数据分析学习大数据加米谷学院

上一篇：大数据里的BI是什么你知道么
下一篇：如今大数据分析在发展中会遇到什么瓶颈？

相关推荐

大家都在看

热点排行

推荐文章