主页 > 新闻资讯 > 大数据培训专业机构:大数据技术发展流变

大数据培训专业机构:大数据技术发展流变

作者:张老师 浏览次数: 2020-06-29 17:13
大数据落地发展,得益于大数据技术的成熟,大数据的概念其实很早就被提出来了,但是直到2010年左右,才开始在各个行业真正落地发展。背后的原因很简单,因为技术还不足以支撑高效的低成本地进行大数据处理。今天我们就从大数据培训专业机构的角度,来聊聊大数据技术发展流变。

频繁活跃在我们视线当中的大数据技术框架,Hadoop和Spark一定榜上有名。Hadoop是第一代框架,Spark是随后得到主流青睐的第二代框架,那么在这之前呢?在没有Hadoop和Spark之前,怎么去处理大规模数据呢?

大数据培训专业机构

在Hadoop这个模型出现之前,行业当中主要采取的是HPC(高性能计算)workflow。它有专门负责计算的Compute cluster,它的Memory不大,所以计算产生的任何数据会存储在Storage中,最后在Tape里进行备份,这种Workflow主要适用高速大规模复杂计算,像核物理模拟中会用到。

HPC workflow在实际应用中存在一些问题,这些问题促进了Hadoop的出现。

首先,如果想对大量进行简单计算,比如对Search logs进行“What are the popular keywords”计算,这时是否可以用HPC workflow?当然可以,但却并不适合,因为需要做的计算非常简单,并不需要在HPC Cluster中进行。

其次,由于数据量大,HPC workflow是I/O Bound,计算时间只有1个微秒,但剩下的100个微秒可能都需要等数据,这时候Compute cluster就会非常空闲,因此HPC同样不适用于Specific use。

另外HPC主要在政府部门、科研等领域使用,成本高昂,不适合广泛推广。

如果不能把数据移到计算的地方,那为什么不转换思维,把计算移到数据里呢?Google的经典三驾马车GFS、BigTable、MapReduce,就是基于这种思想产生的。

基于Google的思想,Yahoo用相同的框架开发出JAVA语言的项目,这就是Hadoop。Hadoop的核心框架正好对应Google三大件,分别是HDFS,Mapreduce和Hbase。

关于大数据培训专业机构,大数据技术发展流变,以上就为大家做了简单的介绍了。大数据快速发展,对大数据处理也在不断提出新的需求,比如说后来的实时流计算等。加米谷大数据,成都大数据培训机构,大数据开发、数据分析与挖掘,专业技能提升,课程大纲及预约试听可联系客服获取!
热点排行
推荐文章
立即申请>>