学习大数据之前应该了解大数据

作者：张老师浏览次数： 2019-09-04 09:56

在学习大数据之前，先要了解他解决了什么问题，能给我们带来什么价值。一方面，以前IT行业发展没有那么快，系统的应用也不完善，数据库足够支撑业务系统。但是随着行业的发展，系统运行的时间越来越长，搜集到的数据也越来越多，传统的数据库已经不能支撑全量数据的存储工作；另一方面，数据越来越多，单机的计算已经成为瓶颈。因此，基于分布式的大数据系统崭露头角。

在存储上，hdfs的分布式存储可以任意水平扩展，可以解决数据存储的难题。在计算上，从最初的MapReduce，把任务水平拆分，多台机器并行计算，再汇总结果；到基于Spark的内存计算，改造Mapreduce每次数据落盘以及编程方式的痛点。

有了存储和计算框架，周边就衍生出了很多管理、缓存相关的技术，比如：

1、yarn解决多租户资源调度的难题，
2、flume解决数据传输的难题，
3、sqoop解决分布式存储数据与传统DB数据之间的转换，
4、oozie解决了大数据计算任务的调度，
5、kafka提供了发布订阅机制的消息队列，
6、zookeeper可以帮助用户完成主备的选举，
7、hive在hdfs的基础上提供了数仓的功能，
8、hbase则基于hdfs实现列式数据库....

上面都是hadoop生态的，由于hadoop中计算模型普遍是mapreduce，但是它的编程风格和计算机制让很多人使用不便。因此后来spark逐渐代替了mapr成为主流的计算框架。Spark也有它自己的生态，但是由于hadoop更多更早的被应用到企业，所以spark也可以无缝的集成hadoop生态中的产品。spark更多只是扮演一个计算的框架，在这个框架上，提供了基本的计算模块core，基于sql的计算引擎spark sql，对接实时数据的流式计算spark streaming，算法相关的mlib以及图计算相关的graphx。

这些框架都在这个大数据生态中扮演了自己重要的角色，他们协同工作就可以帮助我们解决很多难题。对大数据技术感兴趣的小伙伴欢迎来成都加米谷学院学习大数据。

标签：学习大数据大数据技术加米谷学院

上一篇：学习完大数据后，可以胜任哪些工作呢？
下一篇：在哪些行业里有大数据的应用？

相关推荐

大家都在看

热点排行

推荐文章