主页 > 新闻资讯 > 学习大数据之前应该了解大数据

学习大数据之前应该了解大数据

作者:张老师 浏览次数: 2019-09-04 09:56
在学习大数据之前,先要了解他解决了什么问题,能给我们带来什么价值。一方面,以前IT行业发展没有那么快,系统的应用也不完善,数据库足够支撑业务系统。但是随着行业的发展,系统运行的时间越来越长,搜集到的数据也越来越多,传统的数据库已经不能支撑全量数据的存储工作;另一方面,数据越来越多,单机的计算已经成为瓶颈。因此,基于分布式的大数据系统崭露头角。
 
在存储上,hdfs的分布式存储可以任意水平扩展,可以解决数据存储的难题。在计算上,从最初的MapReduce,把任务水平拆分,多台机器并行计算,再汇总结果;到基于Spark的内存计算,改造Mapreduce每次数据落盘以及编程方式的痛点。

学习大数据技术
 
有了存储和计算框架,周边就衍生出了很多管理、缓存相关的技术,比如:
 
1、yarn解决多租户资源调度的难题,
2、flume解决数据传输的难题,
3、sqoop解决分布式存储数据与传统DB数据之间的转换,
4、oozie解决了大数据计算任务的调度,
5、kafka提供了发布订阅机制的消息队列,
6、zookeeper可以帮助用户完成主备的选举,
7、hive在hdfs的基础上提供了数仓的功能,
8、hbase则基于hdfs实现列式数据库....
 
上面都是hadoop生态的,由于hadoop中计算模型普遍是mapreduce,但是它的编程风格和计算机制让很多人使用不便。因此后来spark逐渐代替了mapr成为主流的计算框架。Spark也有它自己的生态,但是由于hadoop更多更早的被应用到企业,所以spark也可以无缝的集成hadoop生态中的产品。spark更多只是扮演一个计算的框架,在这个框架上,提供了基本的计算模块core,基于sql的计算引擎spark sql,对接实时数据的流式计算spark streaming,算法相关的mlib以及图计算相关的graphx。
 
这些框架都在这个大数据生态中扮演了自己重要的角色,他们协同工作就可以帮助我们解决很多难题。对大数据技术感兴趣的小伙伴欢迎来成都加米谷学院学习大数据


热点排行
推荐文章
立即申请>>