大数据Spark经典案例及Spark适用场景

作者：张老师浏览次数： 2020-02-17 16:10

作为大数据领域备受重用的计算引擎之一，Spark的重要性不言而喻，尤其是作为大数据技术开发人员，掌握Spark也成为基础的技能要求之一。当然，Spark并非适用于所用的大数据场景。今天，我们主要来聊聊大数据Spark经典案例及Spark适用场景。

总的来说，Spark主要的优势在于计算性能方面，作为一个基于内存进行计算的迭代计算框架，对于需要多次操作特定数据集的应用场景，这具备相应的优势的。在Spark框架当中，涉及到的计算任务，需要反复操作的次数越多，所需读取的数据量越大，那么Spark的计算优势就越明显。

对于目前的企业大数据需求来说，Spark计算框架的适用范围还是比较广的。但是由于RDD的特性，Spark不适用那种异步细粒度更新状态的应用，例如web服务的存储或者是增量的web爬虫和索引。简单来说，Spark不适合增量修改类型的应用模型。

大数据Spark经典案例

Spark所适用的计算场景，可以归纳为三点——复杂的批量处理、历史数据的交互式查询、实时数据流的数据处理。这一点我们也可以从目前的一些平台对Spark的应用看出来：

1、Yahoo将Spark用在Audience Expansion中的应用，进行点击预测和即席查询等。

2、淘宝技术团队使用了Spark来解决多次迭代的机器学习算法、高计算复杂度的算法等，应用于内容推荐、社区发现等。

3、腾讯大数据精准推荐借助Spark快速迭代的优势，实现了在“数据实时采集、算法实时训练、系统实时预测”的全流程实时并行高维算法，最终成功应用于广点通PCTR投放系统上。

4、优酷土豆将Spark应用于视频推荐(图计算)、广告业务，主要实现机器学习、图计算等迭代计算。

关于大数据Spark经典案例及Spark适用场景，以上就是今天的分享了。作为大数据领域最具竞争优势的计算引擎之一，Spark的发展态势很好，并且也在不断地更新优化当中。成都加米谷大数据，大数据技术分享，大数据培训班课程，更多详情可联系客服了解！

标签： Spark大数据大数据场景 Spark应用

上一篇：Spark应用场景与案例：Spark框架的实际应用解析
下一篇：Hadoop Yarn使用：关于Yarn组件的全面解析

相关推荐

大家都在看

热点排行

推荐文章