郑州大数据开发培训学习班课程分享：spark核心技术

来源：千锋教育

发布人：Yolanda

时间： 2018-09-27 16:09:00

　　大数据技术，只有相互分享才能彼此共同进步，为什么我们的程序员经常活跃在各大博客和技术论坛?其主要原因是：程序员们并不拒绝分享，甚至是乐于去贡献代码。身为一个程序员，特别值得他们骄傲的事情就是自己写的代码被别人用到而带来的成就感。

　　今天千锋郑州大数据培训老师在百忙之中，为我们分享了当今火爆的大数据技术，讲解了spark技术的核心，我们可以不从事数据分析行业，但国家的一些技术还是要了解的。

　　Spark核心概念Resilient Distributed Dataset (RDD)弹性分布数据集

　　RDD是Spark的基本抽象,是对分布式内存的抽象使用，实现了以操作本地集合的方式来操作分布式数据集的抽象实现。RDD是Spark特别核心的东西，它表示已被分区，不可变的并能够被并行操作的数据集合，不同的数据集格式对应不同的RDD实现。RDD必须是可序列化的。RDD可以cache到内存中，每次对RDD数据集的操作之后的结果，都可以存放到内存中，下一个操作可以直接从内存中输入，省去了MapReduce大量的磁盘IO操作。这对于迭代运算比较常见的机器学习算法, 交互式数据挖掘来说，效率提升比较大。

　　RDD的特点：

　　1、它是在集群节点上的不可变的、已分区的集合对象。

　　2、用并行转换的方式来创建如(map, filter, join, etc)。

　　3、失败自动重建。

　　4、可以控制存储级别(内存、磁盘等)来进行重用。

　　5、必须是可序列化的。

　　5、是静态类型的。

　　RDD的好处：

　　1、RDD只能从持久存储或经过Transformations操作产生，相比于分布式共享内存(DSM)可以更高效实现容错，对于丢失部分数据分区只需根据它的lineage就可重新计算出来，而不需要做特定的Checkpoint。

　　2、RDD的不变性，可以实现类Hadoop MapReduce的推测式执行。

　　3、RDD的数据分区特性，可以用数据的本地性来提高性能，这与Hadoop MapReduce是一样的。

　　4、RDD都是可序列化的，在内存不足时可自动降级为磁盘存储，把RDD存储于磁盘上，这时性能会有大的下降但不会差于现在的MapReduce。