千锋教育-做有情怀、有良心、有品质的职业教育机构

400-811-9990
手机站
千锋教育

千锋学习站 | 随时随地免费学

千锋教育

扫一扫进入千锋手机站

领取全套视频
千锋教育

关注千锋学习站小程序
随时随地免费学习课程

上海
  • 北京
  • 郑州
  • 武汉
  • 成都
  • 西安
  • 沈阳
  • 广州
  • 南京
  • 深圳
  • 大连
  • 青岛
  • 杭州
  • 重庆
当前位置:郑州千锋IT培训  >  行业资讯  >  郑州大数据开发培训学习班课程分享:spark核心技术

郑州大数据开发培训学习班课程分享:spark核心技术

来源:千锋教育
发布人:Yolanda
时间: 2018-09-27 16:09:00

  大数据技术,只有相互分享才能彼此共同进步,为什么我们的程序员经常活跃在各大博客和技术论坛?其主要原因是:程序员们并不拒绝分享,甚至是乐于去贡献代码。身为一个程序员,特别值得他们骄傲的事情就是自己写的代码被别人用到而带来的成就感。

千锋教育

  今天千锋郑州大数据培训老师在百忙之中,为我们分享了当今火爆的大数据技术,讲解了spark技术的核心,我们可以不从事数据分析行业,但国家的一些技术还是要了解的。

  Spark核心概念Resilient Distributed Dataset (RDD)弹性分布数据集

  RDD是Spark的基本抽象,是对分布式内存的抽象使用,实现了以操作本地集合的方式来操作分布式数据集的抽象实现。RDD是Spark特别核心的东西,它表示已被分区,不可变的并能够被并行操作的数据集合,不同的数据集格式对应不同的RDD实现。RDD必须是可序列化的。RDD可以cache到内存中,每次对RDD数据集的操作之后的结果,都可以存放到内存中,下一个操作可以直接从内存中输入,省去了MapReduce大量的磁盘IO操作。这对于迭代运算比较常见的机器学习算法, 交互式数据挖掘来说,效率提升比较大。

  RDD的特点:

  1、它是在集群节点上的不可变的、已分区的集合对象。

  2、用并行转换的方式来创建如(map, filter, join, etc)。

  3、失败自动重建。

  4、可以控制存储级别(内存、磁盘等)来进行重用。

  5、必须是可序列化的。

  5、是静态类型的。

  RDD的好处:

  1、RDD只能从持久存储或经过Transformations操作产生,相比于分布式共享内存(DSM)可以更高效实现容错,对于丢失部分数据分区只需根据它的lineage就可重新计算出来,而不需要做特定的Checkpoint。

  2、RDD的不变性,可以实现类Hadoop MapReduce的推测式执行。

  3、RDD的数据分区特性,可以用数据的本地性来提高性能,这与Hadoop MapReduce是一样的。

  4、RDD都是可序列化的,在内存不足时可自动降级为磁盘存储,把RDD存储于磁盘上,这时性能会有大的下降但不会差于现在的MapReduce。

  RDD的存储与分区

  1、用户可以选择不同的存储级别存储RDD以便重用。

  2、当前RDD默认是存储于内存,但当内存不足时,RDD会spill到disk。

  3、RDD在需要进行分区把数据分布于集群中时会根据每条记录Key进行分区(如Hash 分区),以此保证两个数据集在Join时能高效。

  RDD的内部表示

  在RDD的内部实现中每个RDD都可以使用5个方面的特性来表示:

  1、分区列表(数据块列表)

  2、计算每个分片的函数(根据父RDD计算出此RDD)

  3、对父RDD的依赖列表

  4、对key-value RDD的Partitioner【可选】

  5、每个数据分片的预定义地址列表(如HDFS上的数据块的地址)【可选】

  大数据是互联网发展的方向,大数据人才是未来的高薪贵族。随着大数据人才的供不应求,大数据人才的薪资待遇也在不断提升。如果你想获得更高的薪资,如果你想转行加入大数据行业,千锋郑州大数据培训机构将是你正确的选择。

声明:本站稿件版权均属千锋教育所有,未经许可不得擅自转载。

猜你喜欢LIKE

大数据培训要花多少钱

2023-04-12

计算机前端怎么学

2023-04-12

大数据都需要学什么?难不难

2023-03-30

最新文章NEW

javaee是前端还是后端,都学什么

2023-03-24

it前端是做什么的

2023-03-24

大数据培训要多久?你了解多少

2023-03-09

相关推荐HOT

更多>>

快速通道 更多>>

最新开班信息 更多>>

网友热搜 更多>>