千锋教育-做有情怀、有良心、有品质的职业教育机构

400-811-9990
手机站
千锋教育

千锋学习站 | 随时随地免费学

千锋教育

扫一扫进入千锋手机站

领取全套视频
千锋教育

关注千锋学习站小程序
随时随地免费学习课程

上海
  • 北京
  • 郑州
  • 武汉
  • 成都
  • 西安
  • 沈阳
  • 广州
  • 南京
  • 深圳
  • 大连
  • 青岛
  • 杭州
  • 重庆
当前位置:郑州千锋IT培训  >  行业资讯  >  郑州大数据培训课程之Spark知识解析

郑州大数据培训课程之Spark知识解析

来源:千锋教育
发布人:Yolanda
时间: 2019-07-03 11:15:00

  Apache Spark是一种与Hadoop相似的开源集群计算环境,是专为大规模数据处理而设计的快速通用的计算引擎。专业的郑州大数据培训课程都会讲解Spark相关知识,接下来小编就给大家简单介绍一下。

  Spark的优势:

  1)高效性。Spark采用内存存储中间计算结果,减少了迭代运算的磁盘IO,并通过并行计算DAG图的优化,减少了不同任务之间的依赖,降低了延迟等待时间。内存计算下,Spark比 MapReduce快100倍。

  2)易用性。Spark提供了超过80种不同的Transformation和Action算子,如map、reduce、filter、groupByKey、sortByKey、foreach等,并且采用函数式编程风格,实现相同的功能需要的代码量极大缩小。

  3)通用性。Spark提供了统一的解决方案,可以用于批处理、交互式查询(Spark SQL)、实时流处理(Spark Streaming)、机器学习(Spark MLlib)和图计算(GraphX)。

  4)兼容性。Spark能够跟很多开源工程兼容使用,如Spark可以使用Hadoop的YARN和Apache Mesos作为它的资源管理和调度器,并且Spark可以读取多种数据源,如HDFS、HBase、MySQL等。

图片5

  Spark的基本概念:

  RDD:是弹性分布式数据集(Resilient Distributed Dataset)的简称,是分布式内存的一个抽象概念,提供了一种高度受限的共享内存模型。

  DAG:是Directed Acyclic Graph(有向无环图)的简称,反映RDD之间的依赖关系。

  Driver Program:控制程序,负责为Application构建DAG图。

  Cluster Manager:集群资源管理中心,负责分配计算资源。

  Worker Node:工作节点,负责完成具体计算。

  Executor:是运行在工作节点(Worker Node)上的一个进程,负责运行Task,并为应用程序存储数据。

  Application:用户编写的Spark应用程序,一个Application包含多个Job。

  Spark的架构设计:

  Spark集群由Driver, Cluster Manager(Standalone,Yarn 或 Mesos),以及Worker Node组成。对于每个Spark应用程序,Worker Node上存在一个Executor进程,Executor进程中包括多个Task线程。

  Spark的部署模式:

  Local:本地运行模式,非分布式。

  Standalone:使用Spark自带集群管理器,部署后只能运行Spark任务。

  Yarn:Haoop集群管理器,部署后可以同时运行MapReduce、Spark、Storm、Hbase等各种任务。

  Mesos:与Yarn最大的不同是Mesos 的资源分配是二次的,Mesos负责分配一次,计算框架可以选择接受或者拒绝。

  如果你想了解更多郑州大数据培训课程知识,可以关注“千锋郑州校区”微信公众号!

声明:本站稿件版权均属千锋教育所有,未经许可不得擅自转载。

猜你喜欢LIKE

大数据培训要花多少钱

2023-04-12

计算机前端怎么学

2023-04-12

大数据都需要学什么?难不难

2023-03-30

最新文章NEW

javaee是前端还是后端,都学什么

2023-03-24

it前端是做什么的

2023-03-24

大数据培训要多久?你了解多少

2023-03-09

相关推荐HOT

更多>>

快速通道 更多>>

最新开班信息 更多>>

网友热搜 更多>>