郑州大数据培训课程之Spark知识解析

来源：千锋教育

发布人：Yolanda

时间： 2019-07-03 11:15:00

　　Apache Spark是一种与Hadoop相似的开源集群计算环境，是专为大规模数据处理而设计的快速通用的计算引擎。专业的郑州大数据培训课程都会讲解Spark相关知识，接下来小编就给大家简单介绍一下。

　　Spark的优势：

　　1)高效性。Spark采用内存存储中间计算结果，减少了迭代运算的磁盘IO，并通过并行计算DAG图的优化，减少了不同任务之间的依赖，降低了延迟等待时间。内存计算下，Spark比 MapReduce快100倍。

　　2)易用性。Spark提供了超过80种不同的Transformation和Action算子，如map、reduce、filter、groupByKey、sortByKey、foreach等，并且采用函数式编程风格，实现相同的功能需要的代码量极大缩小。

　　3)通用性。Spark提供了统一的解决方案，可以用于批处理、交互式查询(Spark SQL)、实时流处理(Spark Streaming)、机器学习(Spark MLlib)和图计算(GraphX)。

　　4)兼容性。Spark能够跟很多开源工程兼容使用，如Spark可以使用Hadoop的YARN和Apache Mesos作为它的资源管理和调度器，并且Spark可以读取多种数据源，如HDFS、HBase、MySQL等。

　　Spark的基本概念：

　　RDD：是弹性分布式数据集(Resilient Distributed Dataset)的简称，是分布式内存的一个抽象概念，提供了一种高度受限的共享内存模型。

　　DAG：是Directed Acyclic Graph(有向无环图)的简称，反映RDD之间的依赖关系。

　　Driver Program：控制程序，负责为Application构建DAG图。

　　Cluster Manager：集群资源管理中心，负责分配计算资源。

　　Worker Node：工作节点，负责完成具体计算。

　　Executor：是运行在工作节点(Worker Node)上的一个进程，负责运行Task，并为应用程序存储数据。

　　Application：用户编写的Spark应用程序，一个Application包含多个Job。

　　Spark的架构设计：

　　Spark集群由Driver, Cluster Manager(Standalone,Yarn 或 Mesos)，以及Worker Node组成。对于每个Spark应用程序，Worker Node上存在一个Executor进程，Executor进程中包括多个Task线程。

　　Spark的部署模式：

　　Local：本地运行模式，非分布式。

　　Standalone：使用Spark自带集群管理器，部署后只能运行Spark任务。

　　Yarn：Haoop集群管理器，部署后可以同时运行MapReduce、Spark、Storm、Hbase等各种任务。

　　Mesos：与Yarn最大的不同是Mesos 的资源分配是二次的，Mesos负责分配一次，计算框架可以选择接受或者拒绝。

　　如果你想了解更多郑州大数据培训课程知识，可以关注“千锋郑州校区”微信公众号!

声明：本站稿件版权均属千锋教育所有，未经许可不得擅自转载。

千锋郑州Web前端培训学员分享Vue学习笔记

零基础可以学Python吗

猜你喜欢LIKE

陆神

原去哪儿网高级架构师

北京大学计算机系毕业

HTML5学科教研总监

千锋威哥

OCP认证专家

15年以上开发经验

Java学科首席技术官

宋宋

原阿里后端架构师

北京邮电大学硕士

Python学科首席技术官

卢老师

北京大学博士后

北京科技大学博士

人工智能学科总监

索尔

原阿里后端架构师

浙工大计算机系毕业

Java学科高级讲师

jackfrued

曾任职华为成都研究所

计算机应用技术博士

Python学科教学主管

快速通道 更多>>

课程介绍
点击获取大纲
就业前景
查看就业薪资
学习费用
了解课程价格
优惠活动
领取优惠券
学习资源
领3000G教程
师资团队
了解师资团队
实战项目
获取项目源码
开班地区
查看来校路线

网友热搜更多>>

IT行业年龄有限制吗女生学IT Java薪资待遇零基础Web培训 Python就业如何学UI设计大数据学习路线 java培训学费软件测试培训转行学Linux 网络安全基础知识网络营销培训 unity培训 30岁还能学it吗大数据技术学什么 python培训费