千锋教育-做有情怀、有良心、有品质的职业教育机构

400-811-9990
手机站
千锋教育

千锋学习站 | 随时随地免费学

千锋教育

扫一扫进入千锋手机站

领取全套视频
千锋教育

关注千锋学习站小程序
随时随地免费学习课程

上海
  • 北京
  • 郑州
  • 武汉
  • 成都
  • 西安
  • 沈阳
  • 广州
  • 南京
  • 深圳
  • 大连
  • 青岛
  • 杭州
  • 重庆
当前位置:郑州千锋IT培训  >  行业资讯  >  千锋郑州大数据培训学员分享大数据知识点笔记

千锋郑州大数据培训学员分享大数据知识点笔记

来源:千锋教育
发布人:Yolanda
时间: 2018-12-21 15:18:00

  千锋郑州大数据培训课程一阶段Java基础知识学习感觉还意犹未尽,就已经进入了大数据板块,有种走出象牙塔的感觉,好奇又有点压力。俗话说,行百里者半九十,而我们现在只是刚刚入门大数据,一定要有一个好的心态,认真对待每一天的课程。

  从Linux基础操作,到Hadoop,HDFS, MapReduce,Yarn,再到现在的Hive,老师正在给我们慢慢刻画出大数据世界中的点点滴滴,再慢慢趋于完整。曾经我以为没有什么是好记性解决不了的东西,即使我不会代码不会算法,现在的我却认为,好记性并不能让你学好大数据,只有不断的努力、多练习代码你才能真正掌握。

  简单分享一下千锋郑州大数据培训课程二阶段涉及的知识点:

  大数据分析包括实时分析流程:业务数据、消息队列、Storm实时编程、Redis、数据展示(秒级计算);离线分析流程:不同数据源获取数据、Hadoop集群数据、计算(Hive、Spark、MapReduce)、数据展示(T+1计算)。

图片2

  Hadoop是一个开发和运行处理大规模数据的软件平台,是Appach的一个用Java语言实现开源软件框架,是一个能够对大量数据进行分布式处理的软件框架,具有可靠、高效、可伸缩的特点。Hadoop的核心是HDFS和MapReduce,hadoop2.0还包括YARN。

  HDFS(Hadoop分布式文件系统)是一个高度容错的系统,能检测和应对硬件故障,用于在低成本的通用硬件上运行。HDFS简化了文件的一致性模型,通过流式数据访问,提供高吞吐量应用程序数据访问功能,适合带有大型数据集的应用程序。由Client、NameNode、DataNode、Secondary NameNode四部分组成。

  MapReduce是一种计算模型,用以进行大数据量的计算。其中Map对数据集上的独立元素进行指定的操作,生成键-值对形式中间结果。Reduce则对中间结果中相同“键”的所有“值”进行规约,以得到最终结果。MapReduce这样的功能划分,非常适合在大量计算机组成的分布式并行环境里进行数据处理。

  Yarn(资源管理框架),是hadoop2.x以后对hadoop1.x之前JobTracker和TaskTracker模型的优化,而产生出来的,将JobTracker的资源分配和作业调度及监督分开。该框架主要有ResourceManager,Applicationmatser,nodemanager。

  Hive(基于Hadoop的数据仓库),定义了一种类似SQL的查询语言(HQL),将SQL转化为MapReduce任务在Hadoop上执行。通常用于离线分析。

  Hbase(分布式列存数据库),是一个针对结构化数据的可伸缩、高可靠、高性能、分布式和面向列的动态模式数据库。采用了BigTable的数据模型:增强的稀疏排序映射表(Key/Value),提供了对大规模数据的随机、实时读写访问,同时HBase中保存的数据可以使用MapReduce来处理,它将数据存储和并行计算完美地结合在一起。

  Flume(日志收集工具),将数据从产生、传输、处理并最终写入目标的路径的过程抽象为数据流,在具体的数据流中,数据源支持在Flume中定制数据发送方,从而支持收集各种不同协议数据。是一个可扩展、适合复杂环境的海量日志收集系统。

声明:本站稿件版权均属千锋教育所有,未经许可不得擅自转载。

猜你喜欢LIKE

大数据培训要花多少钱

2023-04-12

计算机前端怎么学

2023-04-12

大数据都需要学什么?难不难

2023-03-30

最新文章NEW

javaee是前端还是后端,都学什么

2023-03-24

it前端是做什么的

2023-03-24

大数据培训要多久?你了解多少

2023-03-09

相关推荐HOT

更多>>

快速通道 更多>>

最新开班信息 更多>>

网友热搜 更多>>