千锋郑州大数据培训学员分享大数据知识点笔记
千锋郑州大数据培训课程一阶段Java基础知识学习感觉还意犹未尽,就已经进入了大数据板块,有种走出象牙塔的感觉,好奇又有点压力。俗话说,行百里者半九十,而我们现在只是刚刚入门大数据,一定要有一个好的心态,认真对待每一天的课程。
从Linux基础操作,到Hadoop,HDFS, MapReduce,Yarn,再到现在的Hive,老师正在给我们慢慢刻画出大数据世界中的点点滴滴,再慢慢趋于完整。曾经我以为没有什么是好记性解决不了的东西,即使我不会代码不会算法,现在的我却认为,好记性并不能让你学好大数据,只有不断的努力、多练习代码你才能真正掌握。
简单分享一下千锋郑州大数据培训课程二阶段涉及的知识点:
大数据分析包括实时分析流程:业务数据、消息队列、Storm实时编程、Redis、数据展示(秒级计算);离线分析流程:不同数据源获取数据、Hadoop集群数据、计算(Hive、Spark、MapReduce)、数据展示(T+1计算)。
Hadoop是一个开发和运行处理大规模数据的软件平台,是Appach的一个用Java语言实现开源软件框架,是一个能够对大量数据进行分布式处理的软件框架,具有可靠、高效、可伸缩的特点。Hadoop的核心是HDFS和MapReduce,hadoop2.0还包括YARN。
HDFS(Hadoop分布式文件系统)是一个高度容错的系统,能检测和应对硬件故障,用于在低成本的通用硬件上运行。HDFS简化了文件的一致性模型,通过流式数据访问,提供高吞吐量应用程序数据访问功能,适合带有大型数据集的应用程序。由Client、NameNode、DataNode、Secondary NameNode四部分组成。
MapReduce是一种计算模型,用以进行大数据量的计算。其中Map对数据集上的独立元素进行指定的操作,生成键-值对形式中间结果。Reduce则对中间结果中相同“键”的所有“值”进行规约,以得到最终结果。MapReduce这样的功能划分,非常适合在大量计算机组成的分布式并行环境里进行数据处理。
Yarn(资源管理框架),是hadoop2.x以后对hadoop1.x之前JobTracker和TaskTracker模型的优化,而产生出来的,将JobTracker的资源分配和作业调度及监督分开。该框架主要有ResourceManager,Applicationmatser,nodemanager。
Hive(基于Hadoop的数据仓库),定义了一种类似SQL的查询语言(HQL),将SQL转化为MapReduce任务在Hadoop上执行。通常用于离线分析。
Hbase(分布式列存数据库),是一个针对结构化数据的可伸缩、高可靠、高性能、分布式和面向列的动态模式数据库。采用了BigTable的数据模型:增强的稀疏排序映射表(Key/Value),提供了对大规模数据的随机、实时读写访问,同时HBase中保存的数据可以使用MapReduce来处理,它将数据存储和并行计算完美地结合在一起。
Flume(日志收集工具),将数据从产生、传输、处理并最终写入目标的路径的过程抽象为数据流,在具体的数据流中,数据源支持在Flume中定制数据发送方,从而支持收集各种不同协议数据。是一个可扩展、适合复杂环境的海量日志收集系统。
相关推荐HOT
更多>>大数据培训学习什么,你了解多少
大数据培训学习什么?你了解多少?随着互联网技术的不断发展,大数据技术开始走进人们的视野,并成为现阶段吃香的技术能力之一。那么熟练掌握大...详情>>
2023-03-16 15:16:01云计算培训怎么样?可靠吗
云计算培训怎么样?可靠吗?靠不靠谱要看你什么要求了,因人而异。但如果你是想通过培训机构快速掌握好技能,然后进入行业,这个一般都没有问题...详情>>
2023-03-07 14:51:00java编程工资多少?主要学哪些内容
java编程工资多少?主要学哪些内容?java程序员的月收入在6000-20000不等,在一线城市有工作经验的java程序员的薪资收入会高一些,在二三线城市...详情>>
2023-02-24 14:56:07it工程培训机构,云计算难学吗
下面给小伙伴们列举一个学习大纲参考: 第一阶段: 零基础入门 1、计算机基础 2、Raid设置与网络服务基础 3、网络基础 第...详情>>
2022-12-01 17:48:04