千锋教育-做有情怀、有良心、有品质的职业教育机构

400-811-9990
手机站
千锋教育

千锋学习站 | 随时随地免费学

千锋教育

扫一扫进入千锋手机站

领取全套视频
千锋教育

关注千锋学习站小程序
随时随地免费学习课程

上海
  • 北京
  • 郑州
  • 武汉
  • 成都
  • 西安
  • 沈阳
  • 广州
  • 南京
  • 深圳
  • 大连
  • 青岛
  • 杭州
  • 重庆
当前位置:郑州千锋IT培训  >  面试技巧  >  千锋郑州老师分享经典大数据面试题

千锋郑州老师分享经典大数据面试题

来源:千锋教育
发布人:Yolanda
时间: 2018-12-19 15:34:27

  大数据市场前景广阔,选择学习大数据技术的人也在不断增多,求职竞争压力进一步加大,为了能够拥有更多的市场主动权,有人在专业技能上下功夫,有人在面试技巧上赞经验,今天千锋郑州大数据培训老师就给大家分享一些比较经典的大数据面试题。

  1、hdfs上传文件的流程(一个256M的文件上传)。

  ①由客户端向NameNode节点节点发出请求;

  ②NameNode向Client返回可以存数据的DataNode这里遵循机架感应原则;

  ③客户端首先根据返回的信息先将文件分块(Hadoop2.X版本每一个block为128M而之前的版本为64M;

  ④然后通过那么Node返回的DataNode信息直接发送给DataNode并且是流式写入同时会复制到其他两台机器;

  ⑤dataNode向Client通信表示已经传完数据块同时向NameNode报告⑥依照上面(④到⑤)的原理将所有的数据块都上传结束向NameNode报告表明已经传完所有的数据块。

  2、zookeeper是什么,简述它的选举机制和集群的搭建。

  答:ZooKeeper是一个开源的分布式协调服务,是GoogleChubby的开源实现。分布式应用程序可以基于ZooKeeper实现诸如数据发布/订阅、负载均衡、命名服务、分布式协调/通知、集群管理、Master选举、分布式锁和分布式队列等功能。我们公司使用的flume集群,Kafka集群等等,都离不开ZooKeeper呀。每个节点上我们都要搭建ZooKeeper服务。首先我们要在每台pc上配置zookeeper环境变量,在cd到zookeeper下的conf文件夹下在zoo_simjle.cfg文件中添加datadir路径,再到zookeeper下新建data文件夹,创建myid,在文件里添加上server的ip地址。在启动zkserver.shstart便ok。

图片2

  3、说一下你对hadoop生态圈的认识。

  没有固定答案,主要从hdfs底层存储,hbase数据库,hive数据仓库,flume收集,Kafka缓存,zookeeper分布式协调服务,spark大数据分析,sqoop数据互转来说。

  4、数据来源的方式:

  1.webServer:用户访问我们的网站,对日志进行收集,记录在反向的日志文件里tomcat下logs

  2.js代码嵌入前端页面(埋点):js的sdk会获取用户行为,document会得到元素调用function,通过ngix集群进行日志收集。

  5、YARN的理解:

  YARN是Hadoop2.0版本引进的资源管理系统,直接从MR1演化而来。

  核心思想:将MR1中的JobTracker的资源管理和作业调度两个功能分开,分别由ResourceManager和ApplicationMaster进程实现。

  ResourceManager:负责整个集群的资源管理和调度ApplicationMaster:负责应用程序相关事务,比如任务调度、任务监控和容错等。YARN的出现,使得多个计算框架可以运行在同一个集群之中。

  ①.每一个应用程序对应一个ApplicationMaster。

  ②.目前可以支持多种计算框架运行在YARN上面,比如MapReduce、storm、Spark、Flink。

  6、说一下你对hadoop生态圈的认识。

  没有固定答案,主要从hdfs底层存储,hbase数据库,hive数据仓库,flume收集,Kafka缓存,zookeeper分布式协调服务,spark大数据分析,sqoop数据互转来说。

声明:本站稿件版权均属千锋教育所有,未经许可不得擅自转载。

猜你喜欢LIKE

最新文章NEW

相关推荐HOT

更多>>

快速通道 更多>>

最新开班信息 更多>>

网友热搜 更多>>