千锋郑州老师分享经典大数据面试题
大数据市场前景广阔,选择学习大数据技术的人也在不断增多,求职竞争压力进一步加大,为了能够拥有更多的市场主动权,有人在专业技能上下功夫,有人在面试技巧上赞经验,今天千锋郑州大数据培训老师就给大家分享一些比较经典的大数据面试题。
1、hdfs上传文件的流程(一个256M的文件上传)。
①由客户端向NameNode节点节点发出请求;
②NameNode向Client返回可以存数据的DataNode这里遵循机架感应原则;
③客户端首先根据返回的信息先将文件分块(Hadoop2.X版本每一个block为128M而之前的版本为64M;
④然后通过那么Node返回的DataNode信息直接发送给DataNode并且是流式写入同时会复制到其他两台机器;
⑤dataNode向Client通信表示已经传完数据块同时向NameNode报告⑥依照上面(④到⑤)的原理将所有的数据块都上传结束向NameNode报告表明已经传完所有的数据块。
2、zookeeper是什么,简述它的选举机制和集群的搭建。
答:ZooKeeper是一个开源的分布式协调服务,是GoogleChubby的开源实现。分布式应用程序可以基于ZooKeeper实现诸如数据发布/订阅、负载均衡、命名服务、分布式协调/通知、集群管理、Master选举、分布式锁和分布式队列等功能。我们公司使用的flume集群,Kafka集群等等,都离不开ZooKeeper呀。每个节点上我们都要搭建ZooKeeper服务。首先我们要在每台pc上配置zookeeper环境变量,在cd到zookeeper下的conf文件夹下在zoo_simjle.cfg文件中添加datadir路径,再到zookeeper下新建data文件夹,创建myid,在文件里添加上server的ip地址。在启动zkserver.shstart便ok。
3、说一下你对hadoop生态圈的认识。
没有固定答案,主要从hdfs底层存储,hbase数据库,hive数据仓库,flume收集,Kafka缓存,zookeeper分布式协调服务,spark大数据分析,sqoop数据互转来说。
4、数据来源的方式:
1.webServer:用户访问我们的网站,对日志进行收集,记录在反向的日志文件里tomcat下logs
2.js代码嵌入前端页面(埋点):js的sdk会获取用户行为,document会得到元素调用function,通过ngix集群进行日志收集。
5、YARN的理解:
YARN是Hadoop2.0版本引进的资源管理系统,直接从MR1演化而来。
核心思想:将MR1中的JobTracker的资源管理和作业调度两个功能分开,分别由ResourceManager和ApplicationMaster进程实现。
ResourceManager:负责整个集群的资源管理和调度ApplicationMaster:负责应用程序相关事务,比如任务调度、任务监控和容错等。YARN的出现,使得多个计算框架可以运行在同一个集群之中。
①.每一个应用程序对应一个ApplicationMaster。
②.目前可以支持多种计算框架运行在YARN上面,比如MapReduce、storm、Spark、Flink。
6、说一下你对hadoop生态圈的认识。
没有固定答案,主要从hdfs底层存储,hbase数据库,hive数据仓库,flume收集,Kafka缓存,zookeeper分布式协调服务,spark大数据分析,sqoop数据互转来说。
猜你喜欢LIKE
最新文章NEW
相关推荐HOT
更多>>热门推荐
如何在面试中得高分?一般要注意哪些方面
沸UI设计师如何应对面试?哪些细节不可忽略
热求职者如何应对面试?需要特别注意什么
热Java面试必问什么技术?如何搞定Spring框架
新求职过程中如何抓住机遇?要注意哪些要点
郑州Web前端培训之JavaScript面试题推荐
郑州云计算培训机构之常见面试题及答案
如何开始求职生涯?个人简历有哪几种类型
初入职场大学生如何应对?怎么规避职场风险
企业对Python人才的招聘需求有哪些?
职场新人如何找到适合自己性格的工作?
大学生如何尽快获得职位?需要注意哪几点
毕业生如何应对求职?推荐10条参考标准
常见UI设计面试题有哪些?郑州UI培训好不