- 项目 and 大数据:
上传文件命令 hdfs dfs || hadoop fs两种都可以
crontab是脚本还是什么实现的: .sh脚本文件
hive和传统数据库的不同:两者有本质的区别+。。。
hbase里面的rowkey如何设计:hash散列
hive和Hbase关联表的关键词:(下来查阅的)
WITH SERDEPROPERTIES (“hbase.columns.mapping” = “:key,info:ename,info:job,
info:mgr,info:hiredate,info:sal,info:comm,info:deptno”)
TBLPROPERTIES (“hbase.table.name” = “hbase_emp_table”);
以WC为例,画个图,讲一下
配置文件需要修改哪些:core等等几个(感觉就是考察下是不是动手过)
外部表内部表区别
spark和MR的区别
- linux命令:
当前进程 ps
(然而我说了个lsof -i:,马上反应过来是端口号 就说jps可以看当前的进程和进程号)
- JAVA:
框架:不了解
基本数据类型:说有八种,但是只想起来四五种
线程两种实现方式:runnable和Thread,runnable比较好
JVM的了解:抽象计算机;一次编译到处执行。
设计模式:会四种,也写过代码,但是当时只想起来两个:单例和工厂,就分别说了说
- 机器学习:
算法:不了解,在学习计划中
python用的哪个版本:说直接用的3
写过网络爬虫没?一两个简单的
总结:
第三次面试,较之前感觉好点。。。
本文探讨了大数据领域的核心概念,包括HDFS文件上传命令、crontab任务调度、Hive与传统数据库的区别、HBase的rowkey设计原则、Hive与HBase的联表操作、Spark与MapReduce的对比,以及Linux和Java的基础知识。
7400

被折叠的 条评论
为什么被折叠?



