网易2018大数据开发实习生笔试
java的序列化方法对hadoop应用不友好,hadoop定义了自己的序列化接口
-
在hadoop中,他使用了自己的序列化框架 Writable
-
没有用java的序列化方式,自己的writable没有比较功能,所以结合java中的Compara合并的比较方式
-
Hadoop中的对象序列化的接口为 org.apache.hadoop.io,Writable
-
Writable 机制和java.io.Serializable 不同,Writable接口不是一个说明性接口,他包含了两个方法,write和readFields
-
大部分MapReduce程序都使用Writable 键值对作为输入和输出,但这并不是hadoop的api指定的,其他序列化机制也能和hadoop配合并应用于MapReduce中
HDFS中Block说法
由于分布式文件系统中使用Block来抽象数据存储,由于文件的分块不需要存储在同一台机器上,所以HDFS的文件可以大于每个单独的磁盘大小
block默认128M
hadoop默认作业调度器
3.X是Capacity Scheduler 1.X是FIFO
统计当前目录和递归目录的.cpp和.h文件行数
wc -l $(
find ./ -name" *.cpp"
;
find ./ -name" *.h")
& quot; 在网页中表示一个分号“ " ”;
wc: 递归统计文件里有多少单词,行,字符;
参数:
-l 仅列出行;
-w 仅列出多少字;
-m 多少字符
find ./ -name" *.cpp";find ./ -name" *.h"
根据文件名查找,cpp和h结尾的,用分号引上,linux间多个命令用;分割$获取值
关于http协议说法
- HTTP协议规定,HTTP首部(headers)和HTTP主体之间是以一个空行分割的。因为HTTP每一行(每一行是指一个头部字段)是以\r\n结束的,一个空行的\r\n,再加上最后一行的结束符\r\n,一起是\r\n\r\n,也就是说,当检测到\r\n\r\n四个字符时,下一个字符开始就是HTTP body的内容了。
- 302 临时重定向常用URL劫持
- 500 服务器遇到一个妨碍他为请求提供服务的错误
- 501 客户端发起的请求超出服务器能力范围
- 505服务器请求使用了无法支持或不能支持的协议版本
- 307 重定向
- 304 未修改:自从上次请求后,请求的网页未修改过。服务器返回此相应时不会返回网页内容
- 请求参数包含是否需要转化(encode):1.ASCII的控制字符 2.非ASCII字符 3.保留字符‘&’ 4.不安全字符‘ ’(空格) %不需要转化
关于计算机网络的说法
- 在由下往上过程中要不断拆除头部和尾部,上到下要添加
tcp包含的协议:
- FTP:文件传输协议端口21
- Telent:用邮件传输于远程登陆的端口,默认23 用户可以自己的身份登录连接计算机,可提供DOS下的通信服务
- SMTP:邮件传输协议,用于发送邮件,端口25
- POP3:用于接收邮件,与SMTP对应,端口110
- HTTP:是从web服务器传输超文本到本地的传送协议
udp包含的协议
- DNS:域名解析服务,将域名转换为ip 端口53
- SNMP:网络管理协议,161端口
- TFTP:简单文件传输协议 在端口69上使用UDP服务
Linux中用来查找可执行文件
- 查命令绝对路径: which用于查找并显示给定命令的绝对路径,环境变量中PATH参数也可以被查出来。
- 寻找特定文件: whereis命令用来定位指令的二进制程序、源代码文件和man手册页等相关文件的路径,该命令只能用于程序名的搜索
whereis/which 可执行文件查找工具
which和whereis命令可用于查找可执行文件。区别在于which通过PATH环境变量查询,whereis通过索引数据库查询。 - 缓存查找文件: locate 搜索一个数据库/var/lib/mlocatedb,这个数据库中含有本地所有文件信息,Linux系统自动创建这个数据库,并且每天自动更新一次,所以使用locate命令查不到最新变动过的文件,为了避免这种情况,可以在使用locate之前,先使用updatedb命令,手动更新数据库,updatedb命令会根据/etc/updatedb.conf来更新文件
- 遍历文件查找: find 命令可以说是最重要的查找命令了,该命令参数较多。
- type 可执行程序的路径查找
通常,type命令用于判断命令是否是内置命令。但它的参数提供了所搜路径的选型
type -p相当于which
关于Linux下/etc下的文件说法
- host.conf 主机名和ip配置文件
- hosts 记录主机静态信息
- resolv.conf 域名解析配置文件
- mtab记录文件系统的动态信息,记录为当前挂载的文件系统
- motd 本机标识信息,可以显示控制的是本机还是远程计算机
- fstab 文件系统的静态信息,系统初始化时挂载的文件系统