
大数据
文章平均质量分 79
孙晨c
业精于勤,荒于嬉;行成于思,毁于随。
展开
-
大数据模拟面试题
第一部分自我介绍 过于冗余项目介绍? 还可以分层以及为啥分层 不完善开发人员分工 一般日数类型及日数据量,业务库最大的表的数据量 一般拉链表逻辑及回滚 回滚不会重要指标及统计方法 不行。建模及原因 (星型模型,雪花模型)开发规范? 没答到点上Hive的理解及调优? 随机数获取(rand()) 小文件处理 group byMapjoin 不行指标一致性? 不行Spark函数 了解Mr shuffle 可以Hbase二级索引Flink熟吗Kyli原创 2021-03-10 13:17:46 · 435 阅读 · 6 评论 -
HDFS之使用Java客户端对文件的一些操作
import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.FileSystem;import org.apache.hadoop.fs.Path;import org.junit.Test;import java.net.URI;/** * @Author SunBingRui * @Date 2020/7/7 16:27 */public class TestHDFS { @Test原创 2020-07-07 18:00:55 · 269 阅读 · 0 评论 -
大数据的4V特性、Hadoop介绍、大数据的计算模式、核心组件、计算框架
大数据特点4V:volume variety velocity value海量性(volume):大数据的数据量很大,每天我们的行为都会产生大批量数据多样性(variety):大数据的类型多种多样,比如视频、音频和图片都属于数据高速性(velocity):大数据要求处理速度快,比如淘宝双十一需要实时显示交易数据价值性(value):大数据产生的价值密度低,意...原创 2019-09-21 13:22:00 · 4863 阅读 · 0 评论 -
如何解决centos7不能联网的问题
1. 首先保证虚拟机是NAT模式2. 打开cmd窗口,输入ipconfig,查看vmnet8的ipv4地址是多少,DNS也需要记下,后面会用到 注意:vmnet8的ip要与虚拟机的网关IP在同一网段下3.接着,VM进入虚拟网络编辑器 记住网关IP4.进入系统中手动设置设置静态IP和DNS(域名服务) 注意:这里的...原创 2019-08-28 14:48:00 · 858 阅读 · 0 评论 -
在centos7中怎么设置静态IP
在VMware里,依次点击”编辑“ - ”虚拟网络编辑器“,选择NAT模式:为了能够使用静态IP,这里不要勾选”使用本地DHCP服务将IP分配给虚拟机“这个选项。然后是配置子网ip,子网IP与宿主机的ip一定不能处在同一地址范围里,否则就算虚拟机能上网,网络既慢,还不稳定。我主机的ip段是192.168.115.xxx,所以我配了192.168.10.xxx来避开主机的ip段,反...原创 2019-08-28 14:55:00 · 136 阅读 · 0 评论 -
在centos7版本使用什么命令可以查看防火墙状态以及关闭防火墙
查看防火墙状态: firewall-cmd --state关闭防火墙: systemctl stop firewalld.service禁止firewall开机启动: systemctl disable firewalld.service原创 2019-08-28 15:17:00 · 164 阅读 · 0 评论 -
集群里常见进程的端口号
原创 2020-07-10 20:16:23 · 399 阅读 · 0 评论 -
网络拓扑-集群中两个节点之间距离的计算方法
记住一句话:节点距离=两个节点到达最近的共同祖先的距离总和如图:在同一节点上,它们之间的距离当然是0,2*0=0在同一机架上的不同节点,它们的共同祖先就是这个机架,而这两个节点到机架的距离都是1,所以这两个节点的距离为1+1=2在同一集群的不同机架上的节点,它们的共同祖先是集群,而这两个节点要到达集群,首先要到这个机架(距离1),然后到达集群(距离2),所以两个节点的距离为2+2=4在同一数据中心的不同集群上,它们的共同祖先是数据中心,以此类推,一个节点到数据中心的距离是3,两个节点的距离就是原创 2020-07-08 21:52:16 · 2832 阅读 · 0 评论 -
大数据面试题
Linux部分①列举你使用的常用指令?②怎么查看服务是否开启?后面的参数都是什么意思?③怎么查看服务器内存使用情况?④日志查看指令?⑤跨机房怎么传输文件?Hadoop部分①怎么搭建一个Hadoop集群?②Hadoop的Shuffer机制?③切片概念?文件256M时,几个切片?④Mr任务提交到yarn流程?⑤数据倾斜概念?Hive部分①hive本质?②group by、sort by、oreder by、distribute by、cluster by、partition by区别原创 2020-07-08 11:59:11 · 186 阅读 · 0 评论