- 博客(90)
- 收藏
- 关注
原创 大数据面试题
数据开发面试题1.Linux基础知识1.1Linux常用命令1)查看cpu,内存2)修改文件目录权限属主3)挂载磁盘4)查看磁盘使用情况5)打包及压缩6)查看进程7)查看IP8)查找文件9)远程拷贝文件10)文本处理命令1.2Shell脚本编写设计一个Shell程序,在/home目录下创建100个文件,并且修改文件权限,其中其它用户的权限为:读。文件全部者的权限为:读、...
2020-02-19 10:46:10
6658
原创 linux网络配置
lo回环接口主机内部服务之间沟通的网络接口回环接口—-人的神经—-127.0.0.1—-localhost0.0.0.0代表所有以root权限编辑/etc/sysconfig/network-scripts/ifcfg-eno16777736这个文件,效果如下:TYPE=EthernetBOOTPROTO=static #设置静态IpDEFROUTE=yesIPV4_FAILUR...
2019-10-19 09:53:24
509
原创 一个强大的linux命令——find之exec
https://blog.youkuaiyun.com/u014762921/article/details/54287302exec和source都属于bash内部命令(builtins commands),在bash下输入man exec或man source可以查看所有的内部命令信息。 bash shell的命令分为两类:外部命令和内部命令。外部命令是通过系统调用或独立的程序实现的,如sed、aw...
2019-09-10 10:12:06
415
原创 k8s使用
https://blog.youkuaiyun.com/weixin_29115985/article/details/78932991一. k8s基本操作命令:创建:kubectl create -f xxx.yaml查询:kubectl get pod yourPodNamekubectl describe pod yourPodName删除:kubectl delete pod yourPod...
2019-09-05 18:26:33
289
原创 Linux 文件描述符详解
https://www.cnblogs.com/zsql/p/11139760.htmlOverview了解Linux怎样处理输入和输出是非常重要的。一旦我们了解其原理以后,我们就可以正确熟练地使用脚本把内容输出到正确的位置。同样我们也可以更好地理解输入重定向和输出重定向。Linux标准文件描述符文件描述符 缩写 描述0 STDIN 标准输入1 STDOUT 标准输出2 STDERR...
2019-09-03 10:58:30
184
原创 linux并发编程
linux下实现并发逻辑################shell 模拟实现并发跑数#################有时候我们知道一些程序是可以同时跑的,互不影响,为了提高效率不得不使用并发跑脚本#1、思路一我们都知道在linux中把程序丢后台跑脚本,我们可以同时跑很多个,这就是实现并发的思路,但是呢?如果我们一次性跑很多的后台程序,如果服务器没能扛住。。。。这就尴尬了,如果手工控制。...
2019-09-03 10:49:20
307
原创 hbase WAL机制原理
解决的问题HBase的Write Ahead Log (WAL)提供了一种高并发、持久化的日志保存与回放机制。每一个业务数据的写入操作(PUT / DELETE)执行前,都会记账在WAL中。如果出现HBase服务器宕机,则可以从WAL中回放执行之前没有完成的操作。本文主要探讨HBase的WAL机制,如何从线程模型、消息机制的层面上,解决这些问题:由于多个HBase客户端可以对某一台HB...
2019-08-28 15:53:21
577
原创 hbase远程调试
远程调试HBase步骤:1 修改HBASE_HOME/bin/hbase文件,增加-Xdebug -Xrunjdwp:transport=dt_socket,server=y,suspend=n,address=10444如figure out which class to run if [ “COMMAND"="shell"];the...
2019-08-28 09:19:03
276
原创 jstack案例演示
https://www.cnblogs.com/zhengyun_ustc/archive/2013/01/06/dumpanalysis.htmljstack Dump 日志文件中的线程状态dump 文件里,值得关注的线程状态有:死锁,Deadlock(重点关注)执行中,Runnable等待资源,Waiting on condition(重点关注)等待获取监视器,Waiting on...
2019-08-21 22:47:32
382
原创 HBase snapshot原理
http://hbasefly.com/2017/09/17/hbase-snapshot/?bulwvo=dw1sw2snapshot(快照)基础原理snapshot是很多存储系统和数据库系统都支持的功能。一个snapshot是一个全部文件系统、或者某个目录在某一时刻的镜像。实现数据文件镜像最简单粗暴的方式是加锁拷贝(之所以需要加锁,是因为镜像得到的数据必须是某一时刻完全一致的数据),拷贝的...
2019-08-19 09:12:46
1582
原创 linux 安装 rz sz 工具
yum install gcc gcc-c++ gcc-g771.软件安装1)编译安装root 账号登陆后,依次执行以下命令:cd /tmpwget http://www.ohse.de/uwe/releases/lrzsz-0.12.20.tar.gztar zxvf lrzsz-0.12.20.tar.gz && cd lrzsz-0.12.20./configu...
2019-08-18 15:25:31
121
原创 Elasticsearch对Hbase中的数据建索引实现海量数据快速查询
https://blog.youkuaiyun.com/m0_37739193/article/details/78029734Elasticsearch+Hbase实现海量数据秒回查询https://blog.youkuaiyun.com/sdksdk0/article/details/53966430
2019-08-13 16:55:49
637
原创 IDEA打JAR包的正确步骤!
1.打开idea,这个不用多说了,open一个工程,完了界面如下2.点击菜单栏File–>Project Structure打开Project Structure3.点+按钮,选择JAR–》From Modules…打开create jar from modules对话框4.下面这一步比较重要,我就曾经入坑,最后打出的jar包缺少main-class属性导致无法执行,这里选择MA...
2019-08-12 17:15:28
599
原创 linux下的source命令(.命令)解释及应用
用法:source filename # filename必须是可执行的脚本文件或者. filename # 注意“.”号后面还有一个空格123功能:通知当前shell读入路径为filename的文件并依次执行文件中的所有语句。通常用于重新执行刚修改的初始化文件,使之立即生效...
2019-08-12 15:11:35
363
原创 kafka消费者组概念
https://blog.youkuaiyun.com/cgs666/article/details/85257819应用程序使用 KafkaConsumer向 Kafka 订阅主题,并从订阅的主题上接收消息 。 从 Kafka 读取数据不同于从其他悄息系统读取数据,它涉及一些独特的概念和想法。如果不先理解 这些概念,就难以理解如何使用消费者 API。所以我们接下来先解释这些重要的概念,然 后再举几个例子,...
2019-08-09 16:31:15
1517
原创 linux 操作
today=date "+%Y-%m-%d "00:00:00yesterday=date -d "1 day ago" "+%Y-%m-%d "00:00:00todayTimestamp=date -d "$today" +%s000yesTimestamp=date -d "$yesterday" +%s000echo $todayecho $yesterdayecho $tod...
2019-08-08 09:32:19
152
原创 hbase 过滤器
参考以下两个bloghttps://blog.youkuaiyun.com/weixin_40861707/article/details/83340929https://blog.youkuaiyun.com/lr131425/article/details/72676254一. hbase shell的filter操作不设置过滤器,全表扫描scan ‘表名’ //查询出某个表格内全部的数据记录举例 : ...
2019-08-07 15:23:14
260
原创 hbase api操作
HBase API简介见https://www.cnblogs.com/wishyouhappy/p/3753347.htmlhbase shell基础和常用命令详解https://www.jb51.net/article/31172.htm创建表插入数据删除等见https://www.cnblogs.com/wishyouhappy/p/3735077.html概括创建、删除及...
2019-08-06 19:27:10
320
原创 sqoop问题
将mysql中的数据导入到hive中报错:ERROR tool.ImportTool:Import failed: java.io.IOException: java.lang.ClassNotFoundException: org.apache.hadoop.hive.conf.HiveConf这是因为sqoop需要一个hive的包,将hive/lib中的hive-common-2.3.3....
2019-08-05 21:47:15
398
转载 自动化运维工具-pdsh工具安装配置及简单使用讲解
http://www.bubuko.com/infodetail-2338310.html1、先决条件:安装pssh工具的主机针对远程主机需要配置免秘钥认证:ssh-keygen -t rsassh-copy-id [remotehost]2、下载pssh工具安装介质:https://storage.googleapis.com/google-code-archive-download...
2019-08-05 09:14:40
724
原创 HBase海量数据入库方案、使用ImportTSV向HBase中导入海量数据、HBase的写入流程、HBase在HDFS中的存储结构、LoadIncrementalHFiles命令 10
https://blog.youkuaiyun.com/heyongluoyao8/article/details/25426481https://blog.youkuaiyun.com/jdzms23/article/details/45078175
2019-08-04 22:15:28
802
原创 hbase-site.xml 配置详解
https://blog.youkuaiyun.com/ningxuezhu/article/details/50547970该文档是用hbase默认配置文件生成的,文件源是 hbase-default.xmlhbase.rootdir这个目录是region server的共享目录,用来持久化HBase。URL需要是’完全正确’的,还要包含文件系统的scheme。例如,要表示hdfs中的’/hbase’...
2019-08-02 16:44:12
895
原创 hbase数据备份或者容灾方案
https://blog.youkuaiyun.com/u010657789/article/details/51813226HBase的数据备份或者容灾方案有这几种:Distcp,CopyTable,Export/Import,Snapshot,Replication,以下分别介绍(以下描述的内容均是基于0.94.20版本)。一、Distcp在使用distcp命令copy hdfs文件的方式实现备份时...
2019-08-01 18:47:58
196
原创 hbase hbck 用法
hbase hbck用法2017年7月29日作者:白42暂无评论文章目录 [显示]在这里简单整理下hbase hbck的用法。用法:hbase hbck [opts] {only tables}1hbase hbck [opts] {only tables}opts通用可选项-help 展示help信息;-detail 展示所有Region的详情;-timelag <秒...
2019-08-01 09:35:30
1035
原创 Spark_分区、任务等概念总结
https://blog.youkuaiyun.com/sandra_csdn/article/details/78110622Spark分区数、task数目、core数目、worker节点数目、executor数目梳理spark隐式创建由操作组成的逻辑上的有向无环图。驱动器执行时,它会把这个逻辑图转换为物理执行计划,然后将逻辑计划转换为一系列的步骤(stage),每个步骤由多个任务组成。步骤组成任务...
2019-07-31 16:24:40
699
原创 Hbase Coprocessor(协处理器)的使用
参考以下两篇博客:https://blog.youkuaiyun.com/jediael_lu/article/details/76577072https://blog.youkuaiyun.com/henianyou/article/details/80938422
2019-07-31 14:08:18
153
原创 HBase的replication原理及部署
https://www.cnblogs.com/zhangwuji/p/9195806.html一、hbase replication原理hbase 的复制方式是 master-push 方式,即主集群推的方式,主要是因为每个rs都有自己的WAL。 一个master集群可以复制给多个从集群,复制是异步的,运行集群分布在不同的地方,这也意味着从集群和主集群的数据不是完全一致的,它的目标就是最终一...
2019-07-30 23:00:50
678
原创 Linux—shell中$(( ))、$( )、``与${ }的区别
https://www.cnblogs.com/chengd/p/7803664.html命令替换在bash中,$( )与(反引号)都是用来作命令替换的。命令替换与变量替换差不多,都是用来重组命令行的,先完成引号里的命令行,然后将其结果替换出来,再重组成新的命令行。exp 1[root@localhost ~]# echo today is $(date “+%Y-%m-%d”)tod...
2019-07-29 15:48:28
141
原创 hive元数据初始化遇到的坑
ERROR 1862 (HY000): Your password has expired. To log in you must change it using a client that supports expired passwords.解决办法:1.在my.cnf mysqld 部分加入 skip-grant-tables 参数。 #跳过数据库权限验证[mysqld]skip-...
2019-07-26 11:50:14
1613
原创 mysql.sock的问题
关于mysql.sock的一些问题:连接数据库时报错:Can 't connect to local MySQL server through socket '/tmp/mysql.sock '(2) ";查找mysql配置文件my.cnf:find / -name my.cnf默认在/usr/my.cnfmysql.sock默认位置:/var/lib/mysql/mysql.sock...
2019-07-26 09:15:51
1324
原创 centos mysql 安装
FATAL ERROR: please install the following Perl modules before executing ./scripts/mysql_install_db:Data::Dumper解决方法是安装autoconf库执行命令:yum -y install autoconfhttps://www.cnblogs.com/xiaxiaoxu/p/99789...
2019-07-25 22:24:19
120
原创 HBase学习之六: hbase的预分区设计
背景:HBase默认建表时有一个region,这个region的rowkey是没有边界的,即没有startkey和endkey,在数据写入时,所有数据都会写入这个默认的region,随着数据量的不断 增加,此region已经不能承受不断增长的数据量,会进行split,分成2个region。在此过程中,会产生两个问题:1.数据往一个region上写,会有写热点问题。2.region split会消...
2019-07-25 18:53:12
217
原创 su和sudo命令
我们知道,在Linux下对很多文件进行修改都需要有root(管理员)权限,比如对/ect/profile等文件的修改。很多情况下,我们在进行开发的时候都是使用普通用户进行登录的,尤其在进行一些环境变量的配置工作时,常常需要对一些文件进行修改。那么我们如何获取管理员权限呢?? 一般来说,有两种方法。一是:利用su命令切换到root用户,在root用户下对那些文件进行修改,完成相关配置工作。二是:利...
2019-07-25 14:33:41
232
原创 hbase hbck(元数据修复)深入
官网介绍:http://hbase.apache.org/book.html#hbck.in.depthmeta表修复一Java代码 收藏代码查看hbasemeta情况hbase hbck1.重新修复hbase meta表(根据hdfs上的regioninfo文件,生成meta表)hbase hbck -fixMeta2.重新将hbase meta表分给regionserver(根...
2019-07-25 10:34:26
2883
原创 Kafka写入流程和副本策略
Kafka写入流程:1.producer 先从 zookeeper 的 “/brokers/…/state” 节点找到该 partition 的 leaderproducer 将消息发送给该 leaderleader 将消息写入本地 logfollowers 从 leader pull 消息,写入本地 log 后 leader 发送 ACKleader 收到所有 ISR ...
2019-07-24 23:05:42
230
原创 Kafka消息的物理存放路径
https://blog.youkuaiyun.com/weixin_42628594/article/details/85571380Kafka的Log存储解析https://blog.youkuaiyun.com/jewes/article/details/42970799Kafka中的Message是以topic为基本单位组织的,不同的topic之间是相互独立的。每个topic又可以分成几个不同的partit...
2019-07-24 23:01:24
8659
4
原创 用maven assembly插件打jar包实现依赖包归档
https://blog.youkuaiyun.com/e5945/article/details/7777286如果你的项目使用maven构建的话,当项目要上线,部署到服务器上去的时候或许会碰见这样的问题。问题就是,服务器上没有maven的环境,也就是说,项目所依赖到的那些仓库(repository)中的jar包你需要单独提取出来上传到服务器中去。我知道pom类型如果是war的话,在使用mvn pack...
2019-07-24 09:59:09
156
转载 Elasticsearch笔记五之java操作es
https://blog.youkuaiyun.com/ty4315/article/details/524342961:集群名称 默认集群名为elasticsearch,如果集群名称和指定的不一致则在使用节点资源时会报错。2:嗅探功能 通过client.transport.sniff启动嗅探功能,这样只需要指定集群中的某一个节点(不一定是主节点),然后会加载集群中的其他节点,这样只要程序不停...
2019-07-23 22:56:50
181
原创 通过HBase Observer同步数据到ElasticSearch
http://guoze.me/2015/04/23/hbase-observer-sync-elasticsearch/Observer希望解决的问题HBase是一个分布式的存储体系,数据按照RowKey分成不同的Region,再分配给RegionServer管理。但是RegionServer只承担了存储的功能,如果Region能拥有一部分的计算能力,从而实现一个HBase框架上的MapRe...
2019-07-23 22:32:47
242
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人