- 博客(24)
- 资源 (1)
- 收藏
- 关注

原创 shell中循环调用hive sql 脚本
脚本tt.sh的内容如下:#!/bin/bashparams=$1for param in $paramsdo echo $paramdone#运行方式为:sh tt.sh "1 2 3 4 5"#输出为:12345-----------------------------------------------------------...
2017-04-06 14:37:06
10482
原创 异步记录日志获取不到HttpServletRequest中的URI
异步记录日志获取不到HttpServletRequest中的URI@NPE异常现象侵入业务代码中记录审计日志时,需要根据HttpServletRequest请求获取需要的URI,但是获取为null@Servicepublic class LogService { @Autowired private LogMapper logMapper; @Async @Transactional public void saveOptLog(String use
2021-05-08 19:02:22
860
原创 安装pyspider时,需要安装pycurl,但是报错specify the SSL backend manually
Curl is configured to use SSL, but we have not been able to determine which SSL backend it is using. Please see PycURL documentation for how to specify the SSL backend manually.也有人作出解答点击跳转我是从官方文档中...
2018-07-30 17:53:08
1514
原创 python中main函数的作用以及解释
python 中name == ‘__main__’ 的作用 经典的英文解释:Make a script both importable and executable 中文解释:使脚本可以被调用import并且也可以直接运行1、直接运行# cat test_fun.pydef fun(): print(__name__) print('this i...
2018-04-19 16:53:18
24239
原创 git 使用
创建与合并分支 应用场景:多人协作时,需要共同开发同一个功能时,就是对同一个文件进行操作,可以采用在本地创建分支并提交修改后的文件到master分支,进行合并,形成一个完成的文件。# 创建本地分支并切换到分支dev_authorgit checkout -b dev_author# 查看当前所在分支git branch# 添加修改过的文件并提交git add test_...
2018-03-05 15:08:24
182
原创 hive 导出数据之一列多行,转为一行多列
需求:提取数据 说明:原数据是一列多行,需要转化为一行多列待查询表为:temp_05hive> desc temp_05;OKdata_dt stringzhanghao stringbooking_time_final stringsign stringhname
2018-01-31 17:57:25
11106
2
原创 hive sql 优化
insert overwrite local directory'/tmp/100'row format delimited fields TERMINATED by'\t'select b.hid,b.comment_id,b.comment_timefrom tmp_for_agoda_fix_date_format aleft join hotel_info_customer_co
2017-12-26 11:11:50
296
原创 sql 连续两个月活跃的用户
题目如图: 环境:mysql 数据库建表:CREATE TABLE `T1` ( `userID` int(11) NOT NULL, `monthID` int(11) NOT NULL) ENGINE=InnoDB DEFAULT CHARSET=utf8全部记录:SELECT * FROM T1;10002 210003 210002 310001 2100
2017-10-27 15:29:30
7726
2
原创 安装配置Supervisor
应用场景 应用程序需要24小时不间断运行,这时可使用 supervisor 监控应用程序的进程,当发生应用程序内部错误退出、进程被杀死等情况时,自动重启应用程序。 官方网站 http://supervisord.org 支持的系统 Supervisor 是一个 UNIX 下的进程管理软件 Supervisor 不可以在任何版本的 Windows 上
2017-08-02 18:55:46
623
1
原创 生产环境 hadoop集群监控工具--ganglia的搭建(YUM的方式)
集群简介:ip 主机名 集群角色 监控角色192.168.20.161 oncloud0 NameNode gmond,gmetad192.168.20.162 oncloud1 DataNode gmond192.168.20.163 oncloud2 DataNode gmond192.168.20.
2017-08-01 18:39:19
919
原创 hadoop集群监控工具--ganglia的搭建(YUM的方式)
Ganglia架构简介: Ganglia 是一款为HPC(高性能计算) 集群设计的可扩展性的分布式监控系统,它可以监视和显示集群中节点的各种状态信息,它由运行在各个节点上的守护进程gmond 采集 CPU、内存、磁盘利用率、I/O负载、网络流量情况等方面的数据,然后汇总到守护进程gmetad下,使用rrdtool存储数据,然后将历史数据以曲线方式通过PHP页面呈现,通过曲线很容易见到每个节点的工
2017-08-01 14:58:24
4640
4
原创 awk 传参
功能:向awk传递多个参数,执行同样的步骤—>查找计数#!/bin/bash#以下两种方式都可以传递awk参数test1="hello"test2="world"echo |awk -vt1=$test1 -vt2=$test2 'BEGIN{print t1" "t2}'echo ${test1} ${test2} | awk '{print "'$test1'","'$test2'"}'
2017-05-18 11:57:47
749
原创 hive 同一个表不同分区的数据求和
业务表如下:hive> desc sc_kekaoxing;OKid string 可靠小表id car_id string car表id month strin
2017-05-12 16:53:08
4107
原创 hive 添加字段导致数据出错
【数据查询为null】有一张表是已经存在的历史表:表名为code,由于业务需要新增加了一个字段:alter table code add COLUMNS (tag_sentence string comment '分割的句子,test') ;然后load相对应的数据,查询发现 tag_sentence 的值有的是显示正确的,有的显示为null解决方案:在创
2017-04-25 13:24:02
2156
原创 hadoop 运维
netstat -n | awk '/^tcp/ {++S[$NF]} END {for(a in S) print a,s[a]}'ALTER TABLE logs DROP IF EXISTS PARTITION(year = 2012, month = 12, day = 18);ALTER TABLE hotel_info_customer_comment_format
2017-04-14 15:48:44
397
原创 执行 hive sql ,报错:断开的管道
在集群正常的情况下,执行hql会报错:断开的管道,由于hql已经运行很久了,保证并不是hql的语句错误,所以查看磁盘使用情况,执行命令: df -lh 文件系统 容量 已用 可用 已用% 挂载点/dev/mapper/centos-root 50G 17G 34G 33% /devtmpfs 16
2017-04-11 11:42:53
2814
原创 定时任务crontab报错
新增一条定时任务命令之后,在保存时,报错信息如下:"/tmp/crontab.fe4L4V" 31L, 1656C writtencrontab: installing new crontab"/tmp/crontab.fe4L4V":19: bad minuteerrors in crontab file, can't install.Do you want to retry
2017-04-10 18:25:05
2046
转载 关于hive分析函数
Hive分析窗口函数(一) SUM,AVG,MIN,MAXhttp://lxw1234.com/archives/2015/04/176.htmhive建表的location问题?https://www.zhihu.com/question/23138769Hive分析窗口函数(二) NTILE,ROW_NUMBER,RANK,DENSE_R
2017-04-06 16:46:05
569
原创 awk把所有日期下的内容输出到同一个文件中
功能:awk把所有日期下的内容输出到同一个文件中,没有使用cat命令的原因是多个文件衔接的地方有的可能有换行符有的可能没有换行符文件名为a.sh#!/bin/bashdts=$1for dt in $dts do cat ${dt}/result/hotel_ranking_info_tb |awk -F "\t" '{print $0}' done运
2017-04-06 15:15:07
1084
原创 Shell 中取今天、昨天、前天、n天前以及n天后的时间
1:获取今天的日期[root@oncloud10 ~]# date +'%Y-%m-%d'2017-03-15 或者[root@oncloud10 ~]# date -d "now" +%Y-%m-%d 2017-03-152:获取昨天的日期[root@oncloud10 ~]# date -d "yesterday" +%Y-%m-%d2017-03-14
2017-03-15 17:45:30
33688
原创 hadoop集群中某一台机器shutdown
说明,集群的环境为linux版本cengos7.2在运行HQL脚本时,报错: bash: fork: retry: 没有子进程直接重启响应的机器,操作失误为shutdown(关机)应该为shutdown -r (关机重启)手动开启机器之后,集群也需要重启,HIVE也要重启为了远程连接HIVE,需要一直打开hiveserver2,并保持窗口,不能被关闭(此处使用的是第三方
2016-11-16 11:40:12
1505
原创 hadoop2.7.2集群运行HQL时,异常Job Submission failed with exception 'org.apache.hadoop.ipc.RemoteException
在运行了接近50天集群(期间集群没有重启过)之后,运行的是HQL脚本,就是一条简单的查询语句,集群报错,以下是报错的具体信息,最终的解决方案是:手动重启集群,解决了。在重启集群时:发现不能运行sh stop-all.sh来关闭,会提示:This script is Deprecated. Instead use stop-dfs.sh and stop-yarn.shStopping
2016-11-03 15:14:12
4618
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人