- 博客(52)
- 收藏
- 关注
原创 linux处理 bom头文件
打开qingke数据文件的时候,发现同一个车号经过去重会出现两次。在linux系统中vim编辑器打开文件会发现有些数据起始位置有如下字符<feff>。经查明是bom文件在捣鬼。处理方法是sed -i 's/\xef\xbb\xef//g' honda.csv恶心...
2019-08-20 14:37:39
273
原创 python3读写csv文件,通配符路径下寻找文件
python3读文件def csv_read(path): data = [] with open(path,'r',encoding='utf-8-sig') as f: reader = csv.reader(f,dialect='excel') for row in reader: data.append(r...
2019-08-20 14:31:09
1041
原创 2019.08.16
持有封基: 华宝油气和石油公司没关系,是一揽子石油公司的股票,不是石油。今年石油价格是涨的,但是华宝油气跟踪的XOP指数是跌了,根本是负相关。这个基金跟踪的是美股,你用做A股的思维方式去做,很容易失败。不是石油价格。华宝两大坑 1,。华宝油气 2.标普红利标普红利对市值做了中性化处理,但这两年的风格是大市值,包括神奇公式也是做了市值中性化的,今年的表现都不好...
2019-08-16 08:42:07
163
原创 2019.08.14
持有封基(聪明的定投 作者):我是看长期的企业ROE的,去年选招商白酒就是基于这样理由,但没想到今年涨了那么多现在主流选基金是看低PE,但我总觉得低PE恢复到高PE只是短期赚了波动的钱,长期还是要看ROE选ROE而且最好是趋势向上的,银行就是因为趋势向下才给出那么低的估值,还有要剔除周期股的基金...
2019-08-14 13:59:58
135
原创 spark验证文件夹下文件数量
有个需求,需要判断文件夹下是否有parquet文件,但是涉及到中间有一层/id=vin号/文件目录,无法用通配符、由此转化为判断hdfs文件夹下文件数量来判断。代码为 val hadoopfs: FileSystem = FileSystem.get(spark.sparkContext.hadoopConfiguration) val file = hadoopfs....
2019-08-12 13:37:55
938
原创 sed命令的应用
用 sed -i 's/0.995/0.9/g' testFile把testFile文件中的0.995替换为0.9-i 直接修改读取的档案内容,而不是由屏幕输出s 取代,可以直接进行取代的工作哩!通常这个 s 的动作可以搭配正规表示法!例如 1,20s/old/new/g 就是啦!g 获得holding buffer中的内容,并替代当前pattern space中的文...
2019-08-12 13:24:46
146
原创 2019.08.12
解决一个恶心的问题。spark程序在从hdfs中读parquet文件写入mysql中报错了。出现了该错误java.sql.BatchUpdateException: Incorrect integer value: 'LHGJ11835K8000155' for column 'id' at row 1输入路径为/user/houzhq/test/AD/charge_outp...
2019-08-12 10:39:26
194
原创 2019.08.08
今天是对算法输出的异常检测程序进行打包测试,将结果输出到mysql的exception_list表中。spark2-submit \--jars dependences.jar \--class "MainApp.MainApp" \--files settings.properties,threshold.properties \--driver-memory 15g \--ex...
2019-08-08 14:24:00
98
原创 linux shell脚本本地文件put到mysql
#/bin/bashecho "import start"mysql -h192.168.2.93 -uroot -preachauto bcm-pf -P3306 --local-infile=1 -e "load data local infile '/data/houzhq/shell/exception_code.csv' into table exception_code chara...
2019-08-08 14:05:13
584
原创 理解case class的用法
case class PiecewiseInfo(separateValues: List[Double]=List(0.0), allowedValues: List[(Int, Int)]=List((-1,1)) )以此 case class 为例,探讨一些特性。知识结构来自https:/...
2019-08-08 11:18:35
8747
原创 2019.08.06
今天重新修改了一版charge切片逻辑NewChargeSlice 是基于原来的charge的注释的一版package BatteryCareSparkJob.chargesliceimport java.text.SimpleDateFormatimport java.util.{Date, Properties}import BatteryCareSparkJob.char...
2019-08-06 20:10:02
236
原创 spark 编写规范及技巧
1.为了凸显规范及逼格,使用入口类。/** * @Author: Houzhq * @Date: 2019/6/11 15:37 * @Version 1.0 * @Note */object EntranceA { def main(args:Array[String]): Unit ={ args.toList match { case ta...
2019-06-17 16:49:52
987
转载 2019.05.24 对于xgboost算法的了解
https://www.jianshu.com/p/7467e616f227以此为学习路径 开始了解xgboosthttps://blog.youkuaiyun.com/laobai1015/article/details/830591781.先了解一下什么是分类回归分类classification回归 regression分类模型和回归模型本质一样,分类模型是将回...
2019-05-24 15:57:49
328
原创 2019.05.24 工作
在BatteryCareSparkJob中写了一个object TestIntegrateSplit 用于对/user/log/integrate数据进行切分扩列出现了个问题无法执行自己定义的任务日志中有个细节我忽略了,在求array的最大值 array.max的时候 提示empty.max。经过提示想到,在原始数据中可能存在空行,所以报错。经过修改,加入判断逻辑,判断该array...
2019-05-24 08:43:03
102
原创 2019.05.20 java
今天想接着看java源码 hashmap先把之前看的红黑树给结一下https://www.cnblogs.com/CarpenterLee/p/5503882.htmlhttps://blog.youkuaiyun.com/jy1690229913/article/details/83546134https://blog.youkuaiyun.com/jy1690229913/article/deta...
2019-05-20 09:04:02
144
原创 2019.05.17 spark scala
查看spark源码sparkSession在Spark1.6中我们使用的叫Hive on spark,主要是依赖hive生成spark程序,有两个核心组件SQLcontext和HiveContext。这是Spark 1.x 版本的语法//set up the spark configuration and create contexts val sparkConf = new ...
2019-05-17 10:08:43
139
原创 spark sql 源码杂谈
查看spark sql 源码从上图可见,无论是直接使用 SQL 语句还是使用 DataFrame,都会经过如下步骤转换成 DAG 对 RDD 的操作 Parser 解析 SQL,生成 Unresolved Logical Plan 由 Analyzer 结合 Catalog 信息生成 Resolved Logical Plan Optimizer根据预先定义...
2019-05-16 16:06:22
334
原创 2019.05.16
看到哪写到哪。针对未来发展,和面试之前的准备。java 字符串hashcode 哈希码的原理 public int hashCode() { int var1 = this.hash; if (var1 == 0 && this.value.length > 0) { char[] var2 = this...
2019-05-16 10:54:21
96
原创 spark提交到集群的命令
先在idea中maven install 打jar包[houzhq@agent sparkjob]$ spark2-submit --class Sparkjob.count --name countownerjob --num-executors 5 --executor-memory 6G --driver-memory 6G --master yarn --deploy-mode clu...
2018-12-17 09:40:10
566
原创 trip表中的mysql语句
求一辆车在此表中的所有出现天数和经过过滤后全部的坐标目的地数SELECT count(DISTINCT from_unixtime(start_timen,'%Y-%m-%d')) days ,count(DISTINCT FORMAT(lon,4),FORMAT(lat,4) ) loca, vin from test GROUP BY vin; ...
2018-12-17 08:54:02
156
原创 完成假数据任务
mysql 语句 select count(DISTINCT FORMAT(lon,4),FORMAT(lat,4) ) a,vin,from_unixtime(start_timen,'%Y-%m-%d') FROM car_trip_info_tmp GROUP BY vin,from_unixtime(start_timen,'%Y-%m-%d'); 目前统计出 一辆车在...
2018-12-14 11:20:39
123
原创 flume 启动命令
bin/flume-ng agent -c conf -f /root/flume-bak/conf/flume-test.conf -n a1 -Dflume.root.logger=DEBUG,console
2018-12-13 18:17:27
1608
原创 python json.loads和json.dumps
json.dumps : dict转成str json.dump是将python数据保存成jsonjson.loads:str转成dict json.load是读取json数据
2018-01-16 09:44:05
171
原创 docker创建容器
docker run -d -p "3811:3810" -v"/etc/localtime:/etc/localtime" crawler_disease-2018-01-10暴露端口并让容器时间和本地时间一致
2018-01-16 09:29:48
186
原创 python 创建多个线程并启动
创建多个线程并启动这些线程 th_num : 15th_num = conf["crawl_threads"]self._thread_list = []self._thread_states = [None,] * th_numfor tid in range(th_num): th = threading.Thread(target=self.cr
2017-11-09 11:16:47
2879
原创 2017.10.16 利用Xshell登录学校服务器
准备登录北民大的服务器进行测试工作。1.安装VM虚拟机安装win72.在https:/ywsj.nun.edu.cn登录3.点击运维下载,点击xshell运维下载4.自己下载xshell工具5.将在xshell运维下载中下载的xshell.tar解压,将USM文件夹放在c:\Users\hzq\Documents\NetsSarang\Xshell\Session中。选择服务器
2017-10-16 13:57:52
1554
原创 2017.10.16 Scala中val和var的区别
Scala有两种变量,val和var。val就不能再赋值了。与之对应的,var可以在它生命周期中被多次赋值。
2017-10-16 09:07:14
202
原创 2017.10.13 学习写maven java web项目
看了同事的user-agent-service项目,决定学习一下用idea写一个maven java web项目 。1. Maven简介 相对于传统的项目,Maven 下管理和构建的项目真的非常好用和简单,所以这里也强调下,尽量使用此类工具进行项目构建, 它可以管理项目的整个生命周期。 可以通过其命令做所有相关的工作,其常用命令如下: - mvn compi
2017-10-13 11:24:09
241
转载 2017.10.13 shell rmp命令详解
http://www.jb51.net/article/75339.htm感谢RPM是RedHat Package Manager(RedHat软件包管理工具)类似Windows里面的“添加/删除程序”rpm 执行安装包二进制包(Binary)以及源代码包(Source)两种。二进制包可以直接安装在计算机中,而源代码包将会由RPM自动编译、安装。源代码包经常以src
2017-10-13 10:02:31
283
转载 2017.10.13 shell中 function local
http://blog.youkuaiyun.com/wangjianno2/article/details/50200617 感谢shell中局部变量及local命令local一般用于局部变量声明,多在在函数内部使用。(1)shell脚本中定义的变量是global的,其作用域从被定义的地方开始,到shell结束或被显示删除的地方为止。(2)shell函数定义的变量默认是global的
2017-10-13 09:45:14
741
转载 2017.10.12 shell sed命令详解
http://www.cnblogs.com/mchina/archive/2012/06/30/2570523.html 感谢原作者流编辑器sed8.1 sed简介sed是stream editor的缩写,一种流编辑器,它一次处理一行内容。处理时,把当前处理的行存储在临时缓冲区中,称为“模式空间”(pattern space),接着用sed命令处理缓冲区中的内容,处理完成后,把缓冲区
2017-10-12 11:22:51
328
原创 2017.10.12 shell chmod 文件权限详解
chmod 要修改哪些用户的特权:字符含义a修改所有用户的特权g修改组用户的特权o修改其它用户的特权u修改所有者的权限执行什么操作:字符含义-删除当前的权限=替换当前的权限+增加当前的权限
2017-10-12 10:17:27
331
原创 2017.10.12 Dockerfile ENV命令详解
FROM 10.80.1.156:5000/deta/hadoop-base:2.6.5 //基于哪个镜像来做业务镜像MAINTAINER libh ENV NLP_SERVICE 10.252.0.55 //设置项目的依赖,以环境变量的方式注入到镜像中ENV ZIMO_IP 10.80.1.234ENV MYSQL_HOST 10.80.1.234ENV MYSQL_US
2017-10-12 10:02:08
1587
原创 2017.10.11 shell脚本入门教程
转自http://www.jb51.net/article/28514.htm 感谢原作者建立一个脚本程序必须以下面的行开始(必须方在文件的第一行): #!/bin/sh 符号#!用来告诉系统它后面的参数是用来执行该文件的程序。在这个例子中我们使用/bin/sh来执行程序。当编辑好脚本时,如果要执行该脚本,还必须使其可执行。 要使脚本可执行: chmod
2017-10-11 09:25:54
310
原创 2017.10.10 shell中的日期问题
shell中的日期问题,要彻底弄清楚。写一个测试脚本test.sh首先是单引号 双引号的问题。单引号将变量和特殊字符括起来将失去原有的意义,而只作为普通字符解释。双引号括起来后特殊字符将保持原有的意义,其余的作为普通字符解释。#!/bin/sh. ~/.bash_profilesource /etc/profilecurrent_day=date +%Y%m%d
2017-10-10 10:25:41
379
原创 2017.09.29 shell中数据库的填写 docker-compose参数
打onlinecategorylocationjoin的docker镜像,写docker-compose.yaml#!/bin/bash. ~/.bash_profilesource /etc/profilecurrent_day="`date +%Y%m%d`"HOME=/work/app/onlinecategorylocationjoinsource $HOME/bi
2017-09-29 17:55:05
273
原创 20170928 使用网页管理集群 按行读取写入useragent txt文件
根据20170901---20170903的position数据分析useragent
2017-09-28 17:52:05
365
原创 2017.09.26 idea noclassfound问题 mr-analysis-task中的url2category urlutil重写
更改完获得uaid方法在本地运行报错,noclassfound,经过高手指导,发现原因是在pom.xml文件中,有的依赖Jar包的作用域模式为provided。这个模式默认你的环境中有这个jar包,所以就不再自动加载了。经过本地测试url2categorymapreduce,输出数据和原程序一致,useragentid一列数据为 1 其他 2 苹果手机 3 安卓手机 4 PC
2017-09-26 17:31:12
231
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人