- 博客(59)
- 资源 (8)
- 收藏
- 关注
原创 impala无法查询hive表的数据,或者不能同步hive数据
hive可以查询,但是impala无法查询,一般这种情况是数据类型不对,会导致这种情况。比如你程序插入数据类型是int,但是hive建表是bigint,你impala表就无法查询。...
2019-10-14 11:29:53
2750
原创 史上最简单的免密登陆
机器A到机器B免密1.在机器A输入下面命令,三次回车后,就在机器A产生公钥和私钥ssh-keygen2.在机器A的/root/.ssh目录下执行下面命令,就复制到了机器B上ssh-copy-id 机器B的ip3.这样就可以SSH免密到机器B上了,想要相互免密,就相互按照上述步骤...
2019-08-16 16:16:03
863
原创 进程监控高可用自启动脚本
#!/bin/bashjob_local=`ps -ef | grep data.json | grep -v grep | awk '{print $2}'` #监控本地 第一个grep写你要监控的进程job=`ssh root@XXX.XXX.XXX.XXX ps -ef | grep data.json | grep -v grep | awk '{print $2}'` #监控远...
2019-08-16 16:02:26
421
原创 python webdriver api对启动的火狐浏览器设置用户环境和添加配置
1.在CMD中使用cd命令进入firefox.exe文件所在目录(比如:C:\ProgramFiles\MozillaFirefox),并输入firefox.exe-ProfileManager-no-remote命令,然后按Enter键,调出“Firefox–选择用户配置文件”操作窗口2.创建配置文件。3.把上图的路径复制到代码中,这样就可以拥有该用户的所有环境,...
2019-03-18 16:59:56
860
原创 crontab脚本可以执行成功,但是定时无法执行成功
1.定时的脚本里面不要包含相对路径,脚本嵌套脚本也不要有相对路径,全部换成绝对路径2.你登录状态执行脚本可以成功的原因是你的环境变量已经加载,系统登陆时会自动加载各种环境配置文件在你的脚本里开始的地方加载如下代码(注意是点加空格). /etc/profile. ~/.bash_profile...
2019-03-11 17:01:40
1084
原创 linux远程执行命令并用管道获取返回值
当你有的命令在本地机器没有,你可以远程到别的机器执行并用获取返回结果1.先把两台机器做面密登陆(这个比较简单简单,很多这个文章我就说了)ssh root@192.168.2.5 'cd /home; /home/mem/start.sh'2.批量执行命令#!/bin/bash ssh root@192.168.2.5 < < remotessh kill...
2019-03-11 16:02:44
3801
原创 Java发送邮件和python发送邮件
1.发送邮件maven的依赖<dependency><groupId>javax.activation</groupId><artifactId>activation</artifactId><version>1.1</version></dependency><dependenc...
2019-03-01 15:10:32
354
原创 SPARK2-2.3.0.cloudera3-1.cdh5.13+zeppelin0.8+impala
1.以前我搭建的事0.7.3对应的事spark2.1,现在spark-2.3以后zeppelin-0.7.3不兼容,所以使用0.8不过也折腾了半天jar包不匹配2.修改配置文件cd /zeppelin-0.8.0-bin-all/confcp zeppelin-env.sh.template zeppelin-env.shcp zeppelin-site.xml.templa...
2019-01-17 10:56:41
749
原创 tomcat单独重启某个web服务或者热部署
1.进入tomcat的页面2.进入的页面就可以单独为你的应用重启了,点击reload就可以3.要进入上个界面就得在tomcat配置这个文件tomcat-user.xml<role rolename="manager-gui"/><user username="admin" password="admin" roles="manager-gui"/>注意
2018-11-15 14:31:23
6507
原创 爬虫scrapy+selenium带cookie免密码登录状态
1.如果你的爬虫使用webdriver来作为访问页面,用什么scrapy自带的post form表单来登陆是不行的。因为你的session不是同一个会话,所以你必须在webdriver来进行添加cookie的方法方法1: # 设置无头模式 浏览器就不会弹出来 opts = FirefoxOptions() opts.add_argument("--hea...
2018-09-13 10:50:03
2595
原创 python报错TypeError:Cannot convert the series to class float的原因分析
import pandas as pdSeries=pd.Series(["$3.9","$1.6","abc","bc","bb","c"])#取出数字浮点,然后替换掉Na,转为float类型print Series.str.extract("([1-9]\d*\.\d*|0\.\d*[1-9]\d*)",expand=True).fillna(value=0
2018-08-21 17:30:19
61046
1
原创 python的csv转Excel2007以上版本程序
# -*- coding: UTF-8 -*-import sysimport codecsimport csvimport timeimport xlsxwriter as xlwtreload(sys)sys.setdefaultencoding('utf8')class CsvtoExcelHandler(object): # workbook = xlw...
2018-08-20 14:46:19
562
原创 python2.7.9+scrapy+selenium的window7系统和linux系统
1.安装python2.7.5环境window系统可以直接下载python2.7.5然后傻瓜式下一步就好linux系统安装参考https://www.jianshu.com/p/c8d5205538932.安装pipwin:在安装pip前,请确认你win系统中已经安装好了python,和easy_install工具,如果系统安装成功,easy_install在目录C:\Python...
2018-08-09 11:03:42
460
1
原创 flume自定义Interceptor的UUID和其他逻辑处理
package com.meme.flume.interceptor;import com.google.common.base.Charsets;import org.apache.flume.Context;import org.apache.flume.Event;import org.apache.flume.interceptor.Interceptor;import or...
2018-07-03 16:24:37
1172
原创 flume的kafka到hdfs的配置
1.htrace-core-3.0.jar2.commons-configuration-1.6.jar3.hadoop-auth-2.6.0.jar4.hadoop-common-2.6.0.jar5.hadoop-hdfs-2.6.0.jar6.hadoop-mapreduce-client-core-2.6.0.jar遇到这些错误时,添加以上包就可以解决:java.lang.NoClassD...
2018-07-03 16:13:56
1181
原创 dubbo中文文档以及案例
提供一个dubbo的中文文档地址以及案例 https://dubbo.gitbooks.io/dubbo-user-book/content/preface/requirements.html
2018-06-25 16:45:02
528
原创 linux安装多版本jdk
1.解压tar -zxvf jdk-7u51-linux-x64.tar.gz2.修改环境变量export JAVA_HOME=/home/jdk1.7.0_80export CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jarexport PATH=$PATH:$JAVA_HOME/bin3.java -version4.安装不...
2018-06-06 16:13:27
1914
原创 sparkstreaming的实时黑名单过滤太慢
官网推荐这种方法进行过滤,但是这种方法其实有很大弊端,left out join如果黑名单数据量很大就会很伤,其实中不好。object TransformBlackList { def main(args: Array[String]): Unit = { //获取streamingContext val sc=new StreamingContext(new SparkCo...
2018-05-25 17:22:19
1035
原创 Java和scala集合互相转换
使用 scala.collection.JavaConverters 与Java集合交互。它有一系列的隐式转换,添加了asJava和asScala的转换方法。import scala.collection.JavaConverters._ val list: java.util.List[Int] = List(1,2,3,4).asJava val buffer: scala.coll...
2018-05-25 15:17:13
19498
3
原创 shell通过日期循环做处理逻辑
#! /bin/sh#传入开始日期结束日期包含开始和结束两天date=`date -d "+0 day $1" +%Y%m%d`enddate=`date -d "+1 day $2" +%Y%m%d`#date_1=`date -d "+0 day $1" +%Y-%m-%d`#enddate_1=`date -d "+1 day $2" +%Y-%m-%d`echo "----...
2018-04-25 09:59:07
856
原创 Java对域名一二级区分实现
1.引入maven文件 <dependency> <groupId>de.malkusch.whois-server-list</groupId> <artifactId>public-suffix-list</artifactId> <!--<version>2.2.0</
2018-04-19 13:59:30
1369
1
原创 阿里云的oss上传到cdh的hdfs集群
1.oss可以上传到hdfs,支持emr集群还支持其他开源的hdfs版本。emr-tools兼容Hadoop 2.4.x、2.5.x、2.6.x、2.7.x版本,如果有其他Hadoop版本兼容性的需求,请提交工单给阿里云。下载https://helpcdn.aliyun.com/document_detail/63822.htmltar jxf emr-tools.tar.bz22.oss到hdf...
2018-04-10 18:10:49
1099
转载 Kylin源码解析——Cube构建过程中如何实现降维
-维度简述Kylin中Cube的描述类CubeDesc有两个字段,rowkey和aggregationGroups。@JsonProperty("rowkey")private RowKeyDesc rowkey;@JsonProperty("aggregation_groups")private List<AggregationGroup> aggregationGroups...
2018-04-04 14:16:55
560
原创 Java调用oozie提交spark on yarn任务
1.需要在oozie-site.xml设置如下属性:<property> <name>hadoop.proxyuser.cenyuhai.hosts</name> <value>*</value> </property> <property> <name>
2018-04-04 13:25:28
2252
1
原创 hive-1.1-CDH永久注册UDF
第1种、创建临时函数。如在hive CLI执行下面命令hive> add jar ipudf.jar;hive> create temporary function iptocc as 'com.wct.hive.udf.IptoccUDF';hive> select iptocc(t.col1) from t limit 10;hive> drop temporary f...
2018-04-04 10:53:12
697
原创 CDH安装配置zeppelin-0.7.3以及配置spark查询hive表
1.下载zeppelinhttp://zeppelin.apache.org/download.html 我下载的是796MB的那个已经编译好的,如果需要自己按照环境编译也可以,但是要很长时间编译,这个版本包含了很多插件,我虽然是CDH环境但是这个也可以使用。2.修改配置文件cd /zeppelin-0.7.3-bin-all/confcp zeppelin-env
2018-01-17 11:05:23
3694
1
转载 spark共享变量更新操作
1. 广播变量我们知道spark 的广播变量允许缓存一个只读的变量在每台机器上面,而不是每个任务保存一份拷贝。常见于spark在一些全局统计的场景中应用。通过广播变量,能够以一种更有效率的方式将一个大数据量输入集合的副本分配给每个节点。Spark也尝试着利用有效的广播算法去分配广播变量,以减少通信的成本。 一个广播变量可以通过调用SparkContext.broadcast(v)方法从
2017-12-19 16:53:05
4180
1
转载 sparkstreaming+kafka
这篇文章记录我使用 Spark Streaming 进行 ETL 处理的总结,主要包含如何编程,以及遇到的问题。环境我在公司使用的环境如下:Spark: 2.2.0Kakfa: 0.10.1这两个版本算是比较新的。业务从 Kafka 中读取数据,用 SQL 处理,写入 Kafka 中。 程序主要分为 3大块:从 Kafka 中读取数据。SQL
2017-12-14 16:09:35
807
转载 spark排错与优化
一. 运维1. Master挂掉,standby重启也失效Master默认使用512M内存,当集群中运行的任务特别多时,就会挂掉,原因是master会读取每个task的event log日志去生成spark ui,内存不足自然会OOM,可以在master的运行日志中看到,通过HA启动的master自然也会因为这个原因失败。解决增加Master的内存占用,在M
2017-12-13 16:47:27
873
转载 cloudera目录功能
/var/log/cloudera-scm-installer : 安装日志目录。/var/log/* : 相关日志文件(相关服务的及CM的)。/usr/share/cmf/ : 程序安装目录。/usr/lib64/cmf/ : Agent程序代码。/var/lib/cloudera-scm-server-db/data : 内嵌数据库目录。/usr/bin/postgres
2017-11-07 16:12:06
696
转载 shell逐行读取文件内容
写法一:----------------------------------------------------------------------------#!/bin/bashwhile read linedo echo $linedone ---------------------------------------------------------
2017-10-26 10:54:34
2441
转载 kafka认证
很久没写文章了,之所以写这篇文章是想其他同学少走弯路,因为我在进行配置的时候发现google及百度没有一篇像样的文章。官方doc说的又不是很清楚,所以比较蛋疼,最终还是折腾出来了。Kafka SSL 配置大家先可以去看官方doc:http://kafka.apache.org/090/documentation.html#security_ssl
2017-10-12 11:04:11
1388
原创 用shell命令获得hdfs文件名并动态创建hive表
#获得文件夹下的文件名并循环每个文件名files=`hadoop fs -ls /home/out/aidfilter | awk -F " " '{print $8}'`for name in $filesdo#awk命令按“/”分割第五个filename=`echo $name | awk -F "/" '{print $5}'`echo $filename#执
2017-10-11 17:24:07
2658
原创 spark streaming 的textFileStream读取不了数据原因分析
这路径如果hdfs的路径 你直接hadoop fs -put 到你的监测路径就可以,如果是本地目录用file:///home/data 你不能移动文件到这个目录,必须用流的形式写入到这个目录形成文件才能被监测到。
2017-09-29 14:58:35
7983
原创 sbt编译项目
1.下载sbt.zip http://www.scala-sbt.org/download.html 2.Windows环境下建议配置SBT的环境变量。具体步骤不说了,就是把sbt/bin目录配置进PATH。3.在sbt/bin下有个sbt.bat,查看该bat文件。可以了解到该文件依赖于conf/sbtconfig.txt。在conf/sbtconfig.tx
2017-09-26 16:34:11
965
转载 spark向kafka写入数据
前言在WeTest舆情项目中,需要对每天千万级的游戏评论信息进行词频统计,在生产者一端,我们将数据按照每天的拉取时间存入了Kafka当中,而在消费者一端,我们利用了spark streaming从kafka中不断拉取数据进行词频统计。本文首先对spark streaming嵌入kafka的方式进行归纳总结,之后简单阐述Spark streaming+kafka在舆情项目中的应用,最后将自己
2017-09-07 09:54:59
24504
转载 spark的UI界面
[看图说话] 基于Spark UI性能优化与调试——初级篇Spark有几种部署的模式,单机版、集群版等等,平时单机版在数据量不大的时候可以跟传统的java程序一样进行断电调试、但是在集群上调试就比较麻烦了...远程断点不太方便,只能通过Log的形式进行数据分析,利用spark ui做性能调整和优化。那么本篇就介绍下如何利用Ui做性能分析,因为本人的经验也不是
2017-06-20 15:16:00
42327
2
原创 linux下搭建多个tomcat
步骤如下: (1)修改/etc/profile文件。添加一组java环境变量,和两组CATALINA环境变量(我没有进行此步骤的设置,可能因为我的Tomcat是免安装版的吧)记得修改完要使其生效,用命令:source /etc/profile编辑环境变量:vi /etc/profileexport JAVA_HOME="/usr/java/jdk1.7.0_15"export PATH
2017-06-16 15:35:07
395
原创 spark加载properties配置文件方法
首先我先介绍一下错误的写法,这个加载配置文件方法是错误的: val props = new Properties(); val loader = getClass.getClassLoader; props.load(new FileInputStream(loader.getResource("config.properties").getFile()))这个是把配置文
2017-06-14 17:47:20
12886
3
原创 spark的rdd.saveastextfile可以追加写入hdfs吗
是不能的,现在我来说一下原因,首先spark的任务是并行的,如果你的所有的j任务都往一个文件中追加,那么这些任务都必须去获得会后一行的位置,但是最后一行的位置是只能有一个任务获得的,所以其他任务不可能同时获得最后一行的位置,这个机制就决定了,多个任务追加写入同一个文件。如果你把所有数据都聚合到一个节点上,是可以追加到同一个文件,这个场景用的极少。
2017-06-12 17:02:07
13670
go语言开发实战特好用
2018-06-20
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人