时间的快慢-优快云博客

原创 impala无法查询hive表的数据，或者不能同步hive数据

hive可以查询，但是impala无法查询，一般这种情况是数据类型不对，会导致这种情况。比如你程序插入数据类型是int，但是hive建表是bigint，你impala表就无法查询。...

2019-10-14 11:29:53 2750

原创史上最简单的免密登陆

机器A到机器B免密1.在机器A输入下面命令，三次回车后，就在机器A产生公钥和私钥ssh-keygen2.在机器A的/root/.ssh目录下执行下面命令，就复制到了机器B上ssh-copy-id 机器B的ip3.这样就可以SSH免密到机器B上了，想要相互免密，就相互按照上述步骤...

2019-08-16 16:16:03 863

原创进程监控高可用自启动脚本

#!/bin/bashjob_local=`ps -ef | grep data.json | grep -v grep | awk '{print $2}'` #监控本地第一个grep写你要监控的进程job=`ssh root@XXX.XXX.XXX.XXX ps -ef | grep data.json | grep -v grep | awk '{print $2}'` #监控远...

2019-08-16 16:02:26 421

原创 python webdriver api对启动的火狐浏览器设置用户环境和添加配置

1.在CMD中使用cd命令进入firefox.exe文件所在目录（比如：C:\ProgramFiles\MozillaFirefox），并输入firefox.exe-ProfileManager-no-remote命令，然后按Enter键，调出“Firefox–选择用户配置文件”操作窗口2.创建配置文件。3.把上图的路径复制到代码中，这样就可以拥有该用户的所有环境，...

2019-03-18 16:59:56 860

原创 crontab脚本可以执行成功，但是定时无法执行成功

1.定时的脚本里面不要包含相对路径，脚本嵌套脚本也不要有相对路径，全部换成绝对路径2.你登录状态执行脚本可以成功的原因是你的环境变量已经加载，系统登陆时会自动加载各种环境配置文件在你的脚本里开始的地方加载如下代码（注意是点加空格）. /etc/profile. ~/.bash_profile...

2019-03-11 17:01:40 1084

原创 linux远程执行命令并用管道获取返回值

当你有的命令在本地机器没有，你可以远程到别的机器执行并用获取返回结果1.先把两台机器做面密登陆(这个比较简单简单，很多这个文章我就说了)ssh root@192.168.2.5 'cd /home; /home/mem/start.sh'2.批量执行命令#!/bin/bash ssh root@192.168.2.5 < < remotessh kill...

2019-03-11 16:02:44 3801

原创 Java发送邮件和python发送邮件

1.发送邮件maven的依赖<dependency><groupId>javax.activation</groupId><artifactId>activation</artifactId><version>1.1</version></dependency><dependenc...

2019-03-01 15:10:32 354

原创 SPARK2-2.3.0.cloudera3-1.cdh5.13+zeppelin0.8+impala

1.以前我搭建的事0.7.3对应的事spark2.1，现在spark-2.3以后zeppelin-0.7.3不兼容，所以使用0.8不过也折腾了半天jar包不匹配2.修改配置文件cd /zeppelin-0.8.0-bin-all/confcp zeppelin-env.sh.template zeppelin-env.shcp zeppelin-site.xml.templa...

2019-01-17 10:56:41 749

原创 tomcat单独重启某个web服务或者热部署

1.进入tomcat的页面2.进入的页面就可以单独为你的应用重启了，点击reload就可以3.要进入上个界面就得在tomcat配置这个文件tomcat-user.xml<role rolename="manager-gui"/><user username="admin" password="admin" roles="manager-gui"/>注意

2018-11-15 14:31:23 6507

原创爬虫scrapy+selenium带cookie免密码登录状态

1.如果你的爬虫使用webdriver来作为访问页面，用什么scrapy自带的post form表单来登陆是不行的。因为你的session不是同一个会话，所以你必须在webdriver来进行添加cookie的方法方法1： # 设置无头模式浏览器就不会弹出来 opts = FirefoxOptions() opts.add_argument("--hea...

2018-09-13 10:50:03 2595

原创 python报错TypeError:Cannot convert the series to class float的原因分析

import pandas as pdSeries=pd.Series(["$3.9","$1.6","abc","bc","bb","c"])#取出数字浮点，然后替换掉Na，转为float类型print Series.str.extract("([1-9]\d*\.\d*|0\.\d*[1-9]\d*)",expand=True).fillna(value=0

2018-08-21 17:30:19 61046 1

原创 python的csv转Excel2007以上版本程序

# -*- coding: UTF-8 -*-import sysimport codecsimport csvimport timeimport xlsxwriter as xlwtreload(sys)sys.setdefaultencoding('utf8')class CsvtoExcelHandler(object): # workbook = xlw...

2018-08-20 14:46:19 562

原创 python2.7.9+scrapy+selenium的window7系统和linux系统

1.安装python2.7.5环境window系统可以直接下载python2.7.5然后傻瓜式下一步就好linux系统安装参考https://www.jianshu.com/p/c8d5205538932.安装pipwin：在安装pip前，请确认你win系统中已经安装好了python，和easy_install工具，如果系统安装成功，easy_install在目录C:\Python...

2018-08-09 11:03:42 460 1

原创 flume自定义Interceptor的UUID和其他逻辑处理

package com.meme.flume.interceptor;import com.google.common.base.Charsets;import org.apache.flume.Context;import org.apache.flume.Event;import org.apache.flume.interceptor.Interceptor;import or...

2018-07-03 16:24:37 1172

1.htrace-core-3.0.jar2.commons-configuration-1.6.jar3.hadoop-auth-2.6.0.jar4.hadoop-common-2.6.0.jar5.hadoop-hdfs-2.6.0.jar6.hadoop-mapreduce-client-core-2.6.0.jar遇到这些错误时，添加以上包就可以解决:java.lang.NoClassD...

2018-07-03 16:13:56 1181

原创 dubbo中文文档以及案例

提供一个dubbo的中文文档地址以及案例 https://dubbo.gitbooks.io/dubbo-user-book/content/preface/requirements.html

2018-06-25 16:45:02 528

原创 linux安装多版本jdk

1.解压tar -zxvf jdk-7u51-linux-x64.tar.gz2.修改环境变量export JAVA_HOME=/home/jdk1.7.0_80export CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jarexport PATH=$PATH:$JAVA_HOME/bin3.java -version4.安装不...

2018-06-06 16:13:27 1914

原创 sparkstreaming的实时黑名单过滤太慢

官网推荐这种方法进行过滤，但是这种方法其实有很大弊端，left out join如果黑名单数据量很大就会很伤，其实中不好。object TransformBlackList { def main(args: Array[String]): Unit = { //获取streamingContext val sc=new StreamingContext(new SparkCo...

2018-05-25 17:22:19 1035

原创 Java和scala集合互相转换

使用 scala.collection.JavaConverters 与Java集合交互。它有一系列的隐式转换，添加了asJava和asScala的转换方法。import scala.collection.JavaConverters._ val list: java.util.List[Int] = List(1,2,3,4).asJava val buffer: scala.coll...

2018-05-25 15:17:13 19498 3

原创 shell通过日期循环做处理逻辑

#! /bin/sh#传入开始日期结束日期包含开始和结束两天date=`date -d "+0 day $1" +%Y%m%d`enddate=`date -d "+1 day $2" +%Y%m%d`#date_1=`date -d "+0 day $1" +%Y-%m-%d`#enddate_1=`date -d "+1 day $2" +%Y-%m-%d`echo "----...

2018-04-25 09:59:07 856

原创 Java对域名一二级区分实现

1.引入maven文件 <dependency> <groupId>de.malkusch.whois-server-list</groupId> <artifactId>public-suffix-list</artifactId> <!--<version>2.2.0</

2018-04-19 13:59:30 1369 1

原创阿里云的oss上传到cdh的hdfs集群

1.oss可以上传到hdfs，支持emr集群还支持其他开源的hdfs版本。emr-tools兼容Hadoop 2.4.x、2.5.x、2.6.x、2.7.x版本，如果有其他Hadoop版本兼容性的需求，请提交工单给阿里云。下载https://helpcdn.aliyun.com/document_detail/63822.htmltar jxf emr-tools.tar.bz22.oss到hdf...

2018-04-10 18:10:49 1099

转载 Kylin源码解析——Cube构建过程中如何实现降维

-维度简述Kylin中Cube的描述类CubeDesc有两个字段，rowkey和aggregationGroups。@JsonProperty("rowkey")private RowKeyDesc rowkey;@JsonProperty("aggregation_groups")private List<AggregationGroup> aggregationGroups...

2018-04-04 14:16:55 560

原创 Java调用oozie提交spark on yarn任务

1.需要在oozie-site.xml设置如下属性：<property> <name>hadoop.proxyuser.cenyuhai.hosts</name> <value>*</value> </property> <property> <name&gt

2018-04-04 13:25:28 2252 1

原创 hive-1.1-CDH永久注册UDF

第1种、创建临时函数。如在hive CLI执行下面命令hive> add jar ipudf.jar;hive> create temporary function iptocc as 'com.wct.hive.udf.IptoccUDF';hive> select iptocc(t.col1) from t limit 10;hive> drop temporary f...

2018-04-04 10:53:12 697

原创 CDH安装配置zeppelin-0.7.3以及配置spark查询hive表

1.下载zeppelinhttp://zeppelin.apache.org/download.html 我下载的是796MB的那个已经编译好的，如果需要自己按照环境编译也可以，但是要很长时间编译，这个版本包含了很多插件，我虽然是CDH环境但是这个也可以使用。2.修改配置文件cd /zeppelin-0.7.3-bin-all/confcp zeppelin-env

2018-01-17 11:05:23 3694 1

转载 spark共享变量更新操作

1. 广播变量我们知道spark 的广播变量允许缓存一个只读的变量在每台机器上面，而不是每个任务保存一份拷贝。常见于spark在一些全局统计的场景中应用。通过广播变量，能够以一种更有效率的方式将一个大数据量输入集合的副本分配给每个节点。Spark也尝试着利用有效的广播算法去分配广播变量，以减少通信的成本。一个广播变量可以通过调用SparkContext.broadcast(v)方法从

2017-12-19 16:53:05 4180 1

转载 sparkstreaming+kafka

这篇文章记录我使用 Spark Streaming 进行 ETL 处理的总结，主要包含如何编程，以及遇到的问题。环境我在公司使用的环境如下：Spark: 2.2.0Kakfa: 0.10.1这两个版本算是比较新的。业务从 Kafka 中读取数据，用 SQL 处理，写入 Kafka 中。程序主要分为 3大块：从 Kafka 中读取数据。SQL

2017-12-14 16:09:35 807

转载 spark排错与优化

一. 运维1. Master挂掉,standby重启也失效Master默认使用512M内存，当集群中运行的任务特别多时，就会挂掉，原因是master会读取每个task的event log日志去生成spark ui，内存不足自然会OOM，可以在master的运行日志中看到，通过HA启动的master自然也会因为这个原因失败。解决增加Master的内存占用，在M

2017-12-13 16:47:27 873

转载 cloudera目录功能

/var/log/cloudera-scm-installer : 安装日志目录。/var/log/* : 相关日志文件（相关服务的及CM的）。/usr/share/cmf/ : 程序安装目录。/usr/lib64/cmf/ : Agent程序代码。/var/lib/cloudera-scm-server-db/data : 内嵌数据库目录。/usr/bin/postgres

2017-11-07 16:12:06 696

转载 shell逐行读取文件内容

写法一：----------------------------------------------------------------------------#!/bin/bashwhile read linedo echo $linedone ---------------------------------------------------------

2017-10-26 10:54:34 2441

转载 kafka认证

很久没写文章了，之所以写这篇文章是想其他同学少走弯路，因为我在进行配置的时候发现google及百度没有一篇像样的文章。官方doc说的又不是很清楚，所以比较蛋疼，最终还是折腾出来了。Kafka SSL 配置大家先可以去看官方doc：http://kafka.apache.org/090/documentation.html#security_ssl

2017-10-12 11:04:11 1388

原创用shell命令获得hdfs文件名并动态创建hive表

#获得文件夹下的文件名并循环每个文件名files=`hadoop fs -ls /home/out/aidfilter | awk -F " " '{print $8}'`for name in $filesdo#awk命令按“/”分割第五个filename=`echo $name | awk -F "/" '{print $5}'`echo $filename#执

2017-10-11 17:24:07 2658

原创 spark streaming 的textFileStream读取不了数据原因分析

这路径如果hdfs的路径你直接hadoop fs -put 到你的监测路径就可以，如果是本地目录用file:///home/data 你不能移动文件到这个目录，必须用流的形式写入到这个目录形成文件才能被监测到。

2017-09-29 14:58:35 7983

原创 sbt编译项目

1.下载sbt.zip http://www.scala-sbt.org/download.html 2.Windows环境下建议配置SBT的环境变量。具体步骤不说了，就是把sbt/bin目录配置进PATH。3.在sbt/bin下有个sbt.bat，查看该bat文件。可以了解到该文件依赖于conf/sbtconfig.txt。在conf/sbtconfig.tx

2017-09-26 16:34:11 965

转载 spark向kafka写入数据

前言在WeTest舆情项目中，需要对每天千万级的游戏评论信息进行词频统计，在生产者一端，我们将数据按照每天的拉取时间存入了Kafka当中，而在消费者一端，我们利用了spark streaming从kafka中不断拉取数据进行词频统计。本文首先对spark streaming嵌入kafka的方式进行归纳总结，之后简单阐述Spark streaming+kafka在舆情项目中的应用，最后将自己

2017-09-07 09:54:59 24504

转载 spark的UI界面

[看图说话] 基于Spark UI性能优化与调试——初级篇Spark有几种部署的模式，单机版、集群版等等，平时单机版在数据量不大的时候可以跟传统的java程序一样进行断电调试、但是在集群上调试就比较麻烦了...远程断点不太方便，只能通过Log的形式进行数据分析，利用spark ui做性能调整和优化。那么本篇就介绍下如何利用Ui做性能分析，因为本人的经验也不是

2017-06-20 15:16:00 42327 2

原创 linux下搭建多个tomcat

步骤如下：（1）修改/etc/profile文件。添加一组java环境变量，和两组CATALINA环境变量（我没有进行此步骤的设置，可能因为我的Tomcat是免安装版的吧）记得修改完要使其生效，用命令：source /etc/profile编辑环境变量：vi /etc/profileexport JAVA_HOME="/usr/java/jdk1.7.0_15"export PATH

2017-06-16 15:35:07 395

原创 spark加载properties配置文件方法

首先我先介绍一下错误的写法，这个加载配置文件方法是错误的： val props = new Properties(); val loader = getClass.getClassLoader; props.load(new FileInputStream(loader.getResource("config.properties").getFile()))这个是把配置文

2017-06-14 17:47:20 12886 3

原创 spark的rdd.saveastextfile可以追加写入hdfs吗

是不能的，现在我来说一下原因，首先spark的任务是并行的，如果你的所有的j任务都往一个文件中追加，那么这些任务都必须去获得会后一行的位置，但是最后一行的位置是只能有一个任务获得的，所以其他任务不可能同时获得最后一行的位置，这个机制就决定了，多个任务追加写入同一个文件。如果你把所有数据都聚合到一个节点上，是可以追加到同一个文件，这个场景用的极少。

2017-06-12 17:02:07 13670

scrapy爬取豆瓣，携程代码，动态加载页面等

python的所有爬虫案例都有实现，动态加载页面，模拟火狐浏览器，各种高难度姿势爬取内容

2018-08-23

生产环境的停词表

这个资源非常好，包含了各类型的停词表，可谓非常全，公司生产环境就是这个，给满分

2018-08-22

jxl.jar解析2000以下Excel文件不会乱码

可以解析95-2000的Excel，别的jxl都解析不了，只有独此一个可以完整解析2000一下Excel

2018-06-28

java反编译工具

java的反编译工具，可以反编译Java的.class文件，可以看得到Java的代码，你值得拥有，开发者必备

2018-06-28

go语言开发实战特好用

第1章　关于Go语言的介绍　1 1．1　用Go解决现代编程难题　2 1．1．1　开发速度　2 1．1．2　并发　3 1．1．3　Go语言的类型系统　5 1．1．4　内存管理　7 1．2　你好，Go　7 1．3　小结　8 第2章　快速开始一个Go程序　9 2．1　程序架构　9 2．2　main包　11 2．3　search包　13 2．3．1　search．go　13 2．3．2　feed．go　21 2．3．3　match．go default．go　24 2．4　RSS匹配器　30 2．5　小结　36 第3章　打包和工具链　37 3．1　包　37 3．1．1　包名惯例　38 3．1．2　main包　38 3．2　导入　39 3．2．1　远程导入　40 3．2．2　命名导入　40 3．3　函数init　41 3．4　使用Go的工具　42 3．5　进一步介绍Go开发工具　44 3．5．1　go vet　44 3．5．2　Go代码格式化　45 3．5．3　Go语言的文档　45 3．6　与其他Go开发者合作　48 3．7　依赖管理　48 3．7．1　第三方依赖　49 3．7．2　对gb的介绍　50 3．8　小结　52 第4章　数组、切片和映射　53 4．1　数组的内部实现和基础功能　53 4．1．1　内部实现　53 4．1．2　声明和初始化　54 4．1．3　使用数组　55 4．1．4　多维数组　58 4．1．5　在函数间传递数组　59 4．2　切片的内部实现和基础功能　60 4．2．1　内部实现　60 4．2．2　创建和初始化　61 4．2．3　使用切片　63 4．2．4　多维切片　74 4．2．5　在函数间传递切片　75 4．3　映射的内部实现和基础功能　76 4．3．1　内部实现　76 4．3．2　创建和初始化　78 4．3．3　使用映射　79 4．3．4　在函数间传递映射　81 4．4　小结　82 第5章　Go语言的类型系统　83 5．1　用户定义的类型　83 5．2　方法　87 5．3　类型的本质　90 5．3．1　内置类型　91 5．3．2　引用类型　91 5．3．3　结构类型　93 5．4　接口　95 5．4．1　标准库　96 5．4．2　实现　98 5．4．3　方法集　99 5．4．4　多态　103 5．5　嵌入类型　105 5．6　公开或未公开的标识符　113 5．7　小结　121 第6章　并发　122 6．1　并发与并行　122 6．2　goroutine　125 6．3　竞争状态　132 6．4　锁住共享资源　135 6．4．1　原子函数　135 6．4．2　互斥锁　138 6．5　通道　140 6．5．1　无缓冲的通道　141 6．5．2　有缓冲的通道　146 6．6　小结　149 第7章　并发模式　150 7．1　runner　150 7．2　pool　158 7．3　work　168 7．4　小结　174 第8章　标准库　176 8．1　文档与源代码　177 8．2　记录日志　178 8．2．1　log包　179 8．2．2　定制的日志记录器　182 8．2．3　结论　186 8．3　编码解码　187 8．3．1　解码JSON　187 8．3．2　编码JSON　192 8．3．3　结论　193 8．4　输入和输出　193 8．4．1　Writer和Reader接口　194 8．4．2　整合并完成工作　195 8．4．3　简单的curl　199 8．4．4　结论　200 8．5　小结　200 第9章　测试和性能　201 9．1　单元测试　201 9．1．1　基础单元测试　202 9．1．2　表组测试　205 9．1．3　模仿调用　208 9．1．4　测试服务端点　212 9．2　示例　217 9．3　基准测试　220 9．4　小结　224

2018-06-20

dubbo.2.5.8.war编译好的管理界面

dubbo编译好的管理界面，直接放到tomcat就可以使用，版本2.5.8，贼好用

2018-06-14

Java邮件smtp.jar和mailapi.jar

亲测，好用！！！！

2016-12-27

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人