- 博客(29)
- 资源 (18)
- 收藏
- 关注
原创 js课程表插件
这个课程表不是原创的,是基于别人的Timetables.js插件,进行了美化和功能完善,特别适用于手机端,如微信公众号、小程序、APP等中展示,兼容PC端。 效果图如下:github地址:https://github.com/mumuxix/schoolTimetable欢迎大家采用...
2020-03-25 17:23:44
2391
8
原创 Cloudera Manager API调用实例(JAVA版)
1、下载github上的api项目,含pom依赖关系https://github.com/cloudera/cm_api2、下载的api项目只是纯粹的api说明和工具类,没有调用实例,以maven格式导入到eclipse项目中3、增加调用实例类,如下import java.text.ParseException;import java.text.SimpleDateFormat...
2019-03-31 11:38:02
2726
原创 log4j的DailyRollingFileAppender每天产生一个日志文件,却不支持MaxBackupIndex
实验了好几次,又查了资料,才发现log4j的DailyRollingFileAppender每天产生一个日志文件,却不支持MaxBackupIndex,不能设置保留近几天的日志。
2018-09-29 10:06:24
2726
原创 kettle jar包冲突
kettle中之前要写java脚本连接hbase,所以导入了很多依赖包。现在使用kettle中的hadoop文件转移控件报错,排查之后因为jar包冲突,冲突的jar包为hadoop-common-2.5.1.jar ...
2018-09-28 16:57:58
762
原创 简单shell脚本,与日志重定向输出
linux crontab定时任务:*/5 * * * * flock -xn /tmp/kettle_job_sjgz_server.lock -c '/bin/bash /opt/pdi-ce-6.1.0.1-196/kettle_job_sjgz_server.sh >> /opt/pdi-ce-6.1.0.1-196/kettle_job_sjgz_server.lo...
2018-09-28 15:07:16
4660
原创 解决tomcat日志中cataline.out过大问题(切换用log4j)
1、准备jar包和文件地址https://download.youkuaiyun.com/download/gongchengshiv/10691222里面包含:tomcat-juli.jar,tomcat-juli-adapters.jar,log4j-1.2.17.jar,log4j.properties四个文件2、将log4j.jar 和 tomcat-juli-adapters.jar放到...
2018-09-27 16:13:52
704
原创 maven中加入ojdbc6驱动包
把ojdbc6-11.2.0.3.jar 放入目录D:\apache-maven-3.5.3-bin\ojdbc中,cmd执行以下命令:mvn install:install-file -DgroupId=com.oracle -DartifactId=ojdbc6 -Dversion=11.2.0.3 -Dpackaging=jar -Dfile=D:\apache-maven-3.5.3-bi...
2018-03-15 10:51:16
1330
原创 让linux程序后台执行(后台程序管理利器supervisior管理Flume进程)
场景:需要让flume稳定的在linux后台执行以下是离线安装supervisor的方法:一、安装supervisor所依赖的python包1、安装easy_install下载地址:http://pypi.python.org/packages/source/s/setuptools/setuptools-0.6c11.tar.gz#md5=7df2a529a074f613b509
2017-12-04 10:34:44
2331
原创 linux让flume在后台运行
1.使用nohup+命令+&nohup可以让命令忽略hangup(hup)的影响,在后台一直执行。&是在xshell上也不输出内容,保持在后台执行
2017-11-24 11:21:20
5845
原创 hive读取与flume写入hdfs文件冲突
前提:用flume采集数据,sink配置hdfs输出,然后用hive时时查询计算,定期转存数据到历史表。1、问题一:hive查询时与flume滚动文件冲突hive查询时包含flume的历史文件(后缀tmp文件),当flume把临时文件滚动成正式文件时,会删掉临时文件,生成正式文件,此时hive查询处理时会报错:file not fond解决思路:由于hive查询时不会查询以.和_开头的
2017-11-23 17:19:08
1180
原创 认识kettle
工作中使用kettle作为数据抽取、转换、清洗、计算、导出工具。1、kettle是pentaho公司的BI产品中的一个小小组件,叫数据集成data integration工具。公司竟然用kettle完成全部的数据工作:采集、清洗、计算、导出。2、
2017-11-21 21:50:07
386
原创 认识syslog
通过做采集防火墙和AC的日志信息,接触到了syslog这个词,之前一直有点模糊,只知道设备能往我的flume上推送日志信息的用法,对于syslog的意思不大懂。今天又上网查了一下,说的syslog意思有点深奥,跟我的使用经验和理解,简单归纳对syslog的认识:1、syslog是Linux系统的一个自带进程,提供有api供其他应用程序写入Linux日志文件2、syslog有大致的格式,
2017-11-21 21:07:10
342
原创 被cloudera quickstart vm坑了一把
基于没有服务器,只有个人4G内存笔记本一台,想试一把hadoop环境,操作一下真实环境学习。研究了cloudera官网提供了一个快速学习的环境安装包:cloudera quickstartvm。安装虚拟机时没有说明需要最小内存,虚拟机启动正常,当打开cdh express精简版时竟然说至少8G内存,我累个去,早不说,等装完了启动时才提示,我也是醉了。。。。。。。坑啊。。。。。
2017-11-18 22:58:47
4471
1
原创 shell操作hbase
环境:已经搭建好cdh环境操作步骤:1、使用Xshell工具连接到hbase所在服务器2、输入hbase shell命令进入shell命令模式3、可以操作hbase了,比如输入list,会展示hbase中所有的表
2017-10-10 11:38:01
914
原创 ehcarts省份热力图实例
省份热力图如下:var geoCoordMap = { "郑州":[113.65,34.76]};var convertData = function (data) { var res = []; for (var i = 0; i < data.length; i++) { var geoCoord = geoCoordMap[data[
2017-09-01 16:53:48
9029
2
原创 怎么让echarts柱状图同一个系列每个柱状颜色都不同
option = { xAxis : [ { type : 'category', data : ['Mon', 'Tue', 'Wed'], axisTick: { alignWithLabel: true } } ],
2017-09-01 16:26:14
5884
原创 爬虫开始
爬虫程序写了一段时间了,不进行记录容易忘记,现在就有点模糊了。用了才去学,用过了就忘了。用python语言写的爬虫,基于scrapy框架,部署在了scrapyd服务器中,设置了linux定时执行。爬取了开放的信息、并解析出想要获取的信息。尝试成功了登录后爬取,没有尝试成功使用动态ip代理实例。爬取海投网的时候频率过高被警告了,以后需要注意请求频率。
2017-08-29 17:45:23
289
原创 基于scrapy的智联职位爬取
1、项目截图2、setting.py项目配置文件# -*- coding: utf-8 -*-# Scrapy settings for zhaopin_zhilian project## For simplicity, this file contains only settings considered important or# commonly used. You
2017-08-29 17:05:41
3438
2
原创 基于echarts3的大屏展示
最近公司要做一个展厅大屏的监控页面,包括几种图表类型,柱状图、条形图、饼图、锥形图、中国地图、各省地图、仪表盘等。需求:以合适的图标展现指定的内容,要求实时监控。其中地图上要实时提现每个省的新增人数,点击某个省,弹出这个省的地图,实时展示每个市的新增人数及其他内容。整体高端大气上档次,给人实时监控的感觉。实时机制:由于需要实时展示,涉及定时刷新。为了看上去有实时的效果,做了伪实时的处理,把
2017-08-29 16:25:52
7887
2
原创 测试ip是否可用(ip代理时)
import telnetlibtry: telnetlib.Telnet('192.168.112.95', port='680', timeout=20)except: print('connect failed')else: print('success')
2017-08-21 17:58:34
3344
1
原创 爬虫整体结构
1、开发语言是python2、使用开源爬虫框架scrapy3、使用scrapy对应的服务器scrapyd4、使用crontab定时机制
2017-08-21 17:06:43
567
原创 把scrapyd设置为系统后台服务和启动项
一、设置为系统后台服务1、新建文件/etc/init.d/scrapyd,名称为scrapyd#!/bin/bashPORT=6800HOME="/var/scrapyd"BIN="/usr/local/bin/scrapyd" pid=`netstat -lnopt | grep :$PORT | awk '/python/{gsub(/\/python/,"",$7);pri
2017-08-21 13:56:30
2589
1
原创 linux安装scrapy出错'x86_64-Linux-gnu-gcc' failed with exit status 1
出错内容:'x86_64-linux-gnu-gcc' failed with exit status 1解决办法:sudo apt-get build-dep python-lxmlsudo pip install lxml --upgradesudo apt-get install build-essential libssl-dev libffi-dev python
2017-08-17 15:27:39
443
原创 scrapy框架笔记
1、xpaht返回的节点也可以再次进行xpaht解析:zw_table = response.xpath('//table[@class="newlist"]') gsmc=zw_table[1].xpath('.//td[@class="gsmc"]//a[1]/node()').extract()2、获取节点内的html全部内容包含html变迁,用法:
2017-08-11 10:19:48
237
原创 scrapy学习之一-基础
1、scrapy是python语言编写的爬虫框架,支持扩展,帮开发者完成了基础的搭建,开发者只需开发核心代码。至于爬取速率、cookie、线程数、间隔时间只需要配置即可。一定程度上方便了开发者。好像不支持分布式吧,也谈不上分布式,支持并发,默认并发请求16个。2、用scrapy主要写spider、item、pipe。
2017-08-10 19:55:20
303
原创 Python之安装部署
1、下载安装、部署步骤忘了,上上周做的事情。用的版本是3.5.22、用的开发工具是sublime,记得需要配置一些东西才能用
2017-08-07 09:13:57
306
kcbdemo.zip
2020-03-25
ODAC112x64位.zip
2019-08-21
ODAC安装及说明.zip
2019-08-20
java调用Cloudera Manager Api实例
2019-03-31
tomcat-juli.jar,tomcat-juli-adapters.jar解决tomcat日志cataline.out过大问题
2018-09-27
hadoop2.7中文文档
2018-02-23
java连接hive依赖的jar包
2017-09-27
echarts城市名和对应的经纬度
2017-09-01
基于scrapy的爬虫小例子
2017-08-29
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人