- 博客(40)
- 资源 (1)
- 收藏
- 关注
原创 Kafka限流实测
通过kafka生产消费配额管理可以消峰,减少瞬时kafka的压力。生产配额可以配置每秒写入kafka的字节数,消费配额可以配置每秒消费字节数。配置粒度可以是全局的,也可以是用户级或者clientId级别。可以通过kafka自带的配置脚本进行配置,如下:bin/kafka-configs.sh \--zookeeper 192.168.1.227:2181 \--alter --add-config 'producer_byte_rate=10.
2021-04-27 15:52:24
4676
1
原创 es elasticsearch 删查改
一、查询1、无条件查询GET oneevent_log_index/_search2、根据时间范围查询示例:GET oneevent_log_index/_search{ "query": { "bool": { "filter": { "range": { "lOccurTime": { "gte"...
2020-03-16 16:32:52
1195
原创 设计模式 之 单例模式
一、饿汉模式/** * 饿汉式单例模式 * 优点: * 1、类加载时立即初始化,绝对线程安全 * 2、没有加任何锁,执行效率高 * 缺点: * 1、类加载时就初始化,不管用不用都占用空间,浪费内存 */public class HungrySingleton { private static final HungrySingleton singleton = new ...
2020-01-06 21:20:12
427
原创 centos6.8 安装elasticsearch6.5集群
安装es6.5文章目录1、官网下载Linux rpm包2、安装:rpm -ivh *.rpm3、配置4、创建jdk软链接,不让找不到javahome5、添加文件及权限给elastic search6、系统参数配置7、启动8、查看集群状态1、官网下载Linux rpm包2、安装:rpm -ivh *.rpm3、配置vim /ect/elasticsearch/elasticsearch.y...
2018-12-17 12:50:26
1036
3
原创 mac安装kafka
文章目录一、安装二、启动zookeeper三、启动kafka四、创建topic五、消费topic六、生产一、安装brew install kafka期间自动安装zookeeper二、启动zookeeperzkServer start三、启动kafkabrew services start kafka查看进程guohan:~ guohan$ jps15840 KafkaUt...
2018-12-15 15:57:22
922
原创 HIVE总结
一、什么是hive将HDFS中的结构化数据映射成表,利用sql将查询分析任务转为MR程序执行二、hive特点集群可扩展、函数可以自定义、容错三、hive架构1、用户接口:CLI:shell命令JDBC/ODBC:java接口WebGUI:浏览器访问hive2、元数据存储:MySql/derby元数据包括表名、列、分区及其属性(是否为外部表)、表数据所在的目录3、运行sql组件...
2018-12-15 15:32:55
610
原创 hadoop 总结
一、什么是hadoop海量数据储存、计算平台二、什么是MapReduce分布式计算框架三、什么是HDFS分布式文件存储系统四、什么是YARN分布式计算资源调度平台五、HDFS组成namenode、datanode六、yarn组成resourceManager、nodeManger七、hadoopHAnameNode:active、standByzkfc:监听nameNo...
2018-12-15 15:19:07
776
原创 Python爬虫框架 Mac安装selenium
一、终端安装[localhost:~ guohan$ pip install seleniumCollecting selenium Downloading https://files.pythonhosted.org/packages/b8/53/9cafbb616d20c7624ff31bcabd82e5cc9823206267664e68aa8acdde4629/selenium-3...
2018-12-15 12:32:26
739
原创 Python爬虫框架 scrapy之xpath选择器 css选择器
一 、xpath1、节点选择/:从根节点选取//:从匹配的当前节点选择文档中的节点,而不考虑它们的位置.:选择当前节点…:选择当前节点的父节点@:选取属性response.xpath('/html/head/title') --选择HTML文档head元素下的title标签response.xpath('/html/head/title/text()')--选择title元素下的文...
2018-12-15 12:24:46
1013
原创 Python 爬虫实战 汽车某家(五) 口碑、评分
爬取内容1、用户口碑明细评分2、口碑标题、发表日期、口碑推荐级别3、购车目的4、购车价格5、购车经销商一、项目结构point.txt 为断点保存文件,over.txt为爬取结束标识文件,不存放任何内容二、核心类代码import time,json,re,random,datetimefrom io import BytesIOfrom PIL import Imag...
2018-12-15 12:11:25
4125
1
原创 Python 爬虫实战 汽车某家(四) 车型配置
前言:汽车之家车型配置数据是js加载+js动态伪元素防爬加载,原始页面中不存在任何数据,因此通过scrapy显式爬取已经不太可能,通过查阅大量资料发现通过所见即所得可以爬取到显式的值,但是对于伪元素加载的值是无法爬取到的,这就需要转个弯,既然隐式爬取不到,那么把隐式的值转为显式的不就可以爬取到了吗!还真是,通过测试验证成功,下面请看爬取demo吧!一、工具选择所见即所得工具有seleniu...
2018-12-15 11:55:34
3078
7
原创 Python 爬虫实战 汽车某家(三) 车型
一、爬取逻辑分析核心1、将爬取分为爬取流程和内容解析1)爬取流程控制请求在售、即将销售、停售的请求分发2) 内容解析负责当前页面的循环解析和分页请求二、爬取页面销售状态分析<div class="tab-nav border-t-no"> <!--状态tab、排序--> <div class="
2018-12-15 11:47:51
1692
原创 Python 爬虫实战 汽车某家(二) 车系
一、获取链接来源浏览器请求:https://car.autohome.com.cn1、打开F12,点击左侧品牌导航栏其中一个品牌2、查找返回品牌车系请求通过爬取品牌得知,左侧导航栏是通过另一个get请求加载的,由此可以当加载品牌下的车系时极有可能是一个链接,因此打开F12搜索list,果然再次找到该请求,单独复制到浏览器请求发现返回html,将返回的html复制到在线格式化工具,可以清楚地...
2018-12-15 11:40:48
1657
原创 Python 爬虫实战 汽车某家(一) 品牌
一、品牌爬取1、进入主页、测试待爬取内容是否为动态加载通过爬取产品库首页品牌列表爬取汽车品牌链接,产品库网址https://car.autohome.com.cn/,通过scrapy shell测试内容是否是动态加载的,动态加载的爬取不到scrapy shell "https://car.autohome.com.cn/"2、找到动态请求shell访问后发现页面元素取不到,证明是动态加...
2018-12-15 11:10:01
3520
12
原创 Python 爬虫实战 汽车某家(六) 论坛列表
功能:分页数据采集、断点续爬文件目录如下,其中temp文件夹用于存放断点文件代码如下:# 论坛帖子列表爬取#功能介绍# 1、论坛断点爬取# 2、分页断点续爬# 3、采新设计:当一轮数据全部爬取完毕后再次爬取,只要采集每日新增的帖子即可,不必全部爬取# 采集数据# 1、论坛版主数据:版主用户ID,保存到版主表# 2、论坛图标:更新到论坛表# 3、合并的车系:保存到论坛车系...
2018-11-21 18:43:39
1355
原创 redis最新版 redis-4.0.9 集群搭建
目录:一、集群架构1、主机架构2、主从架构二、安装redis1、下载源码2、编译3、添加环境变量4、修改配置文件三、安装ruby1、删除旧版本2、安装ruby依赖3、安装ruby2.53.1、下载最新版ruby,输入以下命令3.2、解压编译到指定文件夹3.3、配置环境变量3.4、查看ruby是否安装成功4、使用gem安装ruby的redis依赖包...
2018-04-20 13:42:36
5257
1
原创 azkaban 工作流使用
目录:一 最简单的使用创建一个job执行打印输出打包成zip执行job1 打开Azkaban的web页面httpsmini184432 在页面上创建一个project3 上传压缩包simplezip4 执行5 查看执行日志二单个依赖工作流创建job1创建job2打包上传执行三 多个依赖工作流并行执行创建job1创建job2创建j...
2018-02-18 12:39:03
2124
原创 sqoop job 作业
目录:一最简单的job作业1创建一个job2验证作业是否创建成功3根据job名称查看某一个具体的job信息3执行job4删除job一、最简单的job作业1、创建一个job将mysql中为emp表的数据导入到hdfs上 注意:在创建job时,命令”– import” 中间有个空格,切勿忽视,否则报错!sqoop job \--create ...
2018-02-17 15:04:45
2149
原创 sqoop HDFS 导入 mysql
一、hdfs导入mysql注意:在mysql导入hive时可以自动创建表,而hdfs导入mysql时则不能在mysql中自动创建表,因此导入前准备工作,在mysql中建议需要导入的表!1、最简单的导入准备工作:在mysql中建表create table emp_import (id int,name varchar(45),age int);hdfs中/emp_db下存...
2018-02-17 11:09:05
1045
原创 sqoop mysql 导 HDFS、HIVE
目录:一mysql 导入 hdfs1最简单的导入2指定mapTask个数3导入到hdfs上指定的目录二mysql 导入 hive1最简单的导入2导入到指定的hive库的指定的表中3先导入到指定的HDFS目录上再导入到指定的hive库的指定的表中三从mysql中导出一张表的部分数据指定where条件自定义sql语句四增量导入一、mysql 导入...
2018-02-14 19:20:51
439
原创 腾讯AI 人脸融合接口
目录一官方文档链接二官方java sdk三本地调用前端ajax跨域请求后端java请求腾讯接口注意事项官方sdk包截图一、官方文档链接http://open.youtu.qq.com/#/develop/api-makeup-merge二、官方java sdkhttps://github.com/TencentYouTu/java_sdk另...
2018-02-10 12:31:27
9588
原创 LigurUi + spring mybatis mysql 菜单递归查询
建立递归查询实体模型,使用mybatis映射实体,映射中使用collection标签指定递归查询语句和参数,查询结果集实用LigurUi grid 列表可折叠树状展示
2017-11-30 17:26:05
771
原创 java String常量池与字符串拼接性能优化
----String常量池---- 1.常量池中的对象从哪里来的?String s1="hanhan";String s2="hanhan";System.out.println(s1==s2);//true当我们创建String对象采用字面量形式时,JVM首先会对这个字面量进行检查,如果常量池中存放有该字面量,则直接使用,否则创建新的对象并将其引用放入常量池中。String s1="han"
2017-06-23 19:54:16
4697
原创 java 访问控制修饰符public、 protected、 默认、private
1.修饰方法 - public:改方法被公开,不同包之间的类可以访问 - protected:同包类和子类可以访问 - 默认:同包类,同包子类可以访问,跨包子类不可访问 - private:仅本类可以访问2.修饰变量:同上3.修饰类 - public:不同包之间可以访问 - 默认:同包类,同包子类可以访问,跨包无法访问,自然跨包也就无法被继承,注意不可用protected修
2017-06-22 11:56:52
741
原创 java static、final关键字
--static -- 1.static修饰成员变量 static修饰成员变量后,成员变量变成类变量,有默认初始值,存在于方法区中,与类的实例无关,一个类的无论有多少实例都是共用方法区中同一个静态变量。访问静态变量可以用类的实例去点,但是不建议,一般都是用类名去点,因为这样可以直观地看出来该变量属于类的静态变量!静态变量成类被创建开始直到整个程序关闭才销毁! 2.static修饰方法
2017-06-21 18:25:49
330
原创 java 堆、栈、方法区/ 类变量、成员变量、局部变量
方法区:类信息、类变量(静态变量和常量)、方法 堆:对象 栈:变量 (1)当程序运行时,首先通过类装载器加载字节码文件,经过解析后装入方法区!在方法区中存了类的各种信息,包括类变量、常量及方法。对于同一个方法的调用,同一个类的不同实例调用的都是存在方法区的同一个方法。类变量的生命周期从程序开始运行时创建,到程序终止运行时结束! (2)当程序中new一个对象时,这个对象存在堆中,对象的变量存在
2017-06-21 11:23:05
6523
原创 java static块和非static块的执行顺序
package test;public class Parent { public Parent(){ System.out.println("constructor in parent"); } { System.out.println("not static in parent"); } static{ Syste
2017-06-21 10:08:55
613
1
原创 java画随机颜色同心圆
public class Circle99Frame extends JFrame { public static void main(String[] args){ JFrame frame=new Circle99Frame(); frame.setDefaultCloseOperation(JFrame.EXIT_ON_CLOSE); frame.setSize(600
2017-06-18 16:44:48
2148
1
原创 判断String对象相等
本文通过代码,展示了String对象易弄错的对象相等性判断。由于String对象用到的频率非常多,所以在我们给String对象赋字符串字面量时,会优先重字符串常量池中查找,找到了则返回,找不到则重新创建一个,并将该对象放到常量池中!但是如果我们使用的是new关键字来创建String对象则与String常量池没有任何关系,都会重新创建一个!另外通过subString方法截取的字符串也是重新创
2017-06-16 10:45:44
818
1
原创 java 位运算
public class TestBitwiseOperator { public static void main(String[] args) throws ScriptException{ testBitwise(); //以下是java封装好的可以执行字符串运算表达式的方法 /*ScriptEngineManager manager = new ScriptEn
2017-05-29 18:32:16
211
原创 Linux文件创建、删除、拷贝、移动
创建文件命令:touch创建的是没有任何内容的空文件。如在当前目录创建没有任何内容的空文件: touch ./empty注意事项:如果创建的文件已经存在的话,touch文件将会改变这个文件的时间撮属性,也即文件的最后修改时间属性 拷贝文件用法:cp [选项] [要拷贝的文件|文件列表|][目的文件名|目的目录] 将源文件复制至目标文件,或将多个
2017-01-10 09:07:29
747
原创 Linux文件管理之创建、删除、切换、权限
几乎所有的Linux发行版本都遵循了Linux基金会发布的标准文件系统架构规范FHS(Filesystem Hierarchy Standard)规定了根目录下必须至少有12个文件
2017-01-01 18:06:38
832
原创 Linux帮助命令及开关机命令
Linux命令whoamiwhoami --help 查询当前命令用途echo “字符串” 换行输出字符串echo -n "字符串" 换行输出字符串,后紧跟[guohan@localhost]$echo -e "字符串\n" 换行输出字符串并将\n转义成换行nano 新建文本命令 在新建文本窗口重输入相关文本内容按 c
2017-01-01 16:12:48
1311
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人