- 博客(59)
- 资源 (2)
- 收藏
- 关注
原创 IK 分词器空格支持
IK 分词器,支持带空格的分词背景ES 用到 中文(IK) 分词;IK分词器 词典是不支持空格的! 尝试在词典中 加入带空格的 关键词, 也不能正确分词。思路直接修改源码步骤下载代码,refer: elasticsearch-analysis-ikidea 导入工程,切换到对应分支或者 tag(version 要求和 ES完全匹配)org.wltea.analyzer.core.CharacterUtil 做如下修改:org.wltea.analyzer.dic.Diction
2021-02-14 17:28:36
986
1
原创 redash on spark-thriftserver
redash 的 数据源中不包括spark-thriftserver, 而spark-thriftserver 的出现是为了替代 hiveserver2 直接执行sql。尝试修改 redash 中 hive 相关的逻辑 以此来支持spark-thriftserver。1. 测试环境: centos 7 spark2.4.3 hadoop2.102. 安装redash新建文件:docker-compose.yamlversion: '2'servi...
2020-06-18 17:27:40
936
1
原创 aws s3 授权方式
refer:https://hadoop.apache.org/docs/current/hadoop-aws/tools/hadoop-aws/index.html#Authenticating_with_S3
2020-05-09 21:02:24
920
原创 clickhouse 执行计划查看
clickhouse-client -u xxxx--password xxxxxx--send_logs_level=trace <<< 'your query sql' > /dev/null
2020-05-05 17:23:24
2565
原创 java 模拟telnet 发动http 请求
1. telnet 方式:1.1 telnet map.baidu.com1.2 输入:Alt + ]1.3输入:GET /?qt=ipLocation HTTP/1.11.4 输入:HOST:map.baidu.com1.5 输入:Cookie:BAIDUID=AAAA两次回车2. java Socket s = new Socket("m...
2019-08-22 15:38:36
2326
原创 基于腾讯api 语言识别
功能: 录音文件的识别准备:https://cloud.tencent.com/document/product/1093/35800 注册帐号, 申请SECTET_Id, SECRET_KEY1. 发送请求import org.apache.commons.codec.binary.Base64;import org.apache.http.client.methods.Ht...
2019-08-02 16:25:10
2960
原创 微信域名拦截检测
微信域名拦截采用云拦截的机制, 那么如果检测一个域名是否被拦截那?1. 第一步:浏览器打开地址:https://wx.qq.com/登录网页微信2. 打开浏览器调试模式, 一般为F12, 找到:找到Cookie 和User-agnet3. 代码 用第二部的参数替换代码中的cookie, useragent 测试: public boolean isBloc...
2019-07-26 09:56:22
8206
1
原创 跨域多站点独立用户分析
问题:如何把不同站点的用户进行关联起来A、B、C、D 多个站点可能是一级域名相同, 可能是完全两个不同的域名, 如何把多个站点儿的用户关联起来那?实例:假设要计算A、B、C、D的独立用户数1. 准备cookeicenter 服务import org.springframework.web.bind.annotation.*;import javax.servlet.htt...
2019-07-24 11:06:48
3165
原创 frp 基于阿里云跳板 暴露内网机器作为服务器调试、提供服务
背景:把内网研发机器(没有公网)暴露在公网上提供服务:真实提供服务,小程序、公众号码测试环境: linux, 阿里云机器(A), 本地内网机器(B)1. 下载 frpwget https://github.com/fatedier/frp/releases/download/v0.21.0/frp_0.21.0_linux_386.tar.gz解压2. 编辑服务器(A)配置:f...
2019-05-27 10:10:56
9197
原创 个人建站基本流程
背景:基于阿里云搭建个人小站1. 注册阿里云账号:阿里云注册填写昵称、密码、手机号即可。这里有一个限制, 也是个人不喜欢的, 就是手机号不能使用阿里云小号2. 首先需要一个自己的域名, 购买一个自己的域名, 便宜的大约10元左右。这里一般购买未注册域名,当然有钱人可以收购一个已经注册的域名。域名购买3. 域名备案,在国内, 没有备案的域名是不能使用的。备案周期大约为2...
2019-05-22 12:59:32
16804
3
原创 短网址简介
1. 什么是短网址?短网址也就是比较短的网址,其功能是把短网址压缩,例如:把https://www.baidu.com/s?ie=utf-8&f=8&rsv_bp=1&rsv_idx=1&tn=baidu&wd=%E4%BA%94%E4%B8%80%E6%94%BE%E5%81%87&oq=react%2520color&rsv_pq=9...
2019-04-23 16:13:28
9984
1
原创 scrapy hello world
1. 安装:pip install Scrapy2. 新建工程scrapy startproject myspider3. 测试spiders 目录下新author_spider.py:import scrapyclass AuthorSpider(scrapy.Spider): name = 'author' def start_requests(sel...
2019-04-01 10:04:04
17530
原创 tesseract 训练数据基本步骤
unbunt 18.04 安装tesseractjar 包:jTessBoxEditor 下载1. 生成tifjTessBoxEditor -> tools -> merge tif2. 生成box 文件tesseract chi_sfz.normal.exp0.tif chi_sfz.normal.exp0 -l chi_sim batch.nochop makebox...
2019-03-27 10:14:33
20962
原创 mysql 导入大数据文件
1. 切割文件, 把文件按照每200W行拆分一个文件split -l2000000 -d all.csv part_ --verbose2. 逐个文件导入load data infile '/var/lib/mysql-files/mg/part_00' ignore into TABLE yourTablefields TERMINATED by ',' ENCLOSED BY '...
2019-03-20 17:29:24
23643
原创 查询公网出口ip, 命令行查询公网出口ip
1. 浏览器:http://api.online-service.vip/ip/me2. 命令行: curl api.online-service.vip/ip/me
2019-02-19 17:30:11
61803
1
原创 selenium 动态填充表单, 模拟鼠标右键保存图片
1. 下载驱动,解压驱动(测试环境ubuntu 18.04)http://npm.taobao.org/mirrors/chromedriver/ 2. 代码import org.openqa.selenium.*;import org.openqa.selenium.chrome.ChromeDriver;import org.openqa.selenium.chrom...
2019-02-15 14:25:59
60019
原创 csdn 访问刷榜
原理: 通过访问文章的次数,提高访问次数,从而提高积分和排名环境: ubuntu 18.04, scrapy 框架目的: 纯属好奇1. 创建爬虫:csdnblog_spider.py# coding: utf8import scrapyclass CsdnblogSpider(scrapy.Spider): name = 'csdn' def start_r...
2019-01-31 09:16:26
81018
1
原创 数的深度广度优先遍历
import java.util.Queue;import java.util.concurrent.LinkedBlockingQueue;class TreeNode{ int item; TreeNode left; TreeNode right;}public class test1 { public static void walkDeep...
2018-12-10 15:57:15
80841
原创 寻找第i 小的数
思想借鉴快排, 但是时间复杂度是快排的一半public class test1 { public static int serarch(int[] array, int low, int high, int findIndex){ int lowHis = low; int highHis = high; if(low >= ...
2018-12-10 14:31:38
81439
原创 BST 二叉搜素树, 排序算法一种
1. 二叉2. 根大约整个左字数, 小于整个右子数class Node{ int num; Node left; Node right;}public class BST { public static void bstSort(Node node, int item){ if(node.num < item){ ...
2018-12-07 17:46:11
80636
原创 求解最长公共子序列:动态规划, 子问题分解
求解最长公共子序列:动态规划, 子问题分解 public String LCS(String str1, String str2){ if(str1.length() == 0 || str2.length() == 0) return ""; if(str1.charAt(str1.length() -1) == str2.charAt(str2.le...
2018-12-06 17:48:14
81058
原创 trie 字典树构造
import org.junit.Test;import java.util.ArrayList;public class MyTest { // 单词 class Word{ char lastChar; // 单词最后一个字符 int wordCount = 0; // 词频 } // 字典树 class Tre...
2018-12-04 17:54:57
81419
原创 基本的排序算法
1. 冒泡排序 public static int[] SmallBubbleSort(int[] array){ for(int i = 1; i < array.length; i++){ for(int index = array.length - 1; index >= i; index --){ i...
2018-11-20 14:32:35
80108
原创 Flume 安装, 测试
1. 安装选择适合自己的版本:[下载](https://flume.apache.org/download.html)2. 解压gunzip flume-ng-1.6.0-cdh5.5.1.tar.gz3. 测试 3.1 mkdir test 3.2 cd test && mkdir logs 3.3 touch flume-conf.propertiestest.
2016-10-26 17:59:35
78802
原创 spark 源码分析
spark 整体架构 spark 四块最重要的:sparkSqlspark流处理机器学习图计算spark 2.0 源码结构 spark最核心的代码:https://github.com/apache/spark分析源码的方法从bin 文件夹开始,我们同常会打开一个spark-shell, 提交任务spark-sbumit, 加入我们执行spark-submit, 那么打开
2016-09-29 15:07:23
78109
原创 hive streaming
1. hive 的streaming 包括: map(), reduce(), transform(), 常用的为transform2. 恒等变换select transform(name, salary) using "/bin/cat" as new_name, new_salary from employees where country = 'CHINA';
2016-05-10 20:40:46
75610
原创 Hive 调优
1. 使用 explain 查看执行计划explain extended select count(distinct(name)) from employees;2. 调整limit 相关参数一条查询语句如果有limit 限制, 他也会扫描整个表3. 严格模式修改hive-site.xml hive.mapred.mode
2016-05-10 11:03:54
75040
原创 Hive 分区
1. 建立多个表,每个表导入不同的数据create table test_1 (id int);create table test_2 (id int);create table test_3 (id int);............2. 创建分区表create table test(id int) partitioned by (name sting);
2016-05-10 08:28:41
76046
原创 HiveQL 查询
1. 创建表CREATE TABLE employees (name STRING,salary FLOAT,subordinates ARRAY,deductions MAP,address STRUCT)PARTITIONED BY (country STRING, state STRING)ROW FORMAT DELIMITEDFIELDS TE
2016-05-10 08:28:10
75983
原创 hive 基本操作
一. 简单的表操作1. 创建一个表 create table test(id int);2. 从本地导入数据 LOAD DATA LOCAL INPATH '/opt/hive/current/testdata/a.txt' INTO TABLE test; 其中a.txt 内容为: 1 2 3 43. 测试数据是否导入
2016-05-06 17:11:31
76992
原创 Hive 安装
1.先决条件 要先安装hadoop, 官网下载hadoop-2.7.2.tar.gz2.安装hive1)下载hive apache-hive-2.0.0-bin.tar.gz2)解压 tar -zxzf apache-hive-2.0.0-bin.tar.gz3)修改/etc/profile文件,添加如下: export HIVE_HOM
2016-05-06 09:54:04
77726
原创 vim 常用命令
1. 编辑模式 :I 光标移动到当前行首进行编辑 :i 在当前位置进行编辑2. 保存相关操作 :w 将缓冲区写入文件,即保存修改 :wq 保存修改并退出 :x 保存修改并退出 :q 退出,如果对缓冲区进行过修改,则会提示 :q! 强制退出,放弃修改3. 批量操作 1
2016-02-24 14:17:52
77934
原创 创建自己的gem
1. 创建下面的目录结构 myfirst_gem/├── lib│ └── myfirst_gem.rb└── myfirst_gem.gemspec2. 修改myfirst_gem.rb class MyfirstGem def self.hello_world puts "Hello world!" end
2016-02-24 11:00:14
78529
原创 scala------类型参数
1. 泛型类 class Test1[T](val p1: T){ def t1():Unit = { println("there is " + p1) }}object Test { def main(args: Array[String]): Unit = { val t1 = new Test1("haha")
2016-02-22 17:16:43
79031
原创 scala------match
1. 普通match object Test { def main(args: Array[String]): Unit = { val a = "c" a match { case "a" => println("a") case "c" => println("c") case _
2016-02-22 11:22:10
79090
原创 scala------集合
1. 集合 序列(seq):有先后次序的序列 val l = List(1, 2, 3) 集合(set):没有先后顺序的序列 val s = Set(1, 2, 3) 映射(map):键值对数据 var
2016-02-22 11:21:46
79732
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人