- 博客(25)
- 资源 (10)
- 收藏
- 关注
原创 多线程批量写入ES工具
业务背景: 读取本地大文件,或者读取ES的文件 进行业务处理 将结果存入ESBlukUtil工具import com.zrt.govername.waimai.BlukTask;import org.apache.log4j.Logger;import java.util.ArrayList;import java.util.List;import java.util.Map;import java.util.concurrent.*;/** * @Classname B..
2020-05-08 18:06:16
2415
2
翻译 使用java.io.File的renameTo方法移动文件失败的问题
今天在服务器上使用file.renameTo的时候一直报错https://my.oschina.net/u/2424727/blog/1933126 后来根据这个文章 查了下 确实文件系统类型不同:解决方法:使用apache的commons-io包中的工具类的进行文件移动。1.测试代码:import org.apache.commons.io.FileUtils...
2020-01-09 15:34:39
3510
3
原创 多线程查询ES返回结果
背景:现在人脸流水库有大概8W人脸数据需要提供给WEB组一个人脸检索接口(根据检索条件从ES中检索出相关数据 然后和传过来的人脸图片进行特征比对 筛选符合条件的数据 ):方案:根据上传的图片,已经相关查询条件:String place_id = json.getString("site_code");float start_time = json.getFloatValue("sta...
2019-11-26 09:57:17
2086
原创 读取consle的 工具类
package com.zrt.common;import com.ecwid.consul.v1.ConsulClient;import com.ecwid.consul.v1.Response;import com.ecwid.consul.v1.kv.model.GetValue;import java.io.Serializable;import java.util.Has...
2019-09-11 14:48:58
238
原创 Consul安装手册
Consul安装手册目录Consul安装手册.... 1一:安装准备.... 1二:配置consul 1三:配置导入导出.... 1一:安装准备1.consul最新版的下载地址https://releases.hashicorp.com/consul/1.5.2/consul_1.5...
2019-07-11 11:18:04
358
原创 关于静态方法和非静态方法 类锁和对象锁
划重点static方法是类中的一个成员方法,属于整个类,即使不用创建任何对象也可以直接调用!静态方法效率上要比实例化高,静态方法的缺点是不自动进行销毁,而实例化的则可以做销毁。静态方法和静态变量创建后始终使用同一块内存,而使用实例的方式会创建多个内存。在静态方法或者方法块上加的锁为 类锁 (锁类)非静态方法为 对象锁(锁对象)详细如下类锁 (锁类)...
2019-05-30 16:59:12
1315
原创 通过输入流获取APK签名
背景:因为HDFS小文件太多了 导致HDFS集群压力很大 所以项目由原来的存储文件方式改成了 把文件流以二进制的方式存入一个个大的文件块 通过文件 位置信息和偏移量信息来标记文件网上很多通过APK路径 来获取APK的签名和权限列表的 但是直接对接流的基本没有 而且封装的方法 也没有好的可以接入流的接口通过输入流获取APK签名:思路:截取HDFS中APK输入流再截取A...
2019-04-28 10:14:40
186
原创 通过输入流获取APK权限列表
背景:因为HDFS小文件太多了 导致HDFS集群压力很大 所以项目由原来的存储文件方式改成了 把文件流以二进制的方式存入一个个大的文件块 通过文件 位置信息和偏移量信息来标记文件网上很多通过APK路径 来获取APK的签名和权限列表的 但是直接对接流的基本没有 而且封装的方法 也没有好的可以接入流的接口通过输入流获取APK权限列表:思路:APK权限列表存在于APK的 Andro...
2019-04-28 10:06:47
449
原创 ArrayList的last方法
最近在开发的时候看到一个问题 如下:val recordList2 =new util.ArrayList[util.HashMap[String,String]]val recordList=new util.ArrayList[Long]() recordList.add(12L) for(i <-0 until 11){ recordList.add(i.toL...
2019-04-11 14:55:26
919
翻译 rdd的特性
rdd:Resilient Distributed Dataset 弹性式分布数据集特点如下:1. A list of parttitions 一系列的分片:比如64M一片 类似hadoop中的split2.A function for computing each split 每个分片上都有一个函数去迭代/执行/计算它3.A list of dependencies ...
2019-02-27 17:48:49
216
原创 对数组里面的字符串按照长度排序,长度相同按照字典表顺序排序
最近碰到需要对字符串数组中的数据进行长度排序,长度相同按照字典顺序排序记录一下val re_list=Array("Runoob", "Baidu", "Google").toListval result_list=re_list.sortWith((s,t)=>compareStrlen(s,t)) def compareStrlen(str1:String,str2...
2019-01-16 15:00:25
2172
原创 pythonl list去子集
碰到了需要去掉list中子集的需求 记录一下思路如下cur_list=["ab","abc","abe","abcde"]#需要先去重out_list=list()for cur_str1 in cur_list: contian_flag=0 for cur_str2 in cur_list: if(cur_str1 in cur_str2): ...
2019-01-02 18:03:36
2389
翻译 hive数据类型
通常在使用hive的时候更多的使用的是字符类型hive 数据类型1.基本数据类型 类型 列子 tinyint 20 smallint 20 int 20bigint 20bo...
2018-12-21 11:42:33
140
翻译 hive优化实例
1.提前过滤数据,减少中间数据依赖比如 select ... from A join B on A.key=B.key where A.userid >10 and B.userid < 10 and A.dt='20120417' and B.dt='20120417'改成select ... from ( select ... from A where ...
2018-12-20 11:45:20
235
原创 针对采购品类的用户相似性分析
数据描述: 取三级品类采购数据的top的 品类品类 被采购次数办公文具 36677纸类 21236纸品/湿巾 20646文件管理 15909本册便签 13781充电器/数据线 10240打印复印耗材 9803食用油 8368米面杂粮 8143以这些品类为基础筛选了采购过这10个品类里面3个以上的用户采购品类数...
2018-11-02 17:31:25
270
翻译 python抽样总结
import randomimport numpy as np#简单随机抽样data=np.loadtxt("E:/data/book/python_book/chapter3/data3.txt")# print(type(data))data_sample=random.sample(list(data),2000)#随机抽取2000个样本# print(data_sample[...
2018-11-01 15:17:54
2426
翻译 python数据分层抽样工具类
import pandas as pdimport random as rdimport numpy as npimport math as madef typeicalSampling(group, typeicalFracDict): name = group.name frac = typeicalFracDict[name] return group...
2018-11-01 10:37:46
2718
原创 订单,用户,商品关联分析记录
最近有做采购平台 订单,用户,商品关联分析 的任务目的在于希望能产出 商品推荐商品或者 商品 推荐给用户 的数据主要采用python的apriori 进行关联分析样例代码如下 大概如下:from apyori import aprioriimport pandas as pddef ResultDFToSave(rules): # 根据Qrange3关联分析生...
2018-10-31 14:13:51
3919
转载 使用Python进行数据关联分析
https://blog.youkuaiyun.com/qq_19528953/article/details/79412245
2018-10-18 17:25:25
2407
翻译 jieba分词中的特殊字符处理
最近在做jieba分词的时候出现一个有意思的问题 往词库里面加了TD-523 这个词然后拆分的时候 拆成了TD 523 怀疑是-影响的 然后在词库中修改为TD523 正确分出来TD523 但是如果非要拆分出来TD-523 呢参考下面这篇文章https://blog.youkuaiyun.com/wangpei1949/article/details/57...
2018-10-16 16:35:37
6956
1
翻译 matplotlib.pyplot绘制kmeans的聚合程度,以及轮廓系数
Kmeans2Pmml.py# -*- coding:utf-8 -*-import pandasfrom sklearn.model_selection import train_test_splitimport numpy as np # 导入numpy库import matplotlib.pyplot as plt # 导入matplotlib库from sklearn...
2018-10-15 14:15:46
3444
翻译 运营数据缺失值处理样例
import pandas as pdimport numpy as npfrom sklearn.preprocessing import Imputerdf=pd.DataFrame(np.random.rand(6,4),columns=["col1","col2","col3","col4"])df.iloc[1:2,1]=np.nandf.iloc[4,3]=np.nan...
2018-10-08 17:35:27
233
转载 数据化运营常见的数据预处理经验
数据清洗中,主要的处理是缺失值,异常值和重复值,所谓清洗,就是对数据集进行丢弃,填充,替换,去重等操作,实现去除异常,纠正错误,补足缺失的目的。 数据列缺失, 1.行记录缺失,数据丢失(通常无法找回) 2.数据列值缺失---------------------------------------------------- 这里主要说...
2018-10-08 10:48:58
297
翻译 python数据分析 常用方法总结(持续更新)
raw_data=pd.read_table("E:/data/book/python_book/chapter6/products_sales.txt",delimiter=",")1.查看数据样例,raw_data.tail(2)) 或者 head2.查看数据概况 print(raw_data.describe().round(1).T) T 应该是转换行列的方法count...
2018-09-30 10:29:05
1101
翻译 matplotlib.pyplot绘制决策树的准确率,召回率,ROC,特征重要性
因为训练模型需要返回模型评价指标,但是召回率和ROC 不能很好的展示返回,所以决定把相关评价指标绘制成图片DecisionTree2Pmml.pyimport sysimport oscurPath = os.path.abspath(os.path.dirname(__file__))rootPath = os.path.split(curPath)[0]sys.path.a...
2018-09-26 17:40:36
6743
searchface.rar
2019-11-25
CentOS7.4+HDP+Ambari+consul+Elasticsearch安装部署文档.rar
2019-07-12
ajaxSubmit局部刷新
2018-09-19
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人