- 博客(22)
- 问答 (1)
- 收藏
- 关注
原创 大数据量表数据导出至Excel
我的需求是从数据表中导出1亿条数据,要求不能出现内存溢出的问题,同时提高导出效率,因为我导出的表的具体数据库信息是不固定的,因此只能先通过JDBC读出数据,然后再写入。经过测试,通过该方式写入100万条数据的时间大约是14秒左右,同时没有出现内存溢出问题,笔记本上跑的时间大约在17秒左右。以上代码中通过SXSSFWorkbook向Excel的用户表Sheet中写入100万条数据,每行数据是从0-9的纯数字。工作中常遇到把表数据导出至Excel的需求,一般通过Apache 的POI进行导入;
2024-08-26 18:12:37
964
原创 Java反射机制
纸上学来终觉浅,在B站找了一个视频学习反射机制,跟着视频敲了一遍代码,理解反射机制的作用,视频质量很高,就是这个UP更新的有点慢。首先是Main方法,通过代码运行示例,学习反射机制的各种功能,最后是模拟容器读取配置文件,自动进行Bean生成、依赖注入的案例。
2024-03-27 20:29:42
298
1
原创 Elasticsearch搜索关键词自动补全功能实现
要实现检索词补全功能,就是要在输入‘斗鱼直播’的时候,使用该关键词获取以该关键词开头的文本,以下是一个实现的例子。注意 suggest 字段,其类型为 completion;name 字段的 copy_to 属性;
2023-04-26 21:25:02
474
原创 Elasticsearch入门----数据读/写流程
elasticsearch数据写入流程:1、客户端发起数据索引(写入)请求,可以发送至集群中的任一节点,该节点会成为协调节点(coordinating node)。2、通过hash计算出文档要写入的主分片,协调 节点根据路由将请求转发至对应的主分片(primary sharding) 所在的数据节点(data node) 。3、数据节点 节点上的主分片处理请求,写入文档到索引库,并将数据同步到对应的副本分片( replica sharding)。4、等待主分片和 副分片都保存好文档后,返回客
2021-11-24 22:21:22
1337
1
原创 Elasticsearch入门----terms聚合实现搜索热词统计
最近项目中遇到一个需求。统计用户的搜索热词Top5。于是就想到了用elasticsearch来记录用户检索时的关键词及用户信息,然后通过聚合操作实现统计用户搜索热词,返回搜索次数最多的前10个。Elasticsearch版本:7.0.0首先创建存储关键词及用户信息的索引:POST http://localhost:9200/hotwords_test/_mapping{ "properties": { "search_txt": { "type": "keywo
2021-10-18 22:29:07
4244
1
原创 Elasticsearch入门----常用Restful API(持续更新)
前言在上一篇博客(https://blog.youkuaiyun.com/qq_28757391/article/details/105312677?spm=1001.2014.3001.5501)中我们介绍了简单的索引创建、数据插入、查询等API。今天这篇博客用于记录工作中经常使用的Restful API,以后还有新增将持续更新。版本说明:Elasticsearch5.4.0,工作中用的版本比较老了,参考时请考虑高版本是否兼容。常用Restful API1、设置refresh间隔时间(系统默认1S)
2021-03-16 23:10:37
211
原创 Elasticsearch入门----索引库相关操作
在上一篇博客(https://blog.youkuaiyun.com/qq_28757391/article/details/103749623)中,我们介绍了如何安装启动Elasticsearch,接下来我们介绍如何创建索引库以及一些基础知识。概念介绍 首先介绍Elasticsearch的一些基本概念,如下表:概念 说明 索引库(indices) indices是i...
2020-04-04 20:19:38
349
原创 Elasticsearch入门----安装
安装yum install elasticsearch-6.5.0中间的提示,输入 y + Enter 即可从打印的信息可以知道,ES的配置所在路径是:/etc/elasticsearch/,并且我们可以使用命令 systemctl start elasticsearch.service 来启动ES,使用 命令systemctl enable elasticsearch.se...
2020-03-01 16:57:19
220
原创 Python2to3内置工具的使用
Python2to3内置工具的使用前言:由于Python2在2020年1月1日起将停止更新,因此开发人员不得不考虑将代码从Python2移植到Python3。但是由于Python2和Python3的差异(具体可查看Python3与Python2:https://blog.youkuaiyun.com/qq_28757391/article/details/104265683),人工转换代码的工作量是十分巨...
2020-02-27 09:26:15
1452
原创 Python3与Python2
Python2和Python3背景自2020年1月1日起,Python 2将不再得到支持。Python的核心开发人员将不再提供错误修复版或安全更新。因此我们不得不思考:Python2的停止维护会造成哪些影响?是否需要把当前的开发项目从Python2移植到Python3?而我们组内的大数据基础平台项目正是使用Python2.7版本进行开发的,Python2停止维护对该项目会有哪些影响呢...
2020-02-11 16:51:00
263
原创 logging模块的应用
最近项目中有一个采集日志的需求,因此去了解了一下logging模块的使用,虽然网上一查就有很多资料可以参考,但还是在这里总结一下,加深理解。一、logging模块简介logging是python内置的标准模块,主要用于输出运行日志,可以设置输出日志的等级、日志保存路径、日志文件回滚等。它与print相比具有以下优点: 1、可以通过设置不同的日志等级,在程序的调试和正式发布阶段...
2019-05-19 11:47:09
206
原创 Centos7设置开机自启动NTP服务
这里提供两种方法解决问题:方法一:1.通过命令 systemctl enablentpd 设置NTP服务开机自启动。2.重启虚拟机后查看 服务运行状态 systemctl status ntpd ,发现服务并没有成功启动。3.查看chrony是否被设置为开机自启动。通过指令 systemctl is-enabled chrony 查看,发现这个服务已经被设置为开机自启动所以导致N...
2018-10-24 16:32:31
15230
7
原创 Ambari搭建Hadoop集群之配置SSH免密登录
Ambari搭建Hadoop集群时为了实现集群之间的主机进行快速的联机,我们需要对集群的虚拟机进行免密登录配置。下面来说说具体步骤。前提:3台虚拟机。1.修改主机名a)首先root权限下分别对3台虚拟机进行修改。修改的命令如下:sudo hostnamectl set-hostname node1我这里是把3台主机名分别修改为node1、node2、node3。修改完成后可...
2018-09-16 16:10:29
1438
原创 初级算法总结归纳
总结一些工作中用到的方法,后续还会继续总结,补充! /** * 1.冒泡排序 * @author wmj * */ public static int[] BubbleSort(int[] arr) { int temp;//定义一个临时变量 for(int i=0;i<arr.length-1...
2018-08-11 14:09:41
154
转载 Java中HashMap的实现原理
一、Java中的hashCode和equals1、关于hashCodehashCode的存在主要是用于查找的快捷性,如Hashtable,HashMap等,hashCode是用来在散列存储结构中确定对象的存储地址的如果两个对象相同,就是适用于equals(java.lang.Object) 方法,那么这两个对象的hashCode一定要相同如果对象的equals方法被重写,那么对象的hashCode...
2018-06-01 17:49:05
146
原创 MYSQL入门之常见的SQL优化技巧
笔者是一名菜鸟程序员,大学上过MYSQL数据库的选修课程,当时只会一些简单的建表、查询、删除、更新语句。工作后再实际应用当中遇到了数据量大的情况,这就有了对SQL执行效率的考虑了。下面一总结了一下简单的优化技巧。前言:由于SQL效率优化经常提到索引,这里先给大家简单说明一下。大家可以理解为新华字典前几页,用边旁、拼音首字母来分类的那个索引,通过边旁或者拼音首字母,我们可以很快找到我们要查找的字在哪...
2018-05-21 21:38:57
261
空空如也
yum如何管理Python2和Python3的包?
2020-02-13
TA创建的收藏夹 TA关注的收藏夹
TA关注的人