- 博客(40)
- 资源 (1)
- 收藏
- 关注
原创 ES中的_refresh
当我们把一条数据写入到Elasticsearch中后,它并不能马上被用于搜索。新增的索引必须写入到Segment后才能被搜索到,因此我们把数据写入到内存缓冲区之后并不能被搜索到。_flush 不会影响 Elasticsearch 中文档的可见性,因为搜索是在内存段中进行的,而不是 _refresh 会影响其可见性。refresh默认在 refresh_interval中设置,默认为1s刷新一次。当大量数据插入时,建议手动刷新,也节省性能,减少等待时间。_refresh 用于使新文档可见以进行搜索。
2023-10-31 15:56:09
430
原创 LVM逻辑卷管理器
linux笔记:硬盘设备资源管理技术了—逻辑卷管理器(Logical Volume Manager,LVM)。LVM允许用户对硬盘资源进行动态调整。主要作用:动态调整磁盘分区
2022-03-25 14:02:00
1493
原创 分布式爬虫nutch学习路线2022
适用nutch2.x,也应该适用1.x官网下载nutch2.x源代码使用ant编译编译后生成文件夹:nutch/runtime/deploy/bin/文件夹下有两个启动脚本crawl和nutchcrawl为nutch封装脚本,执行整个流程.分为6个阶段inject–》generate–》fetch–》parse–》update–》index其中generate到update为循环过程对应5中的流程去nutch脚本中找调用的主类,看懂。结束...
2022-03-21 19:45:22
336
原创 linux中的bug合集
解决错误File “/usr/bin/yum”, line 30 except KeyboardInterrupt, e:yum采用python作为命令解释器之前修改高版本为默认解释器在#!/usr/bin/python2.7 加上版本即可通过tab键补全pyt
2021-12-01 10:52:19
2928
原创 vim命令
:%s/a1/a2/ 替换每一行的第一个a1 为 a2:%s/a1/a2/g 替换每一行中所有 a1 为 a2%代表每一行GG:调到最后一行
2021-10-28 15:10:31
98
原创 Java爬虫笔记
HttpClient文章目录HttpClientRequestConfig的配置一、时间设置自动重定向的设置参考资料RequestConfig的配置一、时间设置RequestConfig config = RequestConfig.custom() .setConnectTimeout(1000) .setConnectionRequestTimeout(1000) .setSocketTimeou
2021-10-28 11:40:30
186
原创 NoRouteToHost
IOException当网络上的一台机器不知道如何将 TCP 数据包发送到指定的机器时,您会收到 TCP No Route To Host 错误 - 通常包含在 Java 中。我的问题是:本地ip修改后,未重启集群导致的。JVM中还缓存这原来的host映射关系其他原因:配置文件中远程机器的主机名错误客户端的主机表/etc/hosts具有目标主机的无效 IP 地址。DNS 服务器的主机表具有目标主机的无效 IP 地址。客户端的路由表(在 Linux 中为 iptables)是错误的。DHCP
2021-10-22 16:38:36
1185
原创 Spark HistoryServer Web UI 上的时间显示错误
在使用 spark 历史服务器时,开始和结束时间会与实际时间不同。其他地方显示都正常。原因:历史服务器获取的是标准时间GMT.北京时间位于东八区,会相差8小时。个人理解:时区的获取由硬件操作,只能获取到GMT,改成北京时间需要修改对应的偏移量(重新编译源代码)解决如下:https://github.com/apache/spark/pull/16485/files个人建议:凑合用吧。只要记住时差就好了。参考:spark官方补丁Spark History Server Web UI 上的时间显
2021-10-21 18:25:30
401
原创 Linux改变文件的属主和属组
chownchown a1:a2 filename 修改filename的所属用户及用户组chown a1 filename 修改所属用户chown :a2 filename 修改所属用户组chown -R a1 folder 修改整个文件夹的所属用户说明:chown只有root用户能使用a1为属主a2为属组-R:处理指定目录以及其子目录下的所有文件chgrp不限于root,命令用于变更文件或目录的所属群组。chgrp a2 filenamechgrp -R a2 f
2021-10-20 14:42:11
4312
原创 Hbase查询最新插入的数据
确定hbase表中最后更改的数据是哪一条。可以根据时间戳进行查询Hbase shell命令如下scan 'abc', { COLUMN => 'a:b', TIMERANGE => [1634101200000, 1634223600000]}"将最近的时间转化为时间戳。即可查询到指定时间范围修改对应列的rowkey...
2021-10-18 16:57:21
2772
原创 关于MapReduce中reduce百分比的问题
今天遇到一个问题:MapReduce执行任务的百分比回退,需要查看日志分析。那如何判断是那个阶段出现问题了呢?在reduce阶段大概分为3个阶段shuffle(进度:0~33%)准备数据,获取Map阶段已经计算完的数据。会在map执行完一部分,开始拉取数据。sort(进度:33%~66%)Reduce对拉取的数据进行排序reduce(进度:66%~100%)真正的reduce计算阶段,执行你所写的reduce代码,如果卡在这个阶段,就是reduce的代码发生问题了,否则才是数据量
2021-10-14 14:53:22
1050
原创 一致性Hash算法
一致性哈希算法(DHT)应用目前主要应用于分布式缓存当中。可以有效地解决分布式存储结构下动态增加和删除节点所带来的问题。原理客户端和服务器ip或id经过hash计算后都会落在一个hash环上,客户端请求会被分发到顺时针离他最近的服务器上当节点过少时,易照成数据倾斜。这是可以添加虚拟节点来均匀分布对比普通Hash算法,采用取模的形式,当节点数变化时。需要重新计算所有的hash值而一致性哈希只影响变化节点附近的部分值 有时间画画图!!!参考资料什么是一致性哈希?普通Hash与一致性H
2021-09-10 15:14:17
106
原创 Nutch大事件表
Nutch项目由Dong Cutting发起。现在专注于网络爬虫功能nutch1.5版本后 诞生了nutch2.0版本两个分支同时发展,主要是存储方式不同,1.x存储数据在HDFS上,2.x使用Gora映射,存在各种数据库中1.x版本2005年6月 Nutch成为Lucene的一个子项目 8月 Nutch0.7发布2006年7月 Nutch 0.8 发布,基于 hadoop 架构的 Nutch 版本(诞生了Hadoop)2009年3月 Apache Nutch 1.0 发布 需要 Ja
2021-09-08 20:55:30
175
原创 网络协议常用端口
Internet服务中文端口号传输协议DNS域名系统53UDPTelnet远程登陆23TCPSMTP简单邮件传送协议25TCPPOP3邮件接收110TCPhttp超文本传输协议80TCPhttpshttp+ssl443TCPFTP文本传输协议控制连接 21 数据连接20TCPDHCP动态主机配置协议67/68UDPSNMP简单网络管理协议UDP...
2021-08-07 15:32:36
199
原创 Requests Per Second
HBase UI中Requests Per Second:当前region server中每秒接收到的rpc请求数参考文章:Hbase源码分析:Hbase UI中Requests Per Second的具体含义
2021-07-21 14:33:23
393
原创 搜索引擎的发展变化
人工分类目录以雅虎为代表的,依靠人工编辑导航目录的方式来给用户提供服务的网站,类似于现在的hao123导航网站。文本分析时代利用爬虫主动去抓取互联网上的网站网页,使用信息检索模型来进行文本检索,从人工到自动化链接分析阶段在文本检索的基础上,对网页间的链接进行分析。计算网页的重要性!典型代表就是Google所提出的PageRank链接分析技术,通过链接分析对网页重要性进行筛选,再结合文本检索阶段中的相关性,使得搜索质量有了质的飞跃。例如:google,百度...
2021-07-15 20:42:50
236
转载 Java正则表达式过滤出字母、数字和中文
Java中过滤出字母、数字和中文的正则表达式过滤出字母的正则表达式[^(A-Za-z)]过滤出 数字 的正则表达式[^(0-9)]过滤出 中文 的正则表达式[^(\\u4e00-\\u9fa5)]过滤出字母、数字和中文的正则表达式[^(a-zA-Z0-9\\u4e00-\\u9fa5)]实例源码package com.you.dao; /** * @类名:FilterStr * @描述:正则表达式过滤数字、字母和中文 * @Author:游海东 * @date: 2014
2021-07-14 19:46:07
4887
1
原创 关闭防火墙解决Bad connect ack with firstBadLink错误
报错代码如下:21/07/14 14:02:01 INFO hdfs.DFSClient: Exception in createBlockOutputStreamjava.io.IOException: Bad connect ack with firstBadLink as 192.168.0.62:50010 at org.apache.hadoop.hdfs.DFSOutputStream$DataStreamer.createBlockOutputStream(DFSOutpu
2021-07-14 15:05:28
664
原创 浅析字符编码的范围及之间的关系
由于要解决文档中的乱码,就查找了乱码产生的原因。乱码是因为解码方式和编码方式不一致导致的!!!如用UTF-8编码“中文”这个词,用ASCll来解码,会输出??,用GBK中就会输出乱码(看不懂的符号)。在此总结下字符的编码格式:ASCII 码ASCII 码规定了英语字符与二进制位之间的关系,使用一个字节(byte)进行存储。一个字节包含8个二进制位bit(00000000-11111111),可以存储256种状态。ASCII中一共规定了128个字符的编码,第一位统一为0。比如空格SPACE是3
2021-07-06 18:46:31
358
转载 Solr配置中文分词器IK Analyzer详解
参考大神的帖子,配置成功,顺便记录下IK Analyzer的配置过程!配置非常的简单,但是首先主要你的Solr版本是哪个,如果是3.x版本的用IKAnalyzer2012_u6.zip如果是4.x版本的用IK Analyzer 2012FF_hf1.zip,一定要对应上,要不然会配置失败。以下是详细步骤:1、下载IK Analyzer。下载地址为:http://code.google.com/p/ik-analyzer/downloads/list但是由于本国国情,需要翻墙才能下载,可以到以下页面下
2021-06-24 19:38:58
221
原创 Solr笔记
Solr版本的重大变化4.x的安装方式,会分发成一个war包部署在任何Servlet容器上,通常与tomcat配合使用5.x有个最大的改变。现在的Solr是一个(Standalone)独立的服务器从solr5.0开始,Solr不再分发成一个war包以部署在任何Servlet容器上。现在的Solr作为一个单独的Java应用服务器分发,包括在Unix或者Windows平台上使用的启动和停止脚本,以及一个安装脚本来设置生产环境下的Solr安装在之前的Solr版本中(Solr5之前),在创建core的时候,
2021-06-23 16:13:55
66
原创 nutch2.3.1+solr4.x创建搜索引擎心得01
少走弯路在CDH下安装的solr,要使用solrctl创建Core 生成位置:/var/lib/solr个人用户没有root权限,不能在公有目录下创建文件夹。该问题出现在创建Core的过程中复制nutch/conf/schema 到Core的conf目录下nutch2.3.1和solr不是覆盖schema.xml就能使用,和1.x版本不同,需要在nutch-site中添加indexer-solr插件!完成1,3,4。执行crawl seed crawlID solrCore 1 命令,直接将
2021-06-22 17:44:06
104
原创 notepad调整字体大小
notepad++怎么放大缩小字体?notepad++编程开发的时候,看代码很费劲,该怎么修改代码字体的大小呢?方法1:打开notepad++软件。在工具栏中就有放大字体和缩小字体的按钮(放大镜上一个加号),点击一次字体放大或缩小一个像素方法2:notepad++也支持键盘组合件来放大/缩小字体,其中放大的组合件事ctrl+鼠标滑轮上滚,缩小就是ctrl+鼠标滑轮下滚。这样看普通文本就很方便了...
2021-05-21 14:10:45
2253
原创 Java @Deprecated注解功能
由于对项目类进行优化,很多方法已经不使用了,但直接删除也不好,万一之后会再使用呢。所以使用了@Deprecated这个注解说明:@Deprecated 表示此方法已废弃、暂时可用,但以后此类或方法都不会再更新、后期可能会删除,建议不要调用此方法。用法:此注解可用于类上、方法上、属性上。通常在给定此注解后,应该在方法注释中同样说明:废弃此方法后的代替方法是哪个、处理原逻辑代替方案是什么 、本身不打算代替,而是直接清除的,则最好给出会清除此方法的具体代码版本号 。总结:因为在一个项目中,工程比较大
2021-05-20 17:20:59
241
原创 总结遇到的shell命令:$篇
总结遇到的shell命令:$篇echo ‘$?’ 查询上一条命令的执行结果,打印0为成功执行,打印其他为失败有关$的拓展:变量名含义$0shell或shell脚本的名字$*以一对双引号给出参数列表$@将各个参数分别加双引号返回$#参数的个数$_代表上一个命令的最后一个参数$$代表所在命令的PID$!代表最后执行的后台命令的PID$?代表上一个命令执行后的退出状态...
2021-05-14 16:59:38
171
原创 解决java.lang.NoClassDefFoundError错误的一种方案
NoClassDefFoundError错误发生的原因NoClassDefFoundError错误的发生,是因为Java虚拟机在编译时能找到合适的类,而在运行时不能找到合适的类导致的错误。例如在运行时我们想调用某个类的方法或者访问这个类的静态成员的时候,发现这个类不可用,此时Java虚拟机就会抛出NoClassDefFoundError错误。与ClassNotFoundException的不同在于,这个错误发生只在运行时需要加载对应的类不成功,而不是编译时发生。很多Java开发者很容易在这里把这两个错误搞
2021-04-30 16:15:23
5951
1
原创 java中split函数中的特殊字符
这里写自定义目录标题欢迎使用Markdown编辑器新的改变功能快捷键合理的创建标题,有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能,丰富你的文章UML 图表FLowchart流程图导出与导入导出导入欢迎使用Markdown编辑器你好! 这是你第一次使用 Markdown编辑器 所展示的欢迎页。如果你想学习如何使用Mar
2021-04-30 15:56:41
1313
1
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人