KingBoxing-优快云博客

转载 Solr - 主/从同步

Solr 1.4 以后，可以使用基于 http 的同步方式。之前基于 ssh/rsync 的同步方式已经停止维护。还有一种基于 SolrCloud 的方式：https://cwiki.apache.org/confluence/display/solr/SolrCloud 这里只介绍 ReplicationHandler 基于 http 的方式。官方文档: http://wiki.apa

2016-06-28 19:59:08 1096

转载软负载与nginx强大功能

当我们打开手机访问点评客户端的时候，访问商户的请求是如何到达对应某台应用服务器的？当有很多XX宽带的用户投诉说我大点评某某域名无法打开但是我们却找不出任何问题的时候，我们就想到会不会是宽带运营商的问题。今天与大家分享的话题，主要是跟我们的软负载集群和Nginx这个强大的开源应用有关系。当我们准备上线一个新的业务，或者新的功能时候，除了把代码发布的线上生产环境的应用服务器外，

2016-03-29 17:28:56 891

原创前端请求m3u8

@RequestMapping("/school.m3u8")//这里要写标准的m3u8格式，否则有些播放器会不支持播放 public void m3u8( HttpServletRequest request, HttpServletResponse response, final Model model) throw

2016-03-25 09:30:56 4839

转载 SOLR对多个（关联）表创建索引

一、无关联多表创建索引1.1数据库准备　　首先在数据库创建一张表，本来有一个tuser表了，我又创建了一个role表，就两三个字段，没什么特殊的，然后在里面随便添加几条数据即可，看一下数据库：1.2data-config.xml　　数据库创建完成之后就是修改data-config.xml文件了，因为数据库跟solr之间的关联主要就是建立在这个文件上面的，所以接下来就

2016-02-19 20:31:41 3715

转载 Solr Multivalue field的索引和搜索

Solr里头可以设计Field为Multivalue类型，这样的一个好处是可以很方便的设置copyField，在我们的项目中也有使用。但是一直以来都有一个问题困扰着我，就是对multivalue里头多个值域的搜索问题。多个value之间我认为应该是保持相互独立的，但是在实际搜索中感觉solr把所有的值域都串在一起，当作一个长value来处理，没有达到我想要的效果。后来通过搜索，我发现sol

2015-09-17 11:29:14 2830

转载 [ lucene扩展 ] spellChecker原理分析

spellChecker是用来对用户输入的“检索内容”进行校正，例如百度上搜索“麻辣将”，他的提示如下图所示：我们首先借用lucene简单实现该功能。本文内容如下（简单实现、原理简介、现有问题） lucene中spellchecker简述lucene 的扩展包中包含了spellchecker，利用它我们可以方便的实现拼写检查的功能，但

2015-09-17 11:04:14 1676

转载 Solr 使用自定义 Query Parser

版权信息: 可以任意转载, 转载时请务必以超链接形式标明文章原文出处, 即下面的声明.原文出处：http://blog.chenlb.com/2010/08/solr-use-custom-query-parser.html由于 Solr 默认的 Query Parser 生成的 Query 一般是 “短语查询”，导致只有很精确的结果才被搜索出来。大部分时候我们要分词后

2015-09-17 01:11:40 2551

转载 solr 使用自定义的 QueryParser

版权信息: 可以任意转载, 转载时请务必以超链接形式标明文章原文出处, 即下面的声明.原文出处：http://blog.chenlb.com/2009/02/use-custom-solr-queryparser.html如果想让 solr 有更加强大的功能或在查询时做一些特别的处理。可以在 solrconfig.xml 里注册自定义的 QueryParser（查询解析

2015-09-17 01:10:28 1714

原创 solr HMMChineseTokenizer 中文解词

solr自带的中文解词HMMChineseTokenizer的效果还不错，在schema.xml里面的配置如下 words="/data/local/solr-5.2.1/server/solr/solr_analyzer_task/dic/stopwords.txt"/>

2015-09-16 17:04:41 3312

转载 Solr4.2.1 拼写检查组件

在做搜索时一般可以在用户输入检索条件时使用suggest，而在点击完搜索时，使用拼写检查，二者结合给可以用户带来比较好的用户体验！ suggest与spellcheck看似功能一样，出发点是不一样的，使用条件也不一样，spellcheck是在没有搜索出结果时才有的功能，搜索词正确是没能spellcheck结果的，而suggest是任何情况下都有结果的。Solr4.0以后又新增了一个拼写

2015-09-10 21:24:15 587

转载 spring中集成作业调度

本文地址：http://blog.youkuaiyun.com/kongxx/article/details/6860732前面写了几个文章是关于spring中集成作业调度功能的东西，可以参考Spring任务调度实战之TimerSpring任务调度实战之Quartz Simple TriggerSpring任务调度实战之Quartz Cron Trigger

2015-08-18 19:11:46 649

转载 Solr配置停止词/排除词 stopwords（mmseg版）

停止词是无功能意义的词，比如is 、a 、are 、”的”，“得”，“我” 等，这些词会在句子中多次出现却无意义，所以在分词的时候需要把这些词过滤掉。测试于：Solr 4.5.1, mmseg4j 1.9.1, Jdk 1.6.0_45, Tomcat 6.0.37 | CentOS 5.7我这里拿名为test的core做例子。准备停止词在solr home下建dic目录，

2015-08-17 15:35:56 4208

转载 Solr查询时设置字段的boost值，改变默认打分排序

实现方法有3个：在建索引的时候设置boost，这个值会写入文件，建索引时有额外的性能开销；在查询的时候指定boost，这个值不会写入文件，查询时指定任意字段的boost值，适用与一个索引库的多种查询场景，但查询时有额外性能开销；（推想）前两者结合使用，如绝大多数都需要标题优先，那么建索引时可指定标题boost为2，其他场景可在查询时指定标题boost为0.5，中和建索引时的设置。这

2015-08-17 14:42:39 2888

转载 Solr的一些查询参数

fl: 是逗号分隔的列表，用来指定文档结果中应返回的 Field 集。默认为 “*”，指所有的字段。defType: 指定query parser，常用defType=lucene, defType=dismax, defType=edismaxq: query。q.alt: 当q字段为空时，用于设置缺省的query，通常设置q.alt为*:*。qf: query

2015-08-14 22:19:46 690

原创 solr增量更新的字段

在配置增量更新时MySQL表里要有一个字段，update_time能让solr找到那些行是新增的，在配置文件里的SQL要加上条件where update_time > '${dih.last_index_time}'"update_time字段要是date类型，但是我们在设计表的时间该字段是long的时间戳。所以当我在进行增量更新时，被更新的总是全量。所以要把long类型转换成date类型才能

2015-07-31 14:40:47 2900 1

转载 solr5解决时区差8小时的问题

在oschina上的第一篇文章，记录一个在工作中遇到的问题问题很简单，也算是开博了在solr5中解决时区的问题，更加简单了，直接修改配置文件bin/solr.in.sh即可。如下： #SOLR_TIMEZONE="UTC" 将此参数修改为如下： SOLR_TIMEZONE="UTC+8"

2015-07-31 10:22:20 6351

转载 solr配置自动增量更新

关于solr如何导入数据请参见：http://blog.youkuaiyun.com/xintongfei/article/details/19046575自动增量更新可定时将数据库中的数据导入到solr索引库中，并可定时重建索引库，合并小索引文件为大的索引文件。下面介绍如何配置solr自动更新。需要准备的jar包solr自带： apache-solr-data

2015-07-28 21:01:29 5724 1

转载 Schema.xml和solrconfig.xml属性分析

现在我们开始研究载入的数据部分（importing data）在正式开始前，我们先介绍一个存储了大量音乐媒体的网站http://musicbrainz.org ，这里的数据都是免费的，一个大型开放社区提供。MusicBrainz每天都提供一个数据快照（snapshot）的SQL文件，这些数据可以被导入PostgreSQL数据库中。一、字段配置（s

2015-07-24 11:04:41 664

转载 Solr查询语法总结-参数说明

1、常用查询参数说明 q - 查询字符串，必须的。 fl - 指定返回那些字段内容，用逗号或空格分隔多个。 start - 返回第一条记录在完整找到结果中的偏移位置，0开始，一般分页用。 rows - 指定返回结果最多有多少条记录，配合start来实现分页。 sort - 排序，格式：sort=+[,+]… 。示例：（inSto

2015-07-23 22:38:16 1747

转载关于solr schema.xml 和solrconfig.xml的解释

一、字段配置（schema） schema.xml位于solr/conf/目录下，类似于数据表配置文件，定义了加入索引的数据的数据类型，主要包括type、fields和其他的一些缺省设置。 1、先来看下type节点，这里面定义FieldType子节点，包括name,class,positionIncrementGap等一些参数。name：就是这个Fi

2015-07-23 16:13:59 673

转载 SOLR---Field、CopyField、DynamicField

上面一节乱七八槽的讲了一下FieldType。其实你可以想的简单一点，FieldType就好像是我们在Java中自定义类型。Field: Field就是一个字段，定义一个Field很简单：[html] view plaincopyfield name="price" type="sfloat" indexe

2015-07-23 15:32:18 825

转载 linux shell 中"2>&1"含义

linux shell 中"2>&1"含义脚本是: nohup /mnt/Nand3/H2000G >/dev/null 2>&1 & 对于& 1 更准确的说应该是文件描述符 1,而1 一般代表的就是STDOUT_FILENO,实际上这个操作就是一个dup2(2)调用.他标准输出到all_result ,然后复制标准输出到文件描述符2(STDERR_FILE

2015-04-15 16:31:57 584

转载如何使用Hadoop的Partitioner

Hadoop里面的MapReduce编程模型，非常灵活，大部分环节我们都可以重写它的API，来灵活定制我们自己的一些特殊需求。今天散仙要说的这个分区函数Partitioner，也是一样如此，下面我们先来看下Partitioner的作用：对map端输出的数据key作一个散列，使数据能够均匀分布在各个reduce上进行后续操作，避免产生热点区。 Hadoop默认使用的分区函数是Hash

2015-04-15 11:00:28 877

原创 spark on yarn日志切割

由于spark on yarn的日志会在stderr里面一直追加，而且streaming又是长应用，那么stderr会一直增长。解决办法就是把stderr按天切割，这样我们就可以删除之前的日志了。1. 首先，把集群中的hadoop的log4j文件/etc/hadoop/conf/log4j.properties添加如下两行：log4j.additivity.com.kingsoft = f

2015-03-26 12:01:17 2032

原创 hiveSQL记录

CREATE EXTERNAL TABLE ks3_nginx_pv(host_ip string,idc string,upstream_ip string,bucket_owner string,`bucket` string,time bigint,time_id int,remote_ip st

2015-03-25 19:55:28 1515

原创 start Java程序的脚本

#/bin/sh####################. /etc/profileSCRIPT_NAME=$0home=/data/apps/real_calculation_kssNodeNginx#define some variouslibdir=${home}/liblogdir=${home}/logname=KSSNodeRealTim

2015-03-24 15:13:18 824

转载 spark内核简介

1、Spark介绍Spark是起源于美国加州大学伯克利分校AMPLab的大数据计算平台，在2010年开源，目前是Apache软件基金会的顶级项目。随着Spark在大数据计算领域的暂露头角，越来越多的企业开始关注和使用。2014年11月，Spark在Daytona Gray Sort 100TB Benchmark竞赛中打破了由Hadoop MapReduce保持的排序记录。Spark利用1

2015-03-18 15:27:34 795

原创 CDH5.1.0编译spark-assembly包来支持hive

原生的spark assembly jar是不依赖hive的，如果要使用spark hql必须将hive相关的依赖包打到spark assembly jar中来。打包方法：假设已经装好了maven,1添加环境变量，如果jvm的这些配置太小的话，可能导致在编译过程中出现OOM，因此放大一些：export MAVEN_OPTS="-Xmx2g -XX:MaxPermSize=5

2015-03-16 15:47:07 3367

原创 Linux文件做软链

用flume做数据采集的时候会遇到一种情况，就是业务端打印日志的时候，日志的目录不统一，那么我们在配置flume的配置文件时，就要根据不同的机器做不同的配置，很麻烦。我们用软链可以解决这个问题。hour=`date +%Y-%m-%d.%H`file=kvdbnode_$hour.log.TRACEsudo ln -sf /data/apps/kvdb/log/kvdb/$file

2015-03-16 14:44:04 851

转载 hadoop put内部调用，hdfs写文件流程

HDFS是一个分布式文件系统，在HDFS上写文件的过程与我们平时使用的单机文件系统非常不同，从宏观上来看，在HDFS文件系统上创建并写一个文件，流程如下图（来自《Hadoop：The Definitive Guide》一书）所示：具体过程描述如下：Client调用DistributedFileSystem对象的create方法，创建一个文件输出流（FSDataOutputStr

2015-03-10 15:58:50 5442

原创 sort awk comm命令

今天遇到一个问题，有两个文件，都是hive输出的，字段以table分开，需要两个文件里面的第10个字段，然后找出在第一个文件里的而不再第二个里面的内容。这个问题需要分几个步骤去做：1. 分别取出两个文件的第10个字段重定向到不同的文件中。cat aa.txt |awk '{print $10}' >aa1.txtcat bb.txt |awk '{print $10}'

2015-03-03 14:45:24 755

原创 mapreduce来清洗数据生成RCFile

-libjars=$HIVE_HOME/lib/hive-exec-0.12.0-cdh5.1.0.jar,$HIVE_HOME/lib/mapred.jar \-outputformat com.ksc.dc.maperd.Text2RCFOutputFormat \调用jar时传递上面的参数，结果就是RCFile

2015-02-12 19:34:35 1637

转载 jstat 详解

jstat 1. jstat -gc pid 可以显示gc的信息，查看gc的次数，及时间。其中最后五项，分别是young gc的次数，young gc的时间，full gc的次数，full gc的时间，gc的总时间。 2.jstat -gccapacity pid

2015-02-11 16:22:41 636

原创批量添加hadoop节点，初始化hadoop机器

全部内容如下：authorized_keys -- CDH主节点的keyhosts -- 所有机器的hosts配置init_hadoop.sh -- 分发其他文件到各个节点init_hdp.sh -- 为hadoop用户生成keyinit_root.sh -- 初始化系统变量jdk-7u65-linux-x64.rpm -- Java环境send_hosts.sh -

2015-02-04 11:07:12 883

转载大数据计算平台Spark内核全面解读

1、Spark介绍 Spark是起源于美国加州大学伯克利分校AMPLab的大数据计算平台，在2010年开源，目前是Apache软件基金会的顶级项目。随着 Spark在大数据计算领域的暂露头角，越来越多的企业开始关注和使用。2014年11月，Spark在Daytona Gray Sort 100TB Benchmark竞赛中打破了由Hadoop MapReduce保持的排序记录。S

2015-02-03 11:57:03 1213

转载 Spark Streaming实例分析

转载地址：http://www.aboutyun.com/thread-8901-1-1.html这一章要讲Spark Streaming，讲之前首先回顾下它的用法，具体用法请参照《Spark Streaming编程讲解》。Example代码分析val ssc = new StreamingContext(sparkConf, Seconds(1));

2015-02-02 21:00:03 6016

转载 spark问题记录

问题导读1、当前集群的可用资源不能满足应用程序的需求，怎么解决？2、内存里堆的东西太多了，有什么好办法吗？1、WARN TaskSchedulerImpl: Initial job has not accepted any resources; check your cluster uito ensure that workers are registered

2015-02-01 12:50:54 783

原创查看yarn的container的资源占用情况

yarn上运行程序是由container来执行的，那么当我们想要知道每台节点对应的container的使用情况时，需要从何入手呢？开始我以为yarn的系统命令会有相应的提示，于是yarn --help，没有我想要的信息。那么从另一方面入手吧：Linux系统。1. 首先top观察一下哪个线程比较像我们要找的那个线程，锁定线程ID2. cd /proc/3. ls --里面全都是正

2015-01-27 11:46:08 13594

原创 spark-streaming对系统时间的要求

Linux的系统时间可以很容易的被修改：date -s *******那么就需要保证所有机器的时间一致性。我们的线上机器是所有机器与一台校准器保持一致：/usr/sbin/ntpdate 10.0.1.128那么应用服务器的机器都是校准过的，但是我们的hadoop集群时间比较参差不齐，原因是因为CDH管理集群时需要把集群的ntpd服务全部打开，CDH自己内部有时间校准规则，但是nt

2015-01-26 12:08:26 1307

原创 spark-streaming:Could not compute split, block not found

14/10/07 18:10:27 WARN scheduler.TaskSetManager: Lost task 45.0 in stage 12.0 (TID 129, domU-12-31-39-04-60-07.compute-1.internal): java.lang.Exception: Could not compute split, block input-0-141270

2015-01-26 11:54:17 8056