- 博客(62)
- 收藏
- 关注
原创 Prime_DSC_MentionCalcSpark性能调优
Prime_DSC_MentionCalcSpark系统简介 实现功能 : 根据条件(siteId, startTime, endTime, campaignId, folder)从HBase数据源中读取文本数据作为输入,把提交的关键词作为条件,输出在文本中关键词提及的次数 存在问题 : 对于大数据量的计算时间较长. 解决思路 : 把HBase结果反射成Twee...
2016-07-18 11:02:49
222
原创 SPARK启动历史任务查看
SPARK历史任务查看需要一下配置: 修改spark-defaults.conf配置文件 spark.eventLog.enabled true spark.eventLog.dir hdfs://192.168.9.110:9000/eventLogs spark.even...
2016-06-27 12:13:23
599
原创 SPARK动态添加节点
spark集群使用hadoop用户运行,集群机器如下:1DEV-HADOOP-01192.168.9.110Master2DEV-HADOOP-02192.168.9.111Worker3DEV-HADOOP-03192.168.9.112Worker 现在需要添加一台192.168.9.113 机器名DEV-HADOOP-...
2016-06-27 12:12:20
621
原创 SPARK standlone安装配置
集群一共有3台机器,集群使用hadoop用户运行,3台机器如下:1DEV-HADOOP-01192.168.9.1102DEV-HADOOP-02192.168.9.1113DEV-HADOOP-03192.168.9.112 配置集群间hadoop用户的无密码登录配置每台机器的/etc/hosts安装JD...
2016-06-27 12:11:34
161
HADOOP/HBase动态新增节点
1. 检查JDK版本是否相同并拷贝JDK,并配置/etc/profile文件的JAVA_HOME和CLASSPATH属性2. 配置/etc/hosts文件,新增新加机器的计算机名,包括原有机器和新增机器都要修改该文件3. 拷贝hadoop-2.6.0和hbase-1.0.1.1,并把hadoop-2.6.0和hbase-1.0.1.1文件夹的文件所有者和文件所属组改成hadoop4....
2016-06-06 16:53:28
206
原创 Elasticsearch多字段聚合
ES中的聚合被分为两大类:Metric和bucket。在实际的开发工作过程中,会根据不同业务选择不同聚合总类。相对于REST的请求风格,javaApi方面的资料就比较欠缺。官方API都比较片面,实际应用中,要自己去多去尝试,多去组合验证。这点确实是比较累。已近期的一个业务举例:需求:根据用户ID来分组获取用户发布的微博,并统计微博的讨论量和转发量等等指标信息,还要根据不同指标信息做相...
2016-05-26 13:18:47
1901
原创 jcseg的重新加载新词未能在ES中生效
由于当前业务比较依赖于词库精准匹配,且词库会根据业务来时时更新维护。所以选择了Jcseg词库。但是在使用中确发现,新词虽然刷新至词库中,但是未被ES识别到。查阅相关资料,发现有很多人都遇到过同样的问题。之后了解到需要将ADictionary的方法改为单例模式。可解决此问题。(可通过http://git.oschina.net/lionsoul/jcseg了解最新ES+jcseg最新调整)...
2016-04-29 15:09:29
224
原创 Spark任务拆分-并发问题
现有的结构是Spark从HBase中提取数据,进行计算操作。Spark的并发是由:可用CPU核数*Worker数量,来确定上限的,这种情况针对于单节点。并发数还受到RDD的分区数量影响的,说回Hbase的话,就是受到Region数影响,基本与其一致; 所以如果在HbaseConf中确定的Region数量只有1个的话,那么会出现Spark单线程执行的情况;这个时候可以考虑...
2016-04-28 18:05:26
995
原创 HBASE遇到的java.lang.OutOfMemoryError: unable to create new native thread解决方法
简单分享一下,类似问题的解决方法刚才在某机器上上xxx用户下压测时遇到这个问题,连xxx都进不去了说明xxx用户下无法创建跟多的线程了(当然root用户没这个问题) 系统能够创建的最大线程数:(MaxProcessMemory - JVMMemory – 系统内存) / (ThreadStackSize) = Number of threads有两种方式: ...
2016-04-22 10:29:06
551
原创 搜索引擎的升级
之前项目中一直在使用SolrCloud,但是在使用中,经常会碰到各种问题。最为严重的是造成数据遗漏,从而影响正常业务。近期调研了以下Elasticsearch,发现它相对于SolrCloud,在配置,搭建方面非常容易上手。 下面针对这两种分布式搜索引擎整理了下它们的优缺点:Elasticsearch优缺点优点 Elasticsearch是分布式的。不需要其他组件,...
2016-02-24 15:32:32
196
原创 linux在多台机器上开通用户名和密码
详细linux开通用户的命令是useradd,相信大家都知道了.但是最近收到一个需求,是给将近40台机器初始化6个用户的密码。如果一台台机器添加,估计要一下午时间,因此遭到了一种偷懒的方法:step1:在一台机器通过基础命令添加好账号以及设置密码 step2:在其他机器直接拷贝文件即可#拷贝密码文件scp 192.168.X.XX:/etc/shadow /etc/ #拷贝用...
2014-08-20 18:46:42
386
1
原创 winbox设置端口映射
通过winbox的IP-->Firewall,进入配置页面 ,按照http://192.168.8.201/zentaopms/www/index.php?m=doc&f=view&docID=5所示修改对应的端口映射
2014-08-11 13:58:58
1326
原创 crontab
crontab命令常见于Unix和类Unix的操作系统之中,用于设置周期性被执行的指令。该命令从标准输入设备读取指令,并将其存放于“crontab”文件中,以供之后读取和执行。该词来源于希腊语 chronos(χρνο),原意是时间。通常,crontab储存的指令被守护进程激活, crond常常在后台运行,每一分钟检查是否有预定的作业需要执行。这类作业一般称为cron jobs可通过...
2014-07-24 16:23:04
116
原创 hudson集成maven遇到的问题 NoClassDefFoundError MavenLoggerManager
近期对hudson/jenkins进行了安装,使用的版本为3.1.6。按照操作手册进行部署,但是在使用maven部署的时候一直报错,错误信息如下:Executing Maven: -B -f /var/lib/jenkins/jobs/Omri/workspace/pom.xml -Dmaven.repo.local=/var/lib/jenkins/maven-repositori...
2014-07-22 17:50:05
368
原创 装Ubuntu14.04及搭建开发环境遇到的问题
1. MyEclipse安装 无法安装. 解决方法:为Swap分区分配了500M的内存.再次安装MyEclipse,成功. 2. Navicat安装 在navicat官网下载,直接解压,然后在主目录下面运行./start_navicat,没有反应. 解决方法:执行以下命令:sudo apt-get install ia32-libs ...
2014-06-18 19:22:22
127
原创 mongodb使用
1、控制台运行:db.T_REPOST_TWEETS.ensureIndex({"tweetId":1,"serviceId":1},{"unique":true});设置唯一索引2、mongodb监控运行:{"distinct":"T_REPOST_TWEETS","key":"tweet.user.userId","query"{&qu
2014-05-20 19:18:56
107
原创 kafka映射外网IP
1、修改本地host116.231.200.11 node12、修改程序kafka配置文件metadata.broker.list=node1:91metadata.broker.port=91request.required.acks=1zookeeper.list=node1:84 3、修改kafka的server.properties修改host.name=node1、...
2014-05-20 19:14:02
1941
原创 maven项目部署问题
1.工程如果关联其他本地工程后,如果不把本地工程关闭,部署后无法运行,会提示本地工程对应的Jar包不存在应该是没有把其它工程的相关JAR包发布到NEXUS上去。2.API工程使用maven部署并启动以后 访问wsdl提示 no service was found这个应该是部署问题.没有开启wsdl的功能。...
2014-05-20 10:15:18
141
原创 winbox定时重启adsl的方法
我们常常使用adsl的动态ip来进行网络数据抓取,从而防止屏蔽问题的发生.那么怎么让adsl每过一段时间就获取一个新的ip呢?答案是安装winbox并编写重启脚本即可。由于winbox是常用的管理软件,因此本文不再描述如何安装,只是说明winbox如何编写自动重启脚本.登陆winbox,点击左侧工具栏的System->Scheduler->点击“+”新增定时脚本。详见截图 ...
2014-05-13 18:34:26
740
原创 maven deploy 已存在的包的时候出现400错误
Failed to execute goal org.apache.maven.plugins:maven-deploy-plugin:2.7:deploy (default-deploy) on project PRIME_SMM_APIService: Failed to deploy artifacts: Could not transfer artifact com.prime.smm....
2014-05-12 17:54:53
1162
原创 Kafka0.8.0集群构建
三台集测环境机器IP:192.168.3.97 IP:192.168.3.145 IP:192.168.3.146一. Zookeeper集群构建ZooKeeper集群中具有两个关键的角色:Leader和Follower。集群中所有的结点作为一个整体对分布式应用提供服务,集群中每个结点之间都互相连接。ZooKeeper采用一种称为Leader election的选举算法。在整个集...
2014-05-11 11:22:33
129
原创 Kafka分布式消息发布和订阅系统简介
在kafka官网上对kafka的 定义叫:A distributed publish-subscribe messaging system。publish-subscribe是发布和订阅的意思,所以更准确的说kafka是一个消息订阅和发布的系统。publish- subscribe这个概念很重要,因为kafka的设计理念就可以从这里说起。 Kafka有哪些吸引程序员去使用的特点:...
2014-05-11 11:22:24
209
原创 Redis--redis.conf配置项说明
# Redis示例配置文件# 注意单位问题:当需要设置内存大小的时候,可以使用类似1k、5GB、4M这样的常见格式:## 1k => 1000 bytes# 1kb => 1024 bytes# 1m => 1000000 bytes# 1mb => 1024*1024 bytes# 1g => 1000000000 bytes# 1gb => 1024*1...
2014-05-11 11:22:12
130
原创 centos安装redis及php-redis扩展
天公司同事要求在测试机上安装redis,并且要求让php安装上redis的扩展,redis是一个key-value存储系统.和Memcached 类似,它支持存储的value类型相对更多,包括string(字符串)、list(链表)、set(集合)和zset(有序集 合)。这些数据类型都支持push/pop、add/remove及取交集并集和差集及更丰富的操作,而且这些操作都是原子性的。在此基...
2014-05-11 11:22:00
97
原创 安装 phpRedisAdmin 和 predis(PHP Redis Client)
安装 phpRedisAdmin,方法一(自己摸索):git clone https://github.com/ErikDubbelboer/phpRedisAdmin.gitcd phpRedisAdmingit clone https://github.com/nrk/predis安装 phpRedisAdmin,方法二(官方):...
2014-05-11 11:21:52
132
原创 centos6.3下安装phpredisadmin,以及配置文件
最近公司启用了redis,经过一段时间研究,redis总算顺利上手,然后就自然而然地开始对phpredisadmin产生兴趣。在网上查了一 些关于phpredisadmin的安装文档,感觉有的因为旧版本问题,有的因为叙述问题,总是出现各种各样的问题,经过一番努力,小猫想自己来一篇。首先,服务器安装redis我就不叙述了,google上一大把,大同小异。经过小猫自己对redis的试用,有...
2014-05-10 20:37:08
121
原创 在Linux环境上安装memcached手册
由于memcached安装时,需要使用libevent类库,所以先安装libevent libevent下载网址:http://www.monkey.org/~provos/libevent/ 本手册中下载的是 libevent-1.4.8-stable.tar.gz版本安装步骤如下: 1. 解压缩 tar xzfv libevent-1.4.8-stable.tar.gz 2. 进入到...
2014-05-10 20:36:47
83
原创 64位myeclipse安装SVN插件无法正常工作
使用svn是出现以下错误提示: Failed to load JavaHL Library. These are the errors that were encountered: no libapr-1 in java.library.path no libapriconv-1 in java.library.path C:\Program Files (x86)\Intel\iCLS Cl...
2014-05-10 20:36:10
195
原创 linux传输文件到windows
Xshell传输文件用rz,sz命令在xshell传输文件很好用,然后有时候想在windows和linux上传或下载某个文件,其实有个很简单的方法就是rz,sz首先你的Centos需要安装rz.sz(如果没有安装请执行以下命令,安装完的请跳过.其它版本linux请自行安装相应软件)sudo yum install lrzsz 安装完毕即可使用 ...
2014-05-10 20:35:58
281
原创 centos安装相关apache服务的问题总结
近期在安装一些设计到apahce服务的开源软件时,总是碰到一个访问权限的问题。而且在不同的操作系统,安装相同的开源软件,效果也会不一样。列举下曾经让我很忧伤的开源软件。phpRedisAdmi、rockmongo。之前在ubuntu系统上安装相当顺利。后期在centos上安装却总是不顺利。碰到很多奇怪的问题。尤其是一个访问权限的问题。1.查看文件权限,因为www-data是运行...
2014-05-09 10:00:16
120
原创 kafka使用问题汇总
1.kafka的offset使用人工删除记录的方法以及和自动删除关于offset的区别?kafka自动删除会在系统内已经被删除的offset。下次在存入时,会从当前记录的offse累加上去。人工删除属于暴力删除,所以不会记录offsert。offset一般推荐存储的方式?//to answer2.发现kafka集群不够稳定和启动方式有关,...
2014-05-09 10:00:07
113
原创 Xenserver使用问题
1.目录怎么划分大小,遇到过哪些问题 如何解决的?一块硬盘可以做raid0? 怎么在server内显示硬盘容量 ?目录划分可以在系统安装的时候划分目录大小。一块硬盘可以做raid0.只是可能装好好,没有raid0的相关功能。fidsk -l 显示硬盘容量2.xenserver测试时安装一天未好的原因 ?Dell服务器出厂后,技术人员未按预期规定做好RAID。导致后期在装系统...
2014-05-09 09:59:53
164
原创 kafka集权搭建问题
近期在搭建kafka集群中。由于偷懒,在conf/server.properties中的host.name,未设置从而导致集群访问不到的问题哦。所以希望后期搭建的时候。host.name需要改成当前IP地址(如果不改,client访问集群时,如果没在hosts配置对应机器的 hostname,访问将会报错)...
2014-05-09 09:59:41
300
原创 memcache集群服务:memagent配置使用
magent使用 一、Linux环境下安装magent: 1、安装libevent:wget http://monkey.org/~provos/libevent-1.4.13-stable.tar.gztar -xzvf libevent-1.4.13-stable.tar.gzcd libevent-1.4.13-stable./configure --prefix=/...
2014-05-08 09:56:04
155
原创 centos下修改默认的字符集
我在安装Centos的选择了中文,那么安装后默认是中文的。这个在阅读上还真的方便了不少,但问题也是随之而来的。比如我们运行:chkconfig --list | grep :on发现运行后,什么都没有,但是我们知道这个应该要给我们列出我们有启动的服务状态啊!后面不加 过滤的时候,才发现,它显示的不是on,而是“启动”,所以才没有东西。这样的问题还有很多,比如...
2014-05-08 09:55:56
134
原创 NoSQL相关的新闻与技术
分享一个nosql学习的网站,里面有很多nosql技术http://blog.nosqlfan.com/newslist
2014-05-08 09:55:46
112
原创 centos网络配置(手动设置,自动获取)的2种方法
不知道为什么最近一段时间网络特别的慢,还老是断,断的时候,局域网都连不上,当我手动设置一下ip后就可以了,搞得我很无语。下面是2种设置网络连接的方法,在说怎么设置前,一定要做好备份工作,特别是对于新手来说,如果修改的地方多了,你也会搞晕的,所以修改一个文件前一定要备份 一,修改文件来设置网络连接1,自动获取IP的方法自动获取根4个文件有关系a),/etc/sysconfig...
2014-05-08 09:55:36
539
原创 kafka不能启动
近期在搭建一个kafka集群的时候。碰到一个很奇怪的问题。相关报错如下:[2014-05-07 14:18:24,439] INFO [Kafka Server 2], Starting (kafka.server.KafkaServer)[2014-05-07 14:18:24,457] INFO [Log Manager on Broker 2] Loading log 'kafka_me...
2014-05-08 09:55:27
262
原创 Redis的部署使用文档
简述: redis是一个key-value存储系统。和Memcached类似,它支持存储的value类型相对更多,包括 string(字符串)、list(链表)、set(集合)和zset(有序集合)。这些数据类型都支持push/pop、add/remove及取交集 并集和差集及更丰富的操作,而且这些操作都是原子性的。在此基础上,redis支持各种不同方式的排序。与memcached一样,...
2014-05-07 10:52:46
107
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人