- 博客(101)
- 资源 (4)
- 收藏
- 关注
转载 hadoop中使用lzo压缩
步骤:1、 编译hadoop-lzo-xx.jarhadoop lzo下载位置: https://github.com/twitter/hadoop-lzo2、拷贝hadoop-lzo-xx.jar至hadoop/lib目录下,同时拷贝相应的本地库lib/native/Linux-amd64-64/* 至hadoop/lib/native/Linux-amd64-64下3、hado
2012-08-31 17:23:07
1189
原创 hadoop新增datanode处理
1、 新增hadoop用户,与其它datanode采用相同主目录路径2、 datanode之间ssh无密码通信设置3、 hadoop部署(与其它datanode采用相同路径)4、 修改/etc/hosts,增加集群其它节点信息5、java安装6、修改/etc/profile,增加hadoop、java相关变量信息7、修改/etc/security/limits.conf ,
2012-08-31 15:29:33
833
原创 mysql主从同步问题思考
今天突然发现mysql主从同步从库的数据没有更新,但通过“show slave status”命令发现slave状态正常。通过查看slave日志,发现“[ERROR] Error reading packet from server: Got packet bigger than 'max_allowed_packet' bytes ( server_errno=2020)” ,修改my.cnf,
2012-08-31 11:33:37
639
转载 linux下路由配置文件
分为系统路由,网卡路由(redhat8以上),静态路由系统路由在/etc/sysconfig/network中可以设置网卡路由在/etc/sysconfig/nework-script/ifcfg-ethX中可以设置静态路由在/etc/sysconfig/networking/device/中可以设置ethX.route中设置,静态路由顾名思义,就是固定的,设置好了一般不会轻易变化的路
2012-06-19 10:46:12
5280
原创 hadoop0.20.2分布式缓存程序示例
代码1:adlogetl.javaimport java.io.File;import java.io.IOException;import java.text.ParseException;import java.text.SimpleDateFormat;import java.util.Date;import java.util.HashMap;import java.uti
2012-05-04 18:21:58
636
原创 Java 时间转换+正则匹配+读文件
import java.io.BufferedReader;import java.io.FileReader;import java.text.ParseException;import java.text.SimpleDateFormat;import java.util.Date;import java.util.regex.Pattern;import java.u
2012-05-04 18:13:25
686
原创 hive问题及解决1
1、hive使用mysql存储元数据,报错:hive> show tables;FAILED: Error in metadata: javax.jdo.JDODataStoreException: Error(s) were found while auto-creating/validating the datastore for classes. The errors are print
2012-05-03 11:13:06
1198
转载 hive使用mysql存储元数据
Hive 将元数据存储在 RDBMS 中,有三种模式可以连接到数据库: 1)ingle User Mode: 此模式连接到一个 In-memory 的数据库 Derby,一般用于 Unit Test。 2)Multi User Mode:通过网络连接到一个数据库中,是最经常使用到的模式。 3)Remote Server Mode:用于非 Java 客户端访问元数据库,在服务器端启动一个
2012-05-03 10:51:50
952
原创 hadoop问题解决
1、datanode:java.io.IOException: Too many open filesToo many open files 比較明顯,就是已經到達每個 Process 可以開啟的檔案個數上限。請修改 /etc/security/limits.conf 加入代碼:* soft nofile 743964*
2012-04-24 10:17:27
484
原创 iptables端口映射设置
503 iptables -P FORWARD DROP 504 iptables -A FORWARD -m state --state ESTABLISHED,RELATED -j ACCEPT 505 iptables -t nat -A PREROUTING -d 192.168.16.33 -p tcp --dport 50070 -j DNAT --to 192.16
2012-03-21 09:47:49
748
原创 hadoop删除节点
1、配置参数文件core-site.xml:dfs.hosts.excludes2、执行命令hadoop dfsadmin -refreshNodes执行上述命令后,hadoop在后台进行数据迁移。迁移过程中,可以通过namenode:50070进行监控。此过程中,被删除节点的数据并未删除,只是进行了数据迁移。待迁移完成后,被删除节点的datanode进程将不能访问na
2012-03-20 14:35:27
905
转载 hadoop处理不同输入目录文件
在写mapred任务的时候免不了要处理join。在join中最简单的就是一对一的join。下面通过一个小例子介绍如果在mapred中实现一对一的join。name.txt100 tom101 mary102 katescore.txt100 90101 85102 80要得到如下的join结果100 tom 90101 mary 85
2012-03-20 09:19:06
3314
转载 Python调用C语言函数
使用Python的ctypes,我们可以直接调用由C直接编译出来的函数。其实就是调用动态链接库中的函数。为什么我们需要这样做呢,因为有些时候,我们可能需要一个性能上比较讲究的算法,有些时候,我们可以在Python中使用已经有了的现成的被封闭在动态链接库中的函数。下面是如何调用的示例。首先,我们用一个乘法来表示一个算法功能。下面是C的程序:intmultiply(intnum1
2012-03-14 09:59:53
745
原创 mysqldump导出部分数据
1、只导出某表的部分数据mysqldump -uuser -ppassword dbname tablename --where=" condition" > outfile.sql2、不导出数据使用-d参数
2012-02-15 13:28:39
529
原创 centos5挂载ext4磁盘
1、系统内核2.6.18-164.el52、 安装工具e4fsprogs-1.41.12-2.el5.x86_64.rpm3、格式化磁盘mkfs.ext4 /dev/xxx4、设置磁盘标签 tune4fs -L/label /dev/xxx5、/etc/fstab增加新一行6、挂载磁盘 mount -t ext4dev /dev/xxx /dirname
2012-02-10 10:48:31
862
转载 Linux 释放内存命令
Linux 释放内存命令现在论坛在线人数有时候突然猛增,内存暴增,然后就服务器挂了。找到一个方法先运行: sync然后: echo 3 > /proc/sys/vm/drop_caches total used free shared buffers
2012-02-09 15:40:12
663
转载 图说“什么是数据挖掘”
摘要: 1、数据挖掘需要‘神马样’的流程?2、哥,有没有详细点的,来个给力的!3、数据挖掘在商业上的理解是?4、数据在统计意义上有哪些类型?5、他们的含义是什么呢?6、基本的探测指标有哪些?7、数据挖掘的算法有哪些呢 ...1、数据挖掘需要‘神马样’的流程?2、哥,有没有详细点的,来个给力的!
2012-01-30 10:54:09
903
原创 awk输出到多个文件
awk '{print $1 >$2}' file以上代码实现将file中第一个字段写入文件名$2的文件中,写的方式为追加写。
2012-01-10 16:50:44
5522
原创 Linux date命令的一个简单说明
一个定时器脚本需要使用date来得到当前、1个月前、2个月前等的详细月份信息。之前的脚本一直使用“date +%Y%m -d'n month ago' ”,开始没意识到错误的发生,今天突然间发现,这里的month默认是按30天来处理的,这样就导致如果当前日期为某月的31日,那么1 month ago得到的只是当前月份的1日。而不是我们所期盼的上个月。这个错误导致之后的月份信息的合并完全出错,特此记
2012-01-04 11:05:16
629
原创 mongodb随笔
1. 删除文档属性var xx = db.collection.find({query})xx.newkey="new value"delete xx.key1db.collection.update({query},xx)操作说明:通过查询获取某个文档,给该文档设置新的key/value对,删除旧的key=》key1,然后通过update操作更新该文档2. 删除文档db.c
2011-12-09 23:04:59
839
原创 Mongodb嵌套查询及修改
Mongodb各文档中对嵌套查询的介绍不知道藏在哪个地方,反正我是没找到,一个偶然的机会发现网上的一个帖子,终于知道了嵌套查询的用法。于是乎我们应用中的一个问题也随之被解决了。不说废话了,现在说下嵌套查询的使用。假设mongodb中存在某个collections,其数据如下:> db.xx.find(){ "_id" : 1, "name" : { "first" : 2, "last
2011-12-07 10:44:50
18430
1
转载 Redis配置
Redis安装redis需要修正版本到2.4RC,集成了jemalloc,不再需要tcmalloc编译前手工修改src/Makefile,修改其中的PREFIX参数到/usr/local/redis,使得安装位置为/usr/local/redis安装目录说明|- /usr/local/redis 安装根目录 |- bin 可执行文件 |- etc 配置文
2011-11-24 09:26:56
884
原创 Redis基础
类型:String,List,set,sorted setString:命令:set/get,incr/decr,incrby/decrby,getsetList:linked list(插入快,访问相对慢)命令:lpush/rpush,lrange,llenset:无序命令:sadd,smembers,sismembers,sinter。。。sorted set:
2011-11-21 13:54:28
822
原创 awk字符串比较问题
#!/bin/awkBEGIN{ mac="" sum=0}{ if($1==mac) { sum+=$2 } else { print mac,sum mac=$1 }END{ if($1==mac) { print mac,sum+$2 } else { print mac,sum print $1,$2 }
2011-11-16 14:51:31
17624
原创 shell脚本编码问题
最近某个脚本的执行经常导致编码问题。脚本从远端mysql数据库获取影片中文名,然后再导入本机的mysql中。发现由crontab自动执行的时候获取的影片名称都是乱码,但手动执行脚本却正常输出。几天都是这个问题。今天突然想起以前也有类似问题,在终端执行“echo $LANG",然后在脚本中加”export LANG=xx(之前的输出结果)“,问题解决。具体原因不知,个人猜测本地LANG是人为
2011-11-15 09:39:54
2178
转载 hadoop+hive 做数据仓库 & 一些测试
转载标明 :www.bagbaby.cn http://hi.baidu.com/dd_shop背景需求和现状目前的日志系统还称不上系统,只是在几台服务器上存着所有的日志,依靠NFS共享数据,并运算,带来的问题诸多:a) 数据存放凌乱,缺乏系统的目录管理;b) 存储空间有限,并且扩展非常麻烦;c) CV/PV等日志分散存放,合并不方便;d) 媒体服务日志数据集中存放
2011-11-10 19:05:00
4037
原创 Hadoop学习一
1、自定义输入类型(输出类型类似)基类:FileInputFormat实现方法getRecordReader实现自定义的RecordReader,方法:next,createKey,createValue,getPos,getProgress,close2、待续。。。
2011-11-04 10:04:34
589
原创 这个周末有点累。。。
周六,坐着小火车去八达岭森林公园看红叶。从下火车走了接近4公后发现啥风景都没有,无奈又原路返回。然后又到所谓的红叶岭看红叶,悲催的又发现来晚了。树上的红叶已经基本凋落了,只留一小片一小片聊以安慰。近距离看着长城,所谓的野长城,走在荆棘的山坡上,期待能从某一处攀爬上去。在与地面经历了一次亲密接触,手上拉了几道小口子后,终于找到了前人的足迹,第一次登山了长城。竟然没有意料之中的那种震撼的感觉,也许是最
2011-10-31 10:25:32
490
原创 数据挖掘--统计基础概念
1. 中位数(Median)N个数按大小排序,排在中间的那个数M成为中位数。即N个数中有50%比M大或者小。若N为基数,则M为中间的那个数;若N为偶数,则M为中间两个数的均值。2. 均值(Mean)N个数的平均值。公式M=SUM(1...N)/N3. 四分位数(Quantile)* 第一四分位数 (Q1),又称“较小四分位数”,等于该样本中所有数值由小到大排列后第25%的数
2011-10-28 17:51:11
1201
转载 eclipse搭建hadoop开发环境
1.版本hadoop:apache0.20.0eclipse:3.3.02.插件hadoop自带,contrib/eclipse_plugin3.步骤* 将hadoop自带插件拷贝至eclipse plugins目录* 启动eclipse,window-->preference--> hadoop map/reduce 指定本地hadoop目录* window-->
2011-10-28 10:17:40
936
转载 hadoop 配置说明
Hadoop配置文件设定了Hadoop平台运行时各方面属性。大量实验证明,合理的配置会大大提高Hadoop的性能。 在Hadoop-0.19.2版 本中,Hadoop配置文件在conf目录下,包括文件 hadoop-default.xml hadoop-site.xml 前者做了默认配置,不允 许修改,用户需要配置时可以在后者中设置
2011-10-26 16:35:55
519
原创 路在何方?
在公司工作了一年,从hadoop平台搭建、使用;然后是公司旧有的两套系统的维护,新增需求处理,更多的陷入shell脚本,perl,awk等脚本语言的使用上来;紧接着是失败oracle biee的调研,然后是开源pentaho的使用。。。 感觉自己一直是在救火一般,了解这个了解那个,会使用这个/那个,一切的一切都只是了解,而没有深入、熟悉。昨天去taobao面试,这个问题更加凸显。
2011-10-26 09:29:02
447
转载 如何对hadoop作业的某个task进行debug单步跟踪
转自:http://blog.youkuaiyun.com/ae86_fc/article/details/5957715对于使用hadoop进行日志分析等工作的开发者来说,相信一直都面临着一个非常头 疼的问题。那就是:对hadoop的mapreduce作业,在分布式集群上进行单个task的单步debug跟踪调试无法办到。只能在本地进行调试,然 后提交到集群中运行,但是集群中如果某个task总
2011-10-21 16:31:36
783
转载 对hadoop task进行profiling的几种方法整理
在hadoop中,当一个job的调试完成,执行成功后,job的开发者接下来该思考的问题通常就是:如何将job跑的更快,更加高效,更节省资源呢?这个话题其实是一个老生常谈的话题了,很多有经验的工程师,开发人员和机构都分享过类似的经验。通常来说,应用程序千变万化,程序逻辑也不尽相同,程序的执行瓶颈通常也不尽相同,有的job是IO密集型的作业,那么优化其算法效率意义就不大,而有的job是CPU密集型的,
2011-10-21 16:20:32
691
转载 R语言数据储存与读取
1. 首先用getwd() 获得当前目录,用setwd("C:/data")设定当前目录:2.0 数据保存:创建数据框d: >d 2.1 保存为简单文本:>write.table(d, file = "c:/data/foo.txt", row
2011-10-11 11:17:02
2356
转载 R语言为Hadoop集群数据统计分析带来革命性变化
R作为开源的数据统计分析语言正潜移默化的在企业中扩大自己的影响力。特有的扩展插件可提供免费扩展,并且允许R语言引擎运行在Hadoop集群之上。R语言是主要用于统计分析、绘图的语言和操作环境。R本来是由来自新西兰奥克兰大学的Ross Ihaka和Robert G
2011-10-11 08:47:32
660
转载 大数据下的数据分析平台架构
大数据下的数据分析平台架构2011-08-15 14:59 | 4270次阅读 | 【已有6条评论】发表评论来源:《程序员》 | 作者:谢超 | 收藏到我的网摘随着互联网、移动互联网和物联网的发展,谁也无法否认,我们已经切实地迎来了
2011-10-11 08:46:45
714
转载 Apache Sqoop
Apache Sqoop (Incubating)THURSDAY OCT 06, 2011Apache Sqoop - OverviewApache Sqoop - Overview Using Hadoop for
2011-10-10 15:38:46
915
转载 SQL习惯
一、查询的逻辑执行顺序 (1) FROM left_table (3) join_type JOIN right_table (2) ON join_condition (4) WHERE where_condition (5) GROUP BY grou
2011-10-08 10:33:34
325
t_area.sql
2019-11-14
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人