
分布式集群/Hadoop
文章平均质量分 85
翔飞天宇
资料共享,相互学习,共同进步
展开
-
Hive join操作小结
本篇对Hive QL中join、left outer join、left semi join和full outer join等表连结操作作一简要总结。测试表准备首先准备三张测试表,内容分别为:hql_jointest_aidname1 a2 b3 c4 d5 e6 f7 g8 h原创 2016-03-01 15:35:09 · 390 阅读 · 0 评论 -
Hadoop HDFS负载均衡
Hadoop HDFSHadoop 分布式文件系统(Hadoop Distributed File System),简称 HDFS,被设计成适合运行在通用硬件上的分布式文件系统。它和现有的分布式文件系统有很多的共同点。HDFS 是一个高容错性的文件系统,提供高吞吐量的数据访问,非常适合大规模数据集上的应用。HDFS副本摆放策略第一副本:放置在上传文件的DataNode上;如果是集群外提转载 2016-09-27 14:05:46 · 672 阅读 · 0 评论 -
Hadoop中命令行解释
hadoop的cat命令的输出可以使用管道传递给Unix 命令的head:hadoop fs -cat README.txt | head -n 10 显示文件开头的10行Hadoop也支持tail命令查看最后一千字节。例如要查阅README.txt最后一千个字节,可以执行如下命令。hadoop fs -tail README.txthadoo原创 2016-09-19 15:09:29 · 2454 阅读 · 0 评论 -
HBase学习之HBase的RowKey设计原则
HBase是三维有序存储的,通过rowkey(行键),column key(column family和qualifier)和TimeStamp(时间戳)这个三个维度可以对HBase中的数据进行快速定位。HBase中rowkey可以唯一标识一行记录,在HBase查询的时候,有以下几种方式:通过get方式,指定rowkey获取唯一一条记录通过scan方式,设置startRow和stopR转载 2016-09-13 15:17:53 · 13351 阅读 · 0 评论 -
MapReduce 中的两表 join 几种方案简介
1. 概述 在传统数据库(如:MYSQL)中,JOIN操作是非常常见且非常耗时的。而在HADOOP中进行JOIN操作,同样常见且耗时,由于Hadoop的独特设计思想,当进行JOIN操作时,有一些特殊的技巧。本文首先介绍了Hadoop上通常的JOIN实现方法,然后给出了几种针对不同输入数据集的优化方法。 2. 常见的join方法介绍 假设要进行join的数据分别来自File1和F转载 2016-07-02 22:29:09 · 476 阅读 · 0 评论 -
机器学习中的数据清洗与特征处理综述
文章转载自:http://tech.meituan.com/machinelearning-data-feature-process.html机器学习中的数据清洗与特征处理综述caohao ·2015-02-10 11:30背景随着美团交易规模的逐步增大,积累下来的业务数据和交易数据越来越多,这些数据是美团做为一个团购平台最宝贵的财富。通过对这些数据的分析和挖掘,不仅能转载 2016-05-26 14:35:14 · 631 阅读 · 0 评论 -
Spark在美团的实践
文章转载自:http://tech.meituan.com/spark-in-meituan.htmlSpark在美团的实践曾林西 李雪蕤 秦思源 毕岩 黄忠 ·2016-03-31 17:00本文已发表在《程序员》杂志2016年4月期。前言美团是数据驱动的互联网服务,用户每天在美团上的点击、浏览、下单支付行为都会产生海量的日志,这些日志数据将被汇总处理、分析、挖掘转载 2016-05-26 14:33:56 · 1028 阅读 · 0 评论 -
Spark性能优化指南——基础篇
文章转载自:http://tech.meituan.com/spark-tuning-basic.html李雪蕤 ·2016-04-29 14:00前言在大数据计算领域,Spark已经成为了越来越流行、越来越受欢迎的计算平台之一。Spark的功能涵盖了大数据领域的离线批处理、SQL类处理、流式/实时计算、机器学习、图计算等各种不同类型的计算操作,应用范围与前景非常广泛。在美团•转载 2016-05-25 20:45:53 · 661 阅读 · 0 评论 -
Spark性能优化指南——高级篇
文章转自:http://tech.meituan.com/spark-tuning-pro.html李雪蕤 ·2016-05-12 14:47前言继基础篇讲解了每个Spark开发人员都必须熟知的开发调优与资源调优之后,本文作为《Spark性能优化指南》的高级篇,将深入分析数据倾斜调优与shuffle调优,以解决更加棘手的性能问题。数据倾斜调优调优概述有的时候,我们可转载 2016-05-25 20:47:43 · 831 阅读 · 0 评论 -
Hbase的TTL字段超时设置测试
在工作中,很多时候需要对表字段进行限定,例如限定一列的超时时间等。今天就总结一下:1. 做hbase表做更改前,首先要disable 这个表,否则记录会丢失。首先,我们建立一个测试表test,有一个列簇fahbase(main):111:0> describe 'test'DESCRIPTION原创 2016-09-27 14:08:05 · 2209 阅读 · 0 评论 -
MapReduce生成HFile入库到HBase
一、这种方式有很多的优点:1. 如果我们一次性入库hbase巨量数据,处理速度慢不说,还特别占用Region资源, 一个比较高效便捷的方法就是使用 “Bulk Loading”方法,即HBase提供的HFileOutputFormat类。2. 它是利用hbase的数据信息按照特定格式存储在hdfs内这一原理,直接生成这种hdfs内存储的数据格式文件,然后上传至合适位置,即完成巨量数据快速入原创 2017-07-06 20:30:30 · 2394 阅读 · 0 评论 -
HBase性能优化方法总结
本文主要是从Hbase应用程序设计与开发的角度,总结几种常用的性能优化方法。有关hbase系统配置级别的优化,这里涉及的不多,这部分可以参考:淘宝Ken Wu同学的博客。1. 表的设计1.1 Pre-Creating Regions默认情况下,在创建HBase表的时候会自动创建一个region分区,当导入数据的时候,所有的HBase客户端都向这一个region写数据,直原创 2017-07-07 18:03:23 · 692 阅读 · 0 评论 -
Hive高级应用
单行变多行假设有个表有两个字段key val1_val2_val3_val4_val5想把第二个字段以“_”为分隔符切割成多行,如下:key val1key val2key val3key val4key val5第二个字段包含的“_”不确定代码如下:[sql] view plain copy print?se转载 2016-03-01 15:57:17 · 688 阅读 · 0 评论 -
hive 中控制符作为分隔符的使用总结
hive 默认的字段分隔符为ascii码的控制符\001,建表的时候用fields terminated by '\001',如果要测试的话,造数据在vi 打开文件里面,用ctrl+v然后再ctrl+a可以输入这个控制符\001。按顺序,\002的输入方式为ctrl+v,ctrl+b。以此类推。控制符在java代码中如何输入呢?采用如下方式: byte[] bytes = new原创 2016-09-07 13:27:26 · 9903 阅读 · 0 评论 -
查看hive 表在hdfs上的存储路径
1、执行hive,进入hive窗口2、执行show databases,查看所有的database;3、执行use origin_ennenergy_onecard; 则使用origin_ennenergy_onecard数据库4、执行show create table M_BD_T_GAS_ORDER_INFO_H;则可以查看table在hdfs上的存储路径如下:hive (原创 2016-09-07 18:02:11 · 17974 阅读 · 0 评论 -
hive中用到的函数总结
SQL SERVER中强制类型转换cast和convert的区别在SQL SERVER中,cast和convert函数都可用于类型转换,其功能是相同的,只是语法不同.cast一般更容易使用,convert的优点是可以格式化日期和数值.代码select CAST('123' as int) -- 123select CONVERT(int, '123') -原创 2016-09-07 18:11:47 · 13081 阅读 · 1 评论 -
yarn中resourcemanager启动不了,启动hregionserver后又挂掉了问题的解决
启动Hadoop-2.2.0中的yarn时,resourcemanager进程一直没有启动起来。查看日志文件中的信息tail -n 50 yarn-dell-resourcemanager-master1.log出现一下异常:2016-09-09 14:41:09,341 INFO org.apache.hadoop.service.AbstractService: Service R原创 2016-09-09 15:23:40 · 20623 阅读 · 0 评论 -
Hbase shell常用命令总结
输入help命令看所有命令及分组情况。1.当前用户 whoami2.看hbase服务器状态 status3.看hbase版本 version4.列出所有的表 list5.创建表,可使用create help命令看创建案列 create 't1','cl1','cl2','cl3'说明:表名t1,三个列族cl1,cl2,cl36.查看表详细信息 d原创 2016-09-13 14:46:48 · 680 阅读 · 0 评论 -
HBase总结之数据导入方式
*). Client API实现借助HBase的Client API来导入, 是最简易学的方式.Configuration config = HBaseConfiguration.create(); // 配置hbase.zookeeper.quorum: 后接zookeeper集群的机器列表 config.set("hbase.zookeeper.quorum", "tw-nod转载 2016-09-13 16:22:46 · 3035 阅读 · 0 评论 -
Hbase总结之hbase37个笔试题
以下试题是摘自互联网的基础上自己加了选项说明解释便于自己以后看时方便节省时间1. HBase来源于哪篇博文? CA The Google File SystemB MapReduceC BigTableD Chubby2. 下面对HBase的描述哪些是正确的? B、C、DA 不是开源的B 是面向列的C 是分布式转载 2016-09-13 16:39:58 · 3623 阅读 · 0 评论 -
海量Web日志分析 用Hadoop提取KPI统计指标
前言Web日志包含着网站最重要的信息,通过日志分析,我们可以知道网站的访问量,哪个网页访问人数最多,哪个网页最有价值等。一般中型的网站(10W的PV以上),每天会产生1G以上Web日志文件。大型或超大型的网站,可能每小时就会产生10G的数据量。对于日志的这种规模的数据,用Hadoop进行日志分析,是最适合不过的了。目录Web日志分析概述需求分析:KPI指标设计算法模型:Hado原创 2016-04-17 21:50:01 · 7339 阅读 · 0 评论 -
网站流量统计之PV和UV
转自:http://blog.youkuaiyun.com/webdesman/article/details/4062069如果您是一个站长,或是一个SEO,您一定对于网站统计系统不会陌生,对于SEO新手来说,统计系统中的一些概念不是很清楚,今天讲讲什么是PV和UV! 网站流量统计之UV(Unique Visitor):独立访客,将每个独立上网电脑(以cookie为依据)视为一位访客,一天之原创 2016-04-17 21:46:31 · 4057 阅读 · 0 评论 -
hadoop集群环境安装 遇到的问题汇总
1.日志报的异常:org.apache.hadoop.hdfs.server.datanode.DataNode: java.io.IOException: Incompatible namespaceIDs in /usr/hadoop/tmp/dfs/data: namenode namespaceID = 115544124; datanode namespaceID = 50651原创 2013-11-13 17:36:43 · 1453 阅读 · 0 评论 -
hadoop:在vmare中配置的多个虚拟机CentOS配置静态ip,并能ping通windows主机,使得主机与虚拟机之间的网络互通
hadoop:在vmare中配置的多个虚拟机CentOS配置静态ip,并能ping通windows主机,使得主机与虚拟机之间的网络互通首先确保虚拟网卡(VMware Network Adapter VMnet8)是开启的,然后在windows的命令行里输入“ipconfig /all”,找到VMware Network Adapter VMnet8的ipv4地址(例如:192.168.原创 2013-11-13 23:18:27 · 3121 阅读 · 2 评论 -
hadoop:mysql中出现中文乱码问题解决方案
报错:出现的问题: mysql> use school; database changed -> source e:\student.sql; ERROR 1366 (HY000): Incorrect string value: '\xB9\xD8\xD3\xF0' f原创 2013-11-18 23:08:35 · 1374 阅读 · 0 评论 -
Hadoop 异常记录 Cannot delete /tmp/hadoop/mapred/system. Name node is in safe mode.
org.apache.Hadoop.ipc.RemoteException: org.apache.hadoop.hdfs.server.namenode.SafeModeException: Cannot delete /tmp/hadoop/mapred/system. Name node is in safe mode.The ratio of reported blocks 0.7原创 2013-11-14 22:43:47 · 2083 阅读 · 0 评论 -
安装hadoop
1.Hadoop文件系统(HDFS)快速安装与使用 http://chyd96.blog.163.com/blog/static/6270607620102410232431/ 2.windows安装hadoop http://simbas.javaeye.com/blog/573498原创 2013-08-18 16:27:27 · 802 阅读 · 0 评论 -
Hbase安装与简介
(一)简介:HBase是一个分布式的、面向列的开源数据库。HBase是Google Bigtable的开源实现,它利用Hadoop HDFS作为其文件存储系统,利用Hadoop MapReduce来处理HBase中的海量数据,利用Zookeeper作为协同服务。 表结构:HBase以表的形式存储数据。表有行和列组成。列划分为若干个列族/列簇(column fam转载 2013-08-18 16:19:04 · 665 阅读 · 0 评论 -
大数据下的数据分析-Hadoop架构解析(3)
一种Hadoop多维分析平台的架构整个架构由四大部分组成:数据采集模块、数据冗余模块、维度定义模块、并行分析模块。如图4所示。 图4 Hadoop多维分析平台架构图数据采集模块采用了Cloudera的Flume,将海量的小日志文件进行高速传输和合并,并能够确保数据的传输安全性。单个collector宕机之后,数据也不会丢失,并能将agent数据自动转移到其他的colll转载 2013-08-18 16:15:31 · 1473 阅读 · 2 评论 -
大数据下的数据分析-Hadoop架构解析(2)
数据分析的算法复杂度根据不同的业务需求,数据分析的算法也差异巨大,而数据分析的算法复杂度和架构是紧密关联的。举个例子,Redis是一个性能非常高的内存Key-Value NoSQL,它支持List和Set、SortedSet等简单集合,如果你的数据分析需求简单地通过排序,链表就可以解决,同时总的数据量不大于内存 (准确地说是内存加上虚拟内存再除以2),那么无疑使用Redis会达到非常惊人的转载 2013-08-18 16:14:05 · 907 阅读 · 0 评论 -
hadoop中master中为什么没有namenode启动org.apache.hadoop.dfs.SafeModeException: Cannot delete /user/报错
运行hadoop程序时,有时候会报以下错误:org.apache.hadoop.dfs.SafeModeException: Cannot delete /user/hadoop/input. Name node is in safe mode 这个错误应该还满常见的吧(至少我运行的时候是这样的) 那我们来分析下这个错误,从字面上来理解: Name node i原创 2013-11-14 22:20:12 · 1311 阅读 · 0 评论 -
SQL on Hadoop,hadoop查询性能优化
对于一个工程师或者分析师来说,如何查询和分析TB/PB级别的数据是在大数据时代不 可回避的问题。SQL on Hadoop就成为了一个重要的工具。为什么非要把SQL放到Hadoop上? SQL易于使用;那为什么非得基于Hadoop呢?Hadoop架构具备很强的鲁棒性和可扩展性。本文从技术架构和最新进展两个角度分析一下各种SQL on Hadoop产品的优缺点和适用范围:Hive、Tez/Sti原创 2013-12-28 00:36:34 · 3700 阅读 · 0 评论 -
hadoop异常:虚拟机上搭建分布式集群org.apache.hadoop.ipc.Client: Retrying connect to server
hadoop异常:虚拟机上搭建分布式集群org.apache.hadoop.ipc.Client: Retrying connect to server原创 2015-09-01 19:40:32 · 1507 阅读 · 0 评论 -
hadoop命令 -- job相关
hadoop命令行 与job相关的:命令行工具 • 1.查看 Job 信息:hadoop job -list2.杀掉 Job: hadoop job –kill job_id3.指定路径下查看历史日志汇总:hadoop job -history output-dir 4.作业的更多细节: hadoop job -history all output-di原创 2016-04-09 22:56:17 · 1789 阅读 · 0 评论 -
mapreduce 实现内连接,左连接,右连接,全连接,反连接
Java代码 测试数据 more user.txt (用户id,用户名) 1 用户1 2 用户2 3 用户3 more post.txt (用户id,帖子id,标题) 1 1 贴子1 1 2 贴子2 2 3 帖子3 4 4 贴子4 5 5 贴子5 5 6 贴子6 5 7 贴子7原创 2016-04-25 11:24:37 · 3007 阅读 · 0 评论 -
MapReduce实现join操作
数据准备首先是准备好数据。这个倒已经是一个熟练的过程,所要做的是把示例数据准备好,记住路径和字段分隔符。准备好下面两张表:(1)m_ys_lab_jointest_a(以下简称表A)建表语句为:[sql] view plain copy print?create table if not exists m_ys_lab_jointes原创 2016-03-01 14:48:36 · 1162 阅读 · 0 评论 -
redis 最适合做那些业务
1.取最新N个数据的操作比如典型的取你网站的最新文章,通过下面方式,我们可以将最新的5000条评论的ID放在Redis的List集合中,并将超出集合部分从数据库获取使用LPUSH latest.comments命令,向list集合中插入数据插入完成后再用LTRIM latest.comments 0 5000命令使其永远只保存最近5000个ID然后我们在客户端获取某一页评论时可以用原创 2013-12-27 16:58:31 · 2008 阅读 · 0 评论 -
solr研究
在此推荐solr学习论坛http://www.solr.cc/1. Solr简介历史:Ø 2004年CNET开发Solar,为CNET提供站内搜索服务Ø 2006年1月捐献给Apache ,成为Apache的孵化项目Ø 一年后Solr孵化成熟,发布了1.2版,并成为Lucene的子项目Ø 2010年 6月 solr发布了最新的1.4.1版,这是1.4的bugfi原创 2014-03-25 17:41:09 · 1203 阅读 · 0 评论 -
mahout学习路线
mahout,机器学习,数据挖掘,推荐算法原创 2015-09-17 11:24:46 · 696 阅读 · 0 评论 -
Hadoop2.6.0 mapreduce 例子
Hadoop2.6.0 mapreduce 例子原创 2015-10-17 20:37:04 · 2573 阅读 · 0 评论