
Big Data
文章平均质量分 66
iteye_10717
这个作者很懒,什么都没留下…
展开
-
超详细单机版搭建hadoop环境图文解析(转)
源:http://www.cnblogs.com/end/archive/2012/08/13/2636645.html 前言:年前,在老大的号召下,我们纠集了一帮人搞起了hadoop,并为其取了个响亮的口号“云在手,跟我走”。大家几乎从零开始,中途不知遇到多少问题,但终 于在回家之前搭起了一个拥有12台服务器的集群,并用命令行在该集群上运行了一些简单的mapreduce...原创 2015-06-18 19:24:11 · 157 阅读 · 0 评论 -
Sqoop安装过程详解
Sqoop是一个用来将Hadoop和关系型数据库中的数据相互转移的工具,可以将一个关系型数据库(例如 : MySQL ,Oracle ,Postgres等)中的数据导进到Hadoop的HDFS中,也可以将HDFS的数据导进到关系型数据库中。 Sqoop官方版本:http://apache.dataguru.cn/sqoop/1.4.2/ Sqoop CDH版本:http://archiv...原创 2014-05-19 11:02:21 · 116 阅读 · 0 评论 -
HBase技术介绍
HBase简介HBase – Hadoop Database,是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,利用HBase技术可在廉价PC Server上搭建起大规模结构化存储集群。HBase是Google Bigtable的开源实现,类似Google Bigtable利用GFS作为其文件存储系统,HBase利用Hadoop HDFS作为其文件存储系统;Google运行Map...原创 2014-05-19 11:00:39 · 102 阅读 · 0 评论 -
Sqoop--Hadoop和关系型数据库中的数据相互转移的工具
Sqoop是一个用来将Hadoop和关系型数据库中的数据相互转移的工具,可以将一个关系型数据库(例如 : MySQL ,Oracle ,Postgres等)中的数据导进到Hadoop的HDFS中,也可以将HDFS的数据导进到关系型数据库中。Sqoop官方版本:http://apache.dataguru.cn/sqoop/1.4.2/ Sqoop CDH版本:http://archive.c...原创 2014-05-19 10:42:15 · 1436 阅读 · 0 评论 -
大数据处理分析的六大工具(转)
大数据是一个含义广泛的术语,是指数据集,如此庞大而复杂的,他们需要专门设计的硬件和软件工具进行处理。该数据集通常是万亿或EB的大小。这些数 据集收集自各种各样的来源:传感器、气候信息、公开的信息、如杂志、报纸、文章。大数据产生的其他例子包括购买交易记录、网络日志、病历、事监控、视频和 图像档案、及大型电子商务。大数据分析是在研究大量的数据的过程中寻找模式,相关性和其他有用的信息,可以帮助企业更好...原创 2014-05-19 10:34:03 · 310 阅读 · 0 评论 -
Oracle连接hadoop(转)
原文地址:http://blog.itpub.net/7607759/viewspace-761362/ 一、ORACLE连接HADOOP(1) - 做些准备 二、ORACLE连接HADOOP(2) - HDFS专用SQL连接器ODCH 三、ORACLE连接HADOOP(3) - OLH加载HDFS数据 一、ORACLE连接HADOOP(1) - 做些准备 ...原创 2014-05-16 10:09:36 · 2203 阅读 · 0 评论 -
redis on window 安装
1:首先下载redis:redis-2.0.2.zip (32 bit),解压。从下面地址下:http://code.google.com/p/servicestack/wiki/RedisWindowsDownload,看到下面有redis-2.0.2.zip (32 bit),就是他了,下载完成后,解压到D:\redis-2.0.2.2:创建redis.conf文件:这是一个配置文件,指定了r...原创 2014-03-13 22:22:33 · 352 阅读 · 0 评论 -
典型的大数据架构
Any data architecture loosely consists of four major logical components:“任何数据架构由主要的四个逻辑组件组成:” I don’t think there’s a blueprint for big data architectures. But such a diagram...2014-03-06 23:10:21 · 270 阅读 · 0 评论 -
hadoop 大数据笔记
1、问题1 localhost: starting namenode, logging to /usr/local/hadoop/logs/hadoop-hadoop-na menode-ubuntu-1.o...原创 2015-06-19 17:48:20 · 173 阅读 · 0 评论 -
十道海量数据处理面试题与十个方法大总结
第一部分、十道海量数据处理面试题 1、海量日志数据,提取出某日访问百度次数最多的那个IP。 此题,在我之前的一篇文章算法里头有所提到,当时给出的方案是:IP的数目还是有限的,最多2^32个,所以可以考虑使用hash将ip直接存入内存,然后进行统计。 再详细介绍下此方案:首先是这一天,并且是访问百度的日志中的IP取出来,逐个写入到一个大文件中。注意到IP是32位的,最多有个2^3...原创 2015-04-01 10:53:26 · 116 阅读 · 0 评论