
大数据
sdfjlkjsdfsaldfsdf
safasfds
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
大数据系列3:用Python编写MapReduce
vi mapper.py 输入: #!/usr/bin/env python importsys for linein sys.stdin: line= line.strip() ...2013-10-02 23:09:06 · 257 阅读 · 0 评论 -
分布式内存文件系统:Tachyon
Tachyon是一个分布式内存文件系统,可以在集群里以访问内存的速度来访问存储在Tachyon里的文件。Tachyon是架构在最底层的分布式文件系统和上层的各种计算框架之间的一种中间件,其主要职责是将那些不需要落地到DFS里的文件,落地到分布式内存文件系统中,来达到共享内存,从而提高效率,减少内存冗余,减少GC时间等。Tachyon架构 Tachyon的架构是传统的Mas...2015-04-06 02:50:25 · 187 阅读 · 0 评论 -
大数据系列12:Hadoop2 – 全新的Hadoop
wget http://mirrors.hust.edu.cn/apache/hadoop/common/stable2/hadoop-2.2.0.tar.gztar -xzvf hadoop-2.2.0.tar.gzcd hadoop-2.2.0vi etc/hadoop/hadoop-env.sh修改:export JAVA_HOME=/home/ysc/jdk1.7...2013-11-01 00:02:30 · 136 阅读 · 0 评论 -
大数据系列6:HBase – 基于Hadoop的分布式数据库
wget http://mirrors.cnnic.cn/apache/zookeeper/zookeeper-3.4.5/zookeeper-3.4.5.tar.gztar -xzvf zookeeper-3.4.5.tar.gzcd zookeeper-3.4.5cp conf/zoo_sample.cfg conf/zoo.cfgvi conf/zoo.cfg 修改:d...2013-10-10 00:07:15 · 215 阅读 · 0 评论 -
大数据系列1:在win7上安装配置Hadoop伪分布式集群
1、 安装虚拟机和操作系统VMware-workstation-full-10.0.0 或 VirtualBox-4.2.18-88781-Win 下载VMware 下载VirtualBoxubuntu-13.04-server-amd64.iso 下载ubuntu2、 设置root用户密码sudo passwd root3、 上传文件利用WinSCP上...2013-10-09 18:39:54 · 201 阅读 · 0 评论 -
大数据系列11:Gora – 大数据持久化
borm – 大数据的对象持久化 wget http://archive.apache.org/dist/gora/0.3/apache-gora-0.3-src.zipunzip apache-gora-0.3-src.zipcd apache-gora-0.3mvn clean package1、创建项目mvn archetype:create -Dgroup...2013-10-09 14:20:35 · 212 阅读 · 0 评论 -
大数据系列10:Spark – 内存计算
wget http://mirrors.cnnic.cn/apache/incubator/spark/spark-0.8.0-incubating/spark-0.8.0-incubating-bin-hadoop1.tgztar -zxvf spark-0.8.0-incubating-bin-hadoop1.tgzmv spark-0.8.0-incubating-bin-ha...2013-10-04 05:11:50 · 180 阅读 · 0 评论 -
大数据系列5:Pig – 大数据分析平台
wget http://mirror.bit.edu.cn/apache/pig/pig-0.11.1/pig-0.11.1.tar.gztar -xzvf pig-0.11.1.tar.gzsudo vi /etc/profile增加:export PIG_HOME=/home/ysc/pig-0.11.1exportPATH=$PATH:$PIG_HOME/bins...2013-10-04 02:06:27 · 328 阅读 · 0 评论 -
大数据系列4:Hive – 基于HADOOP的数据仓库
wget http://mirror.bit.edu.cn/apache/hive/hive-0.11.0/hive-0.11.0-bin.tar.gztar -xzvf hive-0.11.0-bin.tar.gzcd hive-0.11.0-binsudo vi /etc/profile增加:export HIVE_HOME=/home/ysc/hive-0.10.0-...2013-10-03 00:54:34 · 215 阅读 · 0 评论 -
大数据系列9:Mahout – 机器学习
wget http://mirrors.ustc.edu.cn/apache/mahout/0.8/mahout-distribution-0.8.tar.gztar -xzvf mahout-distribution-0.8.tar.gzcd mahout-distribution-0.8sudo vi /etc/profile增加: export PATH=$PA...2013-10-03 00:15:34 · 172 阅读 · 0 评论 -
大数据系列8:Sqoop – HADOOP和RDBMS数据交换
Sqoop1:wget http://mirrors.ustc.edu.cn/apache/sqoop/1.4.4/sqoop-1.4.4.bin__hadoop-1.0.0.tar.gztar -xzvf sqoop-1.4.4.bin__hadoop-1.0.0.tar.gzmv sqoop-1.4.4.bin__hadoop-1.0.0 sqoop-1.4.4cd sqo...2013-10-03 00:03:45 · 149 阅读 · 0 评论 -
大数据系列7:Storm – 流计算
wget http://download.zeromq.org/zeromq-2.1.7.tar.gztar -xzvf zeromq-2.1.7.tar.gzcd zeromq-2.1.7sudo apt-get install gcc sudo apt-get install g++sudo apt-get install libuuid-dev./configur...2013-10-02 23:36:59 · 163 阅读 · 0 评论 -
大数据系列2:建立开发环境编写HDFS和Map Reduce程序
1、在eclipse中配置hadoop插件 将hadoop-eclipse-plugin-1.2.1.jar 复制到eclipse/plugins目录下,重启eclipse。2、打开MapReduce视图 Window-> Open Perspective -> Other 选择Map/Reduce,图标是个蓝色的象。3、添加一个MapRed...2013-10-02 23:22:54 · 143 阅读 · 0 评论 -
数据生成器
data-generator是一个Java实现的数据生成器开源项目。 如果你在从事大数据BI的工作,想对比一下MySQL、GreenPlum、Elasticsearch、Hive、Presto、Impala、Drill、HAWQ、Druid、Pinot、Kylin、ClickHouse等不同实现方案之间的表现,那你就需要一份标准的数据进行测试,这个开源项目就是为了生成这样的标准数据。...2018-04-29 23:02:21 · 704 阅读 · 0 评论