- 博客(148)
- 资源 (10)
- 收藏
- 关注
原创 maven 3.3.9编译spark1.5.0 cdh5.5.1
1、下载spark源码解压到目录/usr/local/spark-1.5.0-cdh5.5.1,看看是否有pom.xml文件2、切换到目录/usr/local/spark-1.5.0-cdh5.5.1执行:编译spark源代码的时候,需要从网上下载依赖包,所以整个编译过程机器必须保证在联网状态。编译执行如下脚本:[hadoop@hadoop spark-1.5.0-cdh5.5
2016-03-14 13:29:13
857
原创 centos yum源配置问题解决办法
问题:[root@hadoop yum.repos.d]# mount -t auto /dev/cdrom /mnt/cdrommount: you must specify the filesystem type解决办法:mount -o loop /dev/cdrom /mnt/cdrom/问题:Could not open/read file
2016-03-08 10:30:11
1029
原创 初识Spark 1.6.0
1、 Spark发展背景Spark由加州大学伯克利分校AMP实验室(Algorithms,Machines,andPeopleLab)以Matei为主的小团队使用Scala语言所开发,后期成立spark商业公司databricks,CEOAli,CTO Matei,后期愿景是实现databrickscloud。Spark是新一代基于内存迭代计算的、开源的、分布式的、并行的计算框架,抛去繁琐的
2016-03-03 14:51:23
735
转载 Linux NFS服务器的安装与配置
一、NFS服务简介 NFS 是Network File System的缩写,即网络文件系统。一种使用于分散式文件系统的协定,由Sun公司开发,于1984年向外公布。功能是通过网络让不同的机器、不同的操作系统能够彼此分享个别的数据,让应用程序在客户端通过网络访问位于服务器磁盘中的数据,是在类Unix系统间实现磁盘文件共享的一种方法。 NFS 的基本原则是“容许不同的客户端及服务端通过一组
2016-02-02 10:51:18
467
转载 python操作Excel读写--使用xlrd
一、安装xlrd模块 到python官网下载http://pypi.python.org/pypi/xlrd模块安装,前提是已经安装了python 环境。二、使用介绍 1、导入模块 import xlrd 2、打开Excel文件读取数据 data = xlrd.open_workbook('excelFile.xls')
2016-01-29 11:45:03
497
转载 MapReduce任务参数调优(转)
http://blog.javachen.com/2014/06/24/tuning-in-mapreduce/本文主要记录Hadoop 2.x版本中MapReduce参数调优,不涉及Yarn的调优。Hadoop的默认配置文件(以cdh5.0.1为例):core-default.xmlhdfs-default.xmlmapred-default.xml说明:在had
2016-01-22 14:51:19
686
原创 hadoop2.5.0-cdh5.3.3 伪分布式安装(mysql、hive、sqoop)
一、准备一台机器(我的是centos 6.7 64位)-----------------------------------------------------------------------------------------------------------主机名和ip地址映射:[hadoop@hadoop ~]$ cat /etc/hosts127.0.0.1
2016-01-19 12:03:47
1466
转载 python爬虫抢火车票
首先我们需要splinter安装:pip install splinter -i http://pypi.douban.com/simple --trusted-host pypi.douban.com然后还需要一个浏览器的驱动,当然用chrome啦下载地址:http://chromedriver.storage.googleapis.com/index
2016-01-13 10:13:30
6133
14
转载 Linux下修改Mysql的用户(root)的密码
修改的用户都以root为列。一、拥有原来的myql的root的密码;方法一:在mysql系统外,使用mysqladmin# mysqladmin -u root -p password "test123"Enter password: 【输入原来的密码】方法二:通过登录mysql系统,# mysql -uroot -pEnter password: 【输
2015-12-31 14:59:34
537
转载 大数据/数据挖掘/推荐系统/机器学习相关资源
书籍各种书~各种ppt~更新中~ http://pan.baidu.com/s/1EaLnZ机器学习经典书籍小结 http://www.cnblogs.com/snake-hand/archive/2013/06/10/3131145.html机器学习&深度学习经典资料汇总 http://www.thebigdata.cn/JiShuBoKe/13299.htm
2015-12-28 13:55:21
2342
转载 ETL AUTOMATION介绍
数据仓库与数据挖掘/**********************************/目录:第一部分:ETL Automation简介第二部分:ETL Automation架构第三部分:ETL Automation环境变量说明第四部分:ETL Automation目录结构说明第五部分:ETL Automation服务说明第六部分:ETL Automation
2015-12-28 13:37:07
2224
转载 shell中${ } 用法详解
shell中${ } 的一些特异功能假设我们定义了一个变量为: file=/dir1/dir2/dir3/my.file.txt 我们可以用 ${ } 分别替换获得不同的值: ${file#*/}:拿掉第一条 / 及其左边的字符串:dir1/dir2/dir3/my.file.txt ${file##*/}:拿掉最后一条 / 及其左边的字符串:my.file.txt ${f
2015-12-18 17:12:29
1237
转载 perl DBI mysql包安装详解
1.安装mysql 并运行 2.首先安装DBI :Perl MakeFile.PL Make Make install3.DBD-mysql包 #perl Makefile.PL --mysql_config=/usr/local/mysql/bin/mysql_config (指定mysql_config位置)或者:#perl Makefile.PL -mysq
2015-12-18 15:36:40
973
原创 infobright学习笔记
介绍 官网https://www.infobright.com/Infobright是一个基于独特的专利知识网格技术的列式数据库,能够降低您90%的管理工作量。在一台PC服务器上,Infobright企业版在对50TB甚至更多数据量进行多并发复杂查询时,能够显示出令人惊叹的速度,相比于MySQL,其查询速度提升了数倍甚至数十倍。在同类产品中,Infobright的单机性能处于领先地位
2015-12-17 19:53:03
2851
原创 大数据学习路线
===============================================================学习大数据,一步一个脚印 1 2 3 走起来!!!===============================================================一、Hadoop入门,了解什么是Hadoop1、Hadoop产生背景
2015-12-17 18:45:52
539
转载 在 Perl 下处理时间的小技巧 strftime
在 Perl 中处理时间,很多模块,很方便,但是刚开始玩的人,可能没有发现合适的模块,所以使用起来感觉很麻烦。通常大家都 localtime 搞得大家都很火大。我有幸和大师学习了一下,给大家推荐一下一个模块 strftime。 我们在推荐前,介绍一下 Perl 下取时间的今生前世吧。以前我想大家都是使用的 localtime 来取得当地日期时间和日期。这个函数如果在标量环境时,会以
2015-12-04 15:16:54
1550
转载 mysql存储过程动态执行sql
--存储过程名和参数,参数中in表示传入参数,out标示传出参数,inout表示传入传出参数create procedure p_procedurecode(in sumdate varchar(10)) begin declare v_sql varchar(500); --需要执行的SQL语句 declare sym varchar(6);
2015-11-30 18:54:11
679
转载 hive配置文件详解
hive.exec.mode.local.auto 决定 Hive 是否应该自动地根据输入文件大小,在本地运行(在GateWay运行) true hive.exec.mode.local.auto.inputbytes.max 如果 hive.exec.mode.local.auto 为 true,当输入文件大小小于此阈值时可以自动在本地模式运行,默认是 128兆。
2015-11-05 10:57:25
2044
转载 InfoBright4.5企业版安装详细步骤
系统环境:RedHat6.2 64位InfoBright:4.5 今天拿到了服务商给到的rpm安装包和linence,开发那边也催的很紧,就马上安装配置。网上很少比较详细全面的安装文档,于是自己写一遍,希望对大家有帮助。1、安装前准备:(1)、修改Linux相关的配置文件,sysctl.conf 、limit.conf、hosts等 文件.(2)、配置网络,关闭防火强
2015-11-05 10:35:00
1111
转载 HIVE 调优方法大全
Hive是目前应用最多最广的SQL on Hadoop工具,近期很多专业的大数据公司推出了很多新的,基于列式或者内存热数据的SQL工具,像Impala,Tez,Spark等等,但是Hive仍然是目前使用率最高和普及面最广的SQL on Hadoop的工具。在以前淘宝罗李的报告中,淘宝90%的业务跑在Hive上面。暴风影音的比例更高一些,大概95%以上都是跑在Hive上面。尽管很多人对Hive有看法
2015-10-16 16:29:24
1974
转载 hive中order by,sort by, distribute by, cluster by作用以及用法
====================================marked by Alan at 2015-10-15 13:52=========================================1. order by Hive中的order by跟传统的sql语言中的order by作用是一样的,会对查询的结果做一次全局排序,所以说,只有h
2015-10-16 13:53:00
425
转载 Hive sql语法详解
Hive 是基于Hadoop 构建的一套数据仓库分析系统,它提供了丰富的SQL查询方式来分析存储在Hadoop 分布式文件系统中的数据,可以将结构化的数据文件映射为一张数据库表,并提供完整的SQL查询功能,可以将SQL语句转换为MapReduce任务进行运行,通过自己的SQL 去查询分析需要的内容,这套SQL 简称Hive SQL,使不熟悉mapreduce 的用户很方便的利用SQL 语言
2015-10-15 14:15:49
522
原创 hadoop2.0单机部署(配置文件)
=====================================================主要配置一下几个配置文件=====================================================1.core-site.xml fs.default.name hdfs://YARN001:8020
2015-10-09 14:30:49
483
原创 HIVE函数
1、日期函数返回值类型 名称 描述 string from_unixtime(int unixtime) 将时间戳(unix epoch秒数)转换为日期时间字符串,例如from_unixtime(0)="1970-01-01 00:00:00" bigint unix_tim
2015-10-09 11:08:57
539
原创 sqoop工具使用大全
=====================================================一、将数据从关系型数据库导入Hadoop中=====================================================1、Sqoop import使用sqoop import \--connect jdbc:mysql://mysql.ex
2015-09-17 16:23:48
790
原创 hive之HQL用法案例
建库:hive> CREATE DATABASE IF NOT EXISTS mydb;建表:Hive默认分隔符:\n 记录间的分割符,默认一行一条记录^A (“control” A) 列分隔符,通常写成“\001”^B ARRAY或
2015-09-16 16:08:18
781
原创 YARN资源管理和调度简介
1、运行在YARN上的MapReduce应用程序2、运行在YARN上的Storm应用程序3、YARN应用程序基本构成①客户端 :主要作用是提供一系列访问接口供用户与YARN交互,包括提交Application、查询Application运行状态,修改Application属性(比如优先级)等。②ApplicationMaster: 向ResourceMana
2015-09-09 13:58:52
1817
原创 hadoop一些常见的案例(更新中)
案例1:新增节点,新节点没有任何数据,但是旧节点已经存储了很多数据,那么,怎么把旧节点的数据移动到新节点呢?数据块重分布sbin/start-balancer.sh -threshold percentage of disk capacityHDFS达到平衡状态的磁盘使用率偏差值值越低各节点越平衡,但消耗时间也更长这是一个进程,启动之后他就会在后台不停的扫描,从而进行负
2015-09-07 17:16:55
745
原创 hadoop上作业执行方法
脚本:例1:#!/bin/bashHADOOP_HOME=/home/alan/hadoop/hadoop-0.20.2-cdh3u6${HADOOP_HOME}/bin/hadoop jar\ ${HADOOP_HOME}/contrib/streaming/hadoop-streaming-0.20.2-cdh3u6.jar\ -files wc_
2015-09-07 13:44:18
580
1
原创 ubuntu 安装hadoop_cdh5.4.1步骤
1、配置ip并修改主机名sudo vi /etc/hostname2、主机名解析sudo vi /etc/hostsscp hosts hadoop@datanode1:/etcscp hosts hadoop@datanode2:/etcscp hosts hadoop@datanode3:/etc3、关闭防火墙sudo ufw disable4、免密
2015-09-06 17:29:53
756
原创 HDFS HA+Federation的部署(多机)-配置文件
配置文件具体内容:1、hadoop-env.sh# Copyright 2011 The Apache Software Foundation# # Licensed to the Apache Software Foundation (ASF) under one# or more contributor license agreements. See the NOTICE
2015-09-06 15:04:21
763
原创 HDFS HA部署(多机)——配置文件
配置文件内容:1、hadoop-env.sh# Copyright 2011 The Apache Software Foundation# # Licensed to the Apache Software Foundation (ASF) under one# or more contributor license agreements. See the NOTICE f
2015-09-06 14:14:31
574
原创 Hadoop2+HA+YARN环境搭建
一、前期准备四台机子,配置如下:[root@datanode1 usr]# cat /etc/hosts# Do not remove the following line, or various programs# that require network functionality will fail.127.0.0.1 localhost.loca
2015-09-02 14:23:13
605
转载 Hadoop 2.0生产环境(多机)搭建方法
步骤1:将安装包hadoop-2.2.0.tar.gz存放到某一目录下,并解压;步骤2:修改解压后的目录中的文件夹etc/hadoop下的xml配置文件(如果文件不存在,则自己创建),包括hadoop-env.sh、mapred-site.xml、core-site.xml、hdfs-site.xml和yarn-site.xml;步骤3:格式化并启动HDFS;步骤4:启动YARN。
2015-09-01 14:24:25
801
原创 部署hadoop集群需要配置的文件
一、修改主机名:vi /etc/sysconfig/networkNETWORKING=yesNETWORKING_IPV6=yesHOSTNAME=hadoop二、修改主机名解析配置文件:vi /etc/hosts# Do not remove the following line, or various programs# that require network
2015-08-31 17:28:35
535
原创 hadoop新增节点配置步骤
新加datanode的安装步骤:1、ssh无密码配置和上面详细步骤一样,在新datanode上的/root 上建一个/.ssh的目录,把namenode的authorized_keys复制到新datanode的/.ssh目录上。在namenode上ssh验证一下是否需要密码。2修改机器名,和上面详细步骤一样。记得重启一下。3建/usr/program这个目录,把jdk的安装文件放进去,
2015-08-31 16:50:13
745
原创 Hadoop环境部署(单节点和集群)
1、单节点环境搭建步骤:http://hadoop.apache.org/docs/stable/hadoop-project-dist/hadoop-common/SingleCluster.html2、集群环境搭建步骤:http://hadoop.apache.org/docs/stable/hadoop-project-dist/hadoop-common/ClusterSe
2015-08-31 13:34:50
737
转载 Hadoop学习笔记
# hadoop前言# Hadoop试验集群的部署结构# 系统和组建的依赖关系 # 生产环境的部署结构# Day1 搭建伪分布实验环境# 准备软件# vmare 9.0.2# 操作系统 CentOS 6.4# jdk-6u45-linux-i586.bin# hadoop-1.1.2.tar.gz# 开始搭建环境一 (基础环境)# 在虚拟
2015-08-28 16:39:00
2400
原创 一些常用到的linux命令整理笔记
linux 命令平时笔记:sed -i "s/string/replacestring/g" file #文件file中的内容全部替换,真实的替换date -n 0825000115 #更改服务器时间netstat -tanp #查看某个进程占用哪个端口 如果需要释放,则执行:kill PID,如果需要全部kill,执行:netstat -tanp |awk '{print $7
2015-08-27 16:56:49
453
转载 sqoop导入数据到关系型数据库到hive
Sqoop 是 apache 下用于 RDBMS 和 HDFS 互相导数据的工具。本文以 mysql 数据库为例,实现关系数据库导入到 hdfs 和 hive。1. 安装 Sqoop使用 rpm 安装即可。yum install sqoop sqoop-metastore -y安装完之后需要下载 mysql jar 包到 sqoop 的 lib 目录。这里使用 h
2015-08-27 10:53:02
2454
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人