James__Tao-优快云博客

原创 SparkCore 知识点 (一)

SparkCore基于内存的分布式计算框架官网：http://spark.apache.org/文档：http://spark.apache.org/docs/1.6.1/官方博客：https://databricks.com/blog====================================================Spark编译http:

2017-10-24 13:18:16 606

原创 Python 基础语法

Python 基础语法基础语法运行结果数学运算符a = 20b = 3print(a % b)print(a // b)print(a ** b)268000逻辑操作符a = 20b = 3c = 10print ( a>b or a>c )print ( a>b and a>c )print (n

2017-09-29 19:10:38 424

原创 Paython 基础语法

====数据类型======================================** Python 中的变量赋值不需要类型声明** Python中，所有标识符可以包括英文、数字以及下划线(_)，但不能以数字开头，区分大小写** 以下划线开头的标识符有特殊意义。如：_foo 不能直接访问，需通过类提供的接口进行访问** 在 python 中，变量是没有类型

2017-09-29 18:29:59 5845

原创 Hadoop大数据离线项目的运行流程图

2017-09-26 21:17:03 2560

原创 [总结]----Hive数据导入六种方式

Hive数据库和表在HDFS上的目录, 表数据是HDFS上的文件加载本地文件到Hive表中--使用存储介质（移动硬盘）加载数据到表格中load data local inpath '/home/taojiamin/data/student.txt' into table student;加载HDFS文件到Hive表中 --通过Flume等日志收集框架

2017-09-26 20:22:06 622

原创 [总结]----Hive创建表格的几种方式

##方式一 create + loadcreate [external] table table_name(col1_name col1_type,...coln_name coln_type)row format delimited fields terminated by '\t';//load加载数据load data [local] inpth

2017-09-26 20:21:13 1420

原创 [总结]----sqoop 同 MySQL 和 HDFS,Hive 导入导出

1）从mysql导入到HDFS全量导入例如:bin/sqoop import \(输入命令)--connect jdbc:mysql://bigdata.ibeifeng.com:3306/testdb \(指定连接jdbc端口和数据库名称)--username root \(数据库用户名)--password root123 \(密码若不适用明文指定数据库密

2017-09-26 20:18:58 1027

原创 [总结]----Sqoop 几种导入导出模式

测试连接 bin/sqoop list-databases \--connect jdbc:mysql://com.james:3306 \--username root \--password-file file:///home/taojiamin/data/passwd.pwd密码文件本地文件: file:///home/user/passwordhdfs文

2017-09-26 20:18:00 8051

原创 hive与hbase的区别

hive与hbase的区别：hive 核心将sql转换为MapReduce将存储在hdfs上的结构化的数据映射成一张表，并提供类sql语句进行查询hive的特点：高延迟存储的是结构化的数据 hive是面向分析，使用的hql语言hive不能接入业务使用 hive是面向行存储的数据仓库工具，是一种纯逻辑表hive本身不存储数据和计算数据，完

2017-09-26 20:16:11 1002

原创 hbase表数据的读流程：（根据rowkey读）

1、client先去访问zookeeper，从zookeeper上获取meta表的位置信息以前的版本hbase的系统表除了meta表还有root表在root表中存储了meta表的位置信息新版本中将meta表的位置信息直接存入zookeeper中2、client向meta表的region所在的regionserver发起访问，读取meta表的数据，获取了hbase集群上所有的

2017-09-26 20:14:50 794

原创 hbase表数据的写入流程：（根据rowkey进行写入）

1、client先去访问zookeeper，从zookeeper上获取meta表的位置信息以前的版本hbase的系统表除了meta表还有root表在root表中存储了meta表的位置信息新版本中将meta表的位置信息直接存入zookeeper中2、client向meta表的region所在的regionserver发起访问，读取meta表的数据，获取了hbase集群上所有的

2017-09-26 20:13:55 1346 1

原创 Hbase Shell 基本使用

2017-09-14 19:11:38 432

原创 Hadoop 2.X 完全分布式的配置

完全分布式的安装1、集群规划 -> 不同的守护进程运行哪些角色分配:组件COM 1COM 2COM 3HDFS NamenodeSecondaryNamenode　-DatanodeDatanodeDatanode

2017-08-29 19:43:20 505

原创 Hadoop2.x HDFS架构图

2017-08-27 19:25:42 2414

原创 Hadoop 2.x环境搭建

Hadoop2.X 环境搭建准备工作一Linux 环境1.查看主机名,[不能数字开头.不能特殊字符]2.查看主机映射 Windows 下主机映射 C:\Windows\System32\drivers\etc\hosts 3.查看网卡开机自动连接，静态IP 二,jdk(推荐)用户只有一个（不要是root），u

2017-08-24 23:00:19 354

James__Tao的博客