qq_33361080-优快云博客

原创 HIVE中的UDF编程

1.官方文档https://cwiki.apache.org/confluence/display/Hive/HivePluginsUDF：一进一出UDAF：多进一出 (aggregation 聚集类似于count/max/min)UDTF:一进多出2.查看自带的函数show functions;查看一个函数的使用desc function extended...

2018-09-14 11:35:49 284

原创 HIVE排序

1.官方文档：https://cwiki.apache.org/confluence/display/Hive/LanguageManual+SortBy启动时的一些提示信息In order to change the average load for a reducer (in bytes): set hive.exec.reducers.bytes.per.reducer=<...

2018-09-14 10:26:34 304

原创 HIVE中的查询

1.官网链接：https://cwiki.apache.org/confluence/display/Hive/LanguageManual+Select跟mysql差不多啊group by1.查询每个部门的平均工资（select 的字段必须在group by或者聚合函数里面）select t.deptno,avg(t.sal) avg_salfrom emp tgrou...

2018-09-14 09:06:29 228

原创 HIVE数据的导入与导出详解

1.导入load data [local] inpath '' [overwrite] into database.table [partition(partcol=val)]原始文件在linux本地加上local 如果原始数据文件在hdfs 不用local如果是覆盖数据加上overwrite 如果是追加不要overwrite如果是分区表加上partition，不是就不用...

2018-09-13 21:46:25 425

原创 HIVE 表的使用

1.官网链接：https://cwiki.apache.org/confluence/display/Hive/LanguageManual+DDL#LanguageManualDDL-CreateTableCreate/Drop/TruncateTable2.创建表和数据库注[]表示可有可无1.create table if not exists db_name.table( ...

2018-09-13 20:22:02 184

原创 HIVE架构以及HIVE常见问题

1.hadoop生态系统架构图hive是运行在YARN上的，数据存储在HDFS上。2.HIVE实现架构图将sql语句转换为MapReduce，当然hive本身做了一些优化，有些任务不会走MapReduce。hive其实就是把结构化的数据文件映射到表中，hive表的元数据信息存储在关系型数据库中，具体可以参见我的另一篇博客，配置了mysql数据库。SQLParser 对sql...

2018-09-12 21:39:08 286

原创 HIVE基本使用

笔者注：这里安装的版本为hive-0.13.11.基本操作注：[]表示可选1.创建数据库create database [if not exists] db_hive ;2.使用数据库use db_hive ;3.删除数据库drop database [if exists] db_hive;4.创建表 create table stu (id int ,na...

2018-09-12 21:01:05 200

原创 HIVE centos6.5环境搭建

1.关于hive的几个网站官网：https://cwiki.apache.org/confluence/display/Hive/GettingStartedGitHub：https://github.com/apache/hive下载路径：http://archive.apache.org/dist/hive/2.解压hive版本 0.13.1hadoop版本 2.5.0...

2018-09-12 17:27:22 513

转载关于MapReduce中的shuffle

学习博客：https://blog.youkuaiyun.com/b_x_p/article/details/78456391学习博客：https://www.cnblogs.com/hadoop-dev/p/5894911.html

2018-09-12 10:49:44 148

原创 Windows系统上 HDFS java API的使用

1.创建文件夹package hdfsApi1;import java.io.IOException;import java.net.URI;import java.net.URISyntaxException;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.FileSystem;...

2018-09-12 09:48:31 465

原创 MapReduce并行计算框架

1.思想：分而治之map：对每一部分数据进行处理reduce：合并2.数据流动的形式是<key,value>1.Map阶段由一定数量的Map Task组成*输入数据格式解析：InputFormat*输入数据处理：Mapper*数据分组：Partitioner2.Reduce阶段由一定数量的Reduce任务组成*数据远程拷贝*数据按照Key...

2018-09-11 19:15:27 664

原创使用sklearn预测波士顿房价

1.加载数据集并切分from sklearn.datasets import load_bostonboston = load_boston()from sklearn.cross_validation import train_test_splitimport numpy as npx_train,x_test,y_train,y_test = train_test_split...

2018-09-11 10:42:01 3556

原创使用sklearn做手写数字识别模型：AdaBoostClassifier

1.加载数据集导包import numpy as npimport matplotlib.pyplot as pltfrom sklearn import datasets,cross_validation,ensembledef load_classification_data(): ''' 加载分类模型使用的数据集 return 一个元组，依次为：训练样...

2018-09-11 10:30:28 2996

原创使用skleran实现手写数字识别模型：KNeighborsClassifier

1.加载数据集并分隔为特征和标签导包import numpy as npimport matplotlib.pyplot as pltfrom sklearn import neighbors,datasets,cross_validationdef load_classification_data(): digits=datasets.load_digits() ...

2018-09-11 10:04:49 918

原创 sofasofa上的交通理赔模型：朴素贝叶斯

1.加载数据集import pandas as pddata = pd.read_csv('train.csv')#使用dropna方法删除含有缺失值的行，默认是行直接在原DF上进行删除不返回data.dropna(inplace=True)#Evaluation 0表示授予理赔，1表示未通过理赔审核data.head(3)#data.info()#没有缺失值2.分割正...

2018-09-11 09:36:01 325

原创使用sklearn进行鸢尾花分类预测模型：LogisticRegression

1.加载数据集导包import numpy as npfrom sklearn.datasets import load_irisfrom sklearn.model_selection import train_test_splitfrom sklearn.linear_model import LogisticRegressioniris=load_iris()2.切分数...

2018-09-11 09:14:56 4710

原创使用sklearn进行数据预处理特征选择

1.特征二元化from sklearn.preprocessing import Binarizer#设置一个threshold值大于该值为0 小于该值为1def testBinarizer(): X = [ [1,2,3,4,5], [5,4,3,2,1], [3,3,3,3,3], [1,1,1,1,1]] ...

2018-09-11 08:57:04 1016

原创 YARN架构

官网：http://hadoop.apache.org/docs/stable/hadoop-yarn/hadoop-yarn-site/YARN.html1.resource manager全局的资源管理器，这个集群只有一个，负责集群资源的统一管理和调度分配。功能（1）处理客户端请求（2）启动/监控ApplicationMaster（3）监控NodeManager...

2018-09-10 17:46:28 187

原创 HDFS架构

老规矩，先上官网链接：http://hadoop.apache.org/docs/stable/hadoop-project-dist/hadoop-hdfs/HdfsDesign.html1.Hadoop Distribute FileSystem（1）易于扩展的分布式文件系统（2）运行在大量廉价机器上，提供容错机制（3）为大量用户提供性能不错的文件存取服务2.架构图...

2018-09-10 16:15:30 665

首先参考一下官网的链接发在这里 http://hadoop.apache.org/docs/stable/hadoop-project-dist/hadoop-common/SingleCluster.html我这里的虚拟机版本是VMware16.05 centos6.5 hadoop2.5.0 下载链接：http://archive.apache.org/dist/hadoop/commo...

2018-09-10 13:22:10 226

qq_33361080的博客