- 博客(20)
- 收藏
- 关注
原创 HIVE中的UDF编程
1.官方文档https://cwiki.apache.org/confluence/display/Hive/HivePluginsUDF:一进一出UDAF:多进一出 (aggregation 聚集 类似于count/max/min)UDTF:一进多出2.查看自带的函数show functions;查看一个函数的使用desc function extended...
2018-09-14 11:35:49
284
原创 HIVE排序
1.官方文档:https://cwiki.apache.org/confluence/display/Hive/LanguageManual+SortBy启动时的一些提示信息In order to change the average load for a reducer (in bytes): set hive.exec.reducers.bytes.per.reducer=<...
2018-09-14 10:26:34
304
原创 HIVE中的查询
1.官网链接:https://cwiki.apache.org/confluence/display/Hive/LanguageManual+Select跟mysql差不多啊group by1.查询每个部门的平均工资(select 的字段必须在group by或者聚合函数里面)select t.deptno,avg(t.sal) avg_salfrom emp tgrou...
2018-09-14 09:06:29
228
原创 HIVE数据的导入与导出详解
1.导入load data [local] inpath '' [overwrite] into database.table [partition(partcol=val)]原始文件在linux本地 加上local 如果原始数据文件在hdfs 不用local如果是覆盖数据加上overwrite 如果是追加 不要overwrite如果是分区表加上partition,不是就不用...
2018-09-13 21:46:25
425
原创 HIVE 表的使用
1.官网链接:https://cwiki.apache.org/confluence/display/Hive/LanguageManual+DDL#LanguageManualDDL-CreateTableCreate/Drop/TruncateTable2.创建表和数据库注[]表示可有可无1.create table if not exists db_name.table( ...
2018-09-13 20:22:02
184
原创 HIVE架构以及HIVE常见问题
1.hadoop生态系统架构图hive是运行在YARN上的,数据存储在HDFS上。2.HIVE实现架构图将sql语句转换为MapReduce,当然hive本身做了一些优化,有些任务不会走MapReduce。hive其实就是把结构化的数据文件映射到表中,hive表的元数据信息存储在关系型数据库中,具体可以参见我的另一篇博客,配置了mysql数据库。SQLParser 对sql...
2018-09-12 21:39:08
286
原创 HIVE基本使用
笔者注:这里安装的版本为hive-0.13.11.基本操作注:[]表示可选1.创建数据库create database [if not exists] db_hive ;2.使用数据库use db_hive ;3.删除数据库drop database [if exists] db_hive;4.创建表 create table stu (id int ,na...
2018-09-12 21:01:05
200
原创 HIVE centos6.5环境搭建
1.关于hive的几个网站官网:https://cwiki.apache.org/confluence/display/Hive/GettingStartedGitHub:https://github.com/apache/hive下载路径:http://archive.apache.org/dist/hive/2.解压hive版本 0.13.1hadoop版本 2.5.0...
2018-09-12 17:27:22
513
转载 关于MapReduce中的shuffle
学习博客:https://blog.youkuaiyun.com/b_x_p/article/details/78456391学习博客:https://www.cnblogs.com/hadoop-dev/p/5894911.html
2018-09-12 10:49:44
148
原创 Windows系统上 HDFS java API的使用
1.创建文件夹package hdfsApi1;import java.io.IOException;import java.net.URI;import java.net.URISyntaxException;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.FileSystem;...
2018-09-12 09:48:31
465
原创 MapReduce并行计算框架
1.思想:分而治之map:对每一部分数据进行处理reduce:合并2.数据流动的形式是<key,value>1.Map阶段由一定数量的Map Task组成*输入数据格式解析:InputFormat*输入数据处理:Mapper*数据分组:Partitioner2.Reduce阶段由一定数量的Reduce任务组成*数据远程拷贝*数据按照Key...
2018-09-11 19:15:27
664
原创 使用sklearn预测波士顿房价
1.加载数据集 并切分from sklearn.datasets import load_bostonboston = load_boston()from sklearn.cross_validation import train_test_splitimport numpy as npx_train,x_test,y_train,y_test = train_test_split...
2018-09-11 10:42:01
3556
原创 使用sklearn做手写数字识别 模型:AdaBoostClassifier
1.加载数据集 导包import numpy as npimport matplotlib.pyplot as pltfrom sklearn import datasets,cross_validation,ensembledef load_classification_data(): ''' 加载分类模型使用的数据集 return 一个元组,依次为:训练样...
2018-09-11 10:30:28
2996
原创 使用skleran实现手写数字识别 模型:KNeighborsClassifier
1.加载数据集并分隔为特征和标签 导包import numpy as npimport matplotlib.pyplot as pltfrom sklearn import neighbors,datasets,cross_validationdef load_classification_data(): digits=datasets.load_digits() ...
2018-09-11 10:04:49
918
原创 sofasofa上的交通理赔 模型:朴素贝叶斯
1.加载数据集import pandas as pddata = pd.read_csv('train.csv')#使用dropna方法删除含有缺失值的行,默认是行 直接在原DF上进行删除 不返回data.dropna(inplace=True)#Evaluation 0表示授予理赔,1表示未通过理赔审核data.head(3)#data.info()#没有缺失值2.分割正...
2018-09-11 09:36:01
325
原创 使用sklearn进行鸢尾花分类预测 模型:LogisticRegression
1.加载数据集 导包import numpy as npfrom sklearn.datasets import load_irisfrom sklearn.model_selection import train_test_splitfrom sklearn.linear_model import LogisticRegressioniris=load_iris()2.切分数...
2018-09-11 09:14:56
4710
原创 使用sklearn进行数据预处理 特征选择
1.特征二元化from sklearn.preprocessing import Binarizer#设置一个threshold值 大于该值为0 小于该值为1def testBinarizer(): X = [ [1,2,3,4,5], [5,4,3,2,1], [3,3,3,3,3], [1,1,1,1,1]] ...
2018-09-11 08:57:04
1016
原创 YARN架构
官网:http://hadoop.apache.org/docs/stable/hadoop-yarn/hadoop-yarn-site/YARN.html1.resource manager全局的资源管理器,这个集群只有一个,负责集群资源的统一管理和调度分配。功能(1)处理客户端请求(2)启动/监控ApplicationMaster(3)监控NodeManager...
2018-09-10 17:46:28
187
原创 HDFS架构
老规矩,先上官网链接:http://hadoop.apache.org/docs/stable/hadoop-project-dist/hadoop-hdfs/HdfsDesign.html1.Hadoop Distribute FileSystem(1)易于扩展的分布式文件系统(2)运行在大量廉价机器上,提供容错机制(3)为大量用户提供性能不错的文件存取服务2.架构图...
2018-09-10 16:15:30
665
原创 hadoop伪分布式环境搭建及其详细讲解
首先参考一下官网的链接 发在这里 http://hadoop.apache.org/docs/stable/hadoop-project-dist/hadoop-common/SingleCluster.html我这里的虚拟机版本是VMware16.05 centos6.5 hadoop2.5.0 下载链接:http://archive.apache.org/dist/hadoop/commo...
2018-09-10 13:22:10
226
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人