
大数据
mannnn__
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
hbase安装及使用
##1.hbase特性Hbase的表模型与关系型数据库的表模型不同Hbase的表没有固定的字段定义;Hbase的表中每行存储的都是一些key-value对Hbase的表中有列族的划分,用户可以指定将哪些kv插入哪个列族Hbase的表在物理存储上,是按照列族来分割的,不同列族的数据一定存储在不同的文件中Hbase的表中的每一行都固定有一个行键,而且每一行的行键在表...转载 2018-10-22 10:28:26 · 150 阅读 · 0 评论 -
Centos安装mysql
Centos7安装mysql选择mysql版本https://dev.mysql.com/downloads/mysql/下载wget https://cdn.mysql.com//Downloads/MySQL-5.7/mysql-5.7.27-1.el7.x86_64.rpm-bundle.tar解压tar -xvf mysql-5.7.27-1.el7.x86_64.rpm-b...原创 2019-09-16 20:16:33 · 174 阅读 · 0 评论 -
jvm之类加载器
jvm类加载器jvm自带的类加载器三种。1. 启动类加载器,由C++实现。负责加载$JAVA_HOME/jre/lib/rt.jar包。2. 扩展类加载器,由JAVA实现。负责加载$JAVA_HOME/jre/lib/ext/*.jar包,如javax包下的类。3. 应用类加载器,由JAVA实现。负责加载当前应用classpath下的包,我们编写的类文件由其负责加载。非jvm自...原创 2019-09-14 09:14:32 · 116 阅读 · 0 评论 -
Hdfs基准测试
Hdfs写性能测试执行命令yarn jar /soft/hadoop-2.7.5/share/hadoop/mapreduce/hadoop-mapreduce-client-jobclient-2.7.5-tests.jar TestDFSIO -write -nrFiles 2 -size 5GB结果19/09/05 00:00:57 INFO fs.TestDFSIO: ---...原创 2019-09-11 08:28:27 · 367 阅读 · 0 评论 -
hive自定义udf、udtf
创建mavena项目,引入依赖<dependency> <groupId>org.apache.hive</groupId> <artifactId>hive-exec</artifactId> <version>1.2.1</version> ...原创 2019-09-11 08:27:12 · 207 阅读 · 0 评论 -
flume自定义拦截器进行日志采集,并写入kafka
项目架构创建maven项目,引入依赖<dependency> <groupId>org.apache.flume</groupId> <artifactId>flume-ng-core</artifactId> <version>1.8.0</version> <scope>pr...原创 2019-09-03 16:17:03 · 872 阅读 · 0 评论 -
Spark SQL报错解决
1、报错如下:org.apache.spark.sql.AnalysisException: Detected implicit cartesian product for INNER join between logical plans解决方式:spark-shell --master yarn --conf spark.sql.crossJoin.enabled=true...原创 2019-07-12 16:16:32 · 3151 阅读 · 1 评论 -
python、spark整合
from pyspark.sql import SparkSession, Rowfrom matplotlib import pyplot as pltspark = SparkSession.builder.master("local[4]").appName("spark_01").getOrCreate()sc = spark.sparkContextlines = sc....原创 2019-01-09 15:44:29 · 498 阅读 · 0 评论 -
zookeeper相关总结
zookeeper作用----------------------------------------------------- 配置维护 域名服务 分布式同步 组服务zk工作流程----------------------------------------------------- zk集群启动后,client连接到其中的一个节点,这个节点可以l...原创 2019-01-08 17:48:00 · 142 阅读 · 0 评论 -
hive相关总结
hive安裝 curl -O https://mirrors.tuna.tsinghua.edu.cn/apache/hive/hive-2.3.4/apache-hive-2.3.4-bin.tar.gz tar -xzvf apache-hive-2.3.4-bin.tar.gz -C apps/ ln -s apache-hive-2.3.4-bin hive ...原创 2019-01-08 16:39:01 · 223 阅读 · 0 评论 -
pandas中DataFrame的查询
import pandas as pdimport numpy as nparr = np.random.randn(3,3)arrarray([[-0.4840499 , -1.10358516, -2.02087998], [ 1.47393252, -0.64985477, -0.11712859], [-0.44069225, -0.37788...原创 2018-12-29 16:00:53 · 1194 阅读 · 0 评论 -
zookeeper 集群安装
zookeeper 集群安装1、安装jdk2、下载http://zookeeper.apache.org/ 3、解压 tar -xzvf zookeeper-3.4.10.tar.gz -C /root/apps/ 4、mv zoo_sample.cfg zoo.cfg5、vi zoo.cfg6、修改zoo.cfg #指定数据文件存放目录 dataDir=/...原创 2018-12-13 09:36:43 · 133 阅读 · 0 评论 -
MapReduce执行流程
map:1、inputformat对输入文件做逻辑切分,生成List<InputSplit>2、InputSplit描述了切片的大小、位置3、RecordReader将InputSplit分为key/value pairs输入Mapper4、执行map方法5、转为字节数组写入到内存缓冲区。 当达到容量的80%时, 启动一个新线程将内存缓冲区中的内容排序、归并,如果设置...原创 2018-11-28 14:07:39 · 617 阅读 · 0 评论 -
MapReduce TopN 多种实现
测试数据:key 1value 3aa 4deng 5haha 8tt 81、使用TreeMap实现topNimport org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.Path;import org.apache.hadoop.io.IntWritable;import org.apache...原创 2018-11-05 17:18:34 · 4222 阅读 · 0 评论 -
hadoop概念-MapReduce各个执行阶段及Shuffle过程详解
MapReduce各个执行阶段(1)MapReduce框架使用InputFormat模块做Map前的预处理,比如验证输入的格式是否符合输入定义;然后,将输入文件切分为逻辑上的多个InputSplit,InputSplit是MapReduce对文件进行处理和运算的输入单位,只是一个逻辑概念,每个InputSplit并没有对文件进行实际切割,只是记录了要处理的数据的位置和长度。(2)因为In...转载 2018-11-05 10:10:01 · 806 阅读 · 0 评论 -
hadoop的HDFS读写数据流程
HDFS写数据流程图1)客户端通过Distributed FileSystem模块向namenode请求上传文件,namenode检查目标文件是否已存在,父目录是否存在。2)namenode返回是否可以上传。3)客户端请求第一个 block上...转载 2018-11-02 14:50:27 · 566 阅读 · 0 评论 -
shell脚本中单引号和双引号的区别
shell脚本中单引号和双引号的区别新建测试脚本test.sh#!/bin/bashval=22echo $valecho "$val"echo '$val'echo "'$val'"echo '"$val"'修改执行权限chmod 777 test.sh执行结果[root@cdh01 ~]# ./test.sh2222$val'22'"$val"结论...原创 2019-09-23 10:29:29 · 1629 阅读 · 0 评论