
大数据分析与处理
蓝鲸123
做更好的自己
展开
-
kaf操作命令
kaf命令原创 2022-08-14 21:25:10 · 842 阅读 · 0 评论 -
ZooKeeper命令行
zookeeper原创 2022-08-14 21:07:14 · 423 阅读 · 0 评论 -
从零构建包含mysql、redis、python、go等基础软件的Ubuntu Docker镜像
构建包含mysql、redis、python、go等基础软件的Docker镜像的DockerfileFROM ubuntu as builderWORKDIR /code# 修改ubuntu 为国内下载源RUN echo "deb [trusted=yes] http://mirrors.tuna.tsinghua.edu.cn/ubuntu/ focal main restricted universe multiverse" > /etc/apt/sources.listRUN e原创 2022-02-20 23:43:08 · 1050 阅读 · 0 评论 -
修改docker 默认存储路径
Docker 默认安装的情况下,会使用 /var/lib/docker/ 目录作为存储目录,用以存放拉取的镜像和创建的容器等。不过由于此目录一般都位于系统盘,遇到系统盘比较小,而镜像和容器多了后就容易尴尬,这里说明一下如何修改 Docker 的存储目录。docker info这里我的机器的docker存储目录已经被我修改了,默认的应该是/var/lib/docker官方文档的修改办法是编辑 /etc/docker/daemon.json 文件:vi /etc/docker/daemon.json原创 2022-01-22 12:50:54 · 1251 阅读 · 0 评论 -
hive 安装
https://cwiki.apache.org/confluence/display/Hive/Hive+on+Spark%3A+Getting+StartedSpark InstallationFollow instructions to install Spark:YARN Mode: http://spark.apache.org/docs/latest/running-on-yarn.htmlStandalone Mode: https://spark.apache.org/docs/la原创 2022-01-19 01:04:08 · 1555 阅读 · 0 评论 -
kerberos 安装配置
https://www.jianshu.com/p/e01a01eedd30https://ieevee.com/tech/2016/06/07/kerberos-1.html原创 2022-01-19 01:00:54 · 179 阅读 · 0 评论 -
docker 创建用户组、将用户加入docker用户组
cat /etc/passwd 可以查看所有用户的列表w 可以查看当前活跃的用户列表cat /etc/group 查看用户组在/etc/group 中的每条记录分四个字段:第一字段:用户组名称;第二字段:用户组密码;第三字段:GID第四字段:用户列表,每个用户之间用逗号(,)号分割;本字段可以为空;如果字段为空表示用户组为GID的用户名;Docker daemon 绑定的是 Unix socket,这就导致 docker 需要 root 权限才能使用,但这十分麻烦,因为其他用户原创 2022-01-19 00:04:43 · 4042 阅读 · 0 评论 -
hive 中 json 字符串解析之 get_json_object 与 json_tuple
在技术对app进行埋点时,会讲多个字段存放在一个数组中,因此模型调用数据时,要对埋点数据进行解析,以作进一步的清洗。本文将介绍解析json字符串的两个函数:get_json_object和json_tuple。表结构如下:其中meta 字段数据, 数据表是 test_table{{"a":1,"b":2},{"a":3,"b":4}}get_json_object函数的作用:用来解析j...原创 2019-05-28 00:30:10 · 1586 阅读 · 0 评论 -
[hive]优化策略
Hive对于表的操作大部分都是转换为MR作业的形式,为了提高OLAP[online analysis process 在线分析处理]的效率,Hive自身给出了很多的优化策略。explain[解释执行计划]通过explain命令,可以查看Hive语句的操作情况,是否为慢查询,是否走索引,一目了然explain select sum(...) from table_name;动态分区调...转载 2019-05-26 22:57:17 · 285 阅读 · 0 评论 -
在mac或者linux上面使用Cmake从source编译 grpc
在linuxs上面:$ [sudo] apt-get install build-essential autoconf libtool pkg-config在macos 上面:$ [sudo] xcode-select --install$ brew install autoconf automake libtool shtool$ brew install gflags第二步骤:...原创 2019-04-23 23:45:28 · 1301 阅读 · 0 评论 -
elasticsearch Curl 基本操作
创建文档:curl -X PUT “localhost:9200/website/blog/2” -H ‘Content-Type: application/json’ -d’{“title”: “My first blog entry”,“text”: “Just trying this out…”,“date”: “2014/01/01”}’取回文档:curl -X GE...原创 2019-04-17 23:55:54 · 991 阅读 · 0 评论 -
使用docker 配置elasticsearch和kibana7.0.0
安装elasticsearch运行并且挂载本地的目录,并且后台守护进程(-d)执行docker run -itd --name es -p 9200:9200 -p 9300:9300 -v /Users/wuyongyu/Downloads/elasticsearch/data:/usr/share/elasticsearch/data -v /Users/wuyongyu/Downloa...原创 2019-04-16 23:49:39 · 2441 阅读 · 0 评论 -
pandas对列数据进行处理,将Nan变为0,将str变为0
test.csv文件内容:1,2,1,54 89,56,7,9代码:import pandas as pdimport numpy as npimport redef format(x): value = re.compile(r'^\s*[-+]*[0-9]+\.*[0-9]*\s*$') if value.match(str(x)): #不是数字...原创 2018-04-19 17:54:28 · 14913 阅读 · 0 评论 -
Intellij IEDA: the working directory does not exist
1.首先找到打开设置Run -> Edit Configurations 2.在Working Directory中输入 . 其中. 代表当前路径原创 2018-04-12 16:58:07 · 4388 阅读 · 0 评论 -
HDFS:如何复制文件
hadoop复制文件 hadoop fs -cp /user/merge /user/search 上面的命令将merge文件下面的所有文件(包括merge文件夹)复制到search目录下。原创 2018-04-12 16:54:54 · 13643 阅读 · 0 评论 -
HDFS:如何将文件从HDFS复制到本地
下面两个命令是把文件从HDFS上下载到本地的命令。get使用方法:Hadoop fs -get [-ignorecrc] [-crc]复制文件到本地文件系统。可用-ignorecrc选项复制CRC校验失败的文件。使用-crc选项复制文件以及CRC信息。示例:hadoop fs -get /user/hadoop/file localfilehadoop fs -get hd...转载 2018-04-12 16:52:31 · 9103 阅读 · 0 评论 -
Communication with HDFS: Exception in thread “main” java.io.IOException: Failed on local exception:
MAP-Reduce 的文件写错,key或者value 存在null值。原创 2018-03-28 15:47:50 · 1962 阅读 · 0 评论 -
HADOOP基本操作命令
HADOOP基本操作命令在这篇文章中,我们默认认为Hadoop环境已经由运维人员配置好直接可以使用。假设Hadoop的安装目录HADOOP_HOME为/home/admin/hadoop。启动与关闭 启动HADOOP 1. 进入HADOOP_HOME目录。 2. 执行sh bin/start-all.sh 关闭HADOOP 1. 进入...转载 2018-04-14 12:20:27 · 284 阅读 · 0 评论 -
使用K-S检验一个数列是否服从正态分布、两个数列是否服从相同的分布
假设检验的基本思想: 若对总体的某个假设是真实的,那么不利于或者不能支持这一假设的事件A在一次试验中是几乎不可能发生的。如果事件A真的发生了,则有理由怀疑这一假设的真实性,从而拒绝该假设。实质分析: 假设检验实质上是对原假设是否正确进行检验,因此检验过程中要使原假设得到维护,使之不轻易被拒绝;否定原假设必须有充分的理由。同时,当原假设被接受时,也只能认为否定该假设的根据不充分...转载 2018-03-20 20:27:51 · 3441 阅读 · 0 评论