
大数据
文章平均质量分 56
hadoop,spark,数据存储
颹蕭蕭
这个作者很懒,什么都没留下…
展开
-
PostgreSQL使用clickhouse_fdw访问ClickHouse
注意IMPORT SCHEMA会加载clickhouse库名<my_ch_db>下的所有表到postgres的public模式。最终,make install 会把编译好的插件发送到指定位置,直接连接pg加载即可。docker镜像里没有必要的编译工具,make 执行不了。make 过程中陆陆续续提示缺少依赖,按提示安装包即可。大概安装了以下包,仅供参考。可以在pg的外表中查看到。原创 2024-10-25 10:52:26 · 569 阅读 · 0 评论 -
streamlit 实现 flink SQL运行界面
模板文件根据用户输入动态更新任务配置和SQL。原创 2024-10-24 16:38:12 · 353 阅读 · 0 评论 -
pyflink 时序异常检测——PEWMA
EWMA:μt=αμt−1+(1−α)Xt\mu_t = \alpha \mu_{t-1} + (1 - \alpha ) X_tμt=αμt−1+(1−α)XtPEWMA:μt=α(1−βPt)μt−1+(1−α(1−βPt))Xt\mu_t = \alpha (1 - \beta P_t) \mu_{t-1} + (1 - \alpha (1 - \beta P_t)) X_tμt=α(1−βPt)μt−1+(1−α(1−βPt))Xt其核心思想:转 table api原创 2024-10-21 10:03:27 · 1140 阅读 · 0 评论 -
pyflink 时序异常检测——EWMA
EWMA 通过赋予较新的数据更高的权重,能够更好地反映数据的最新变化。其递推公式简单易用,适用于各种时间序列数据的平滑处理。通过调整平滑因子α\alphaα,可以控制平滑的程度,从而适应不同的应用场景。在异常检测中,使用∣Xt−μt∣mσt∣Xt−μt∣mσt的规则可以有效地识别出与当前均值和标准差显著偏离的观测值。通过合理选择平滑因子和倍数因子,可以调整检测的敏感度和准确性,以适应不同的应用场景。原创 2024-10-19 10:32:18 · 1400 阅读 · 0 评论 -
pyflink过滤kafka数据
filter_condition = “name = ‘蒋介石’ and sex = ‘男’”原创 2024-10-11 11:04:54 · 681 阅读 · 0 评论 -
docker overlay 占用空间太大,迁移到 /data/
将 Docker 的overlay存储驱动迁移到/data/原创 2024-10-09 13:38:02 · 688 阅读 · 0 评论 -
docker-compose部署单节点kafka-3.2.0
删除 .lock 文件即可。原创 2024-09-30 14:37:48 · 631 阅读 · 0 评论 -
pyflink 安装和测试
pip 安装后自动会把 flink 也装上就是 flink 可执行文件。原创 2024-09-12 18:54:39 · 992 阅读 · 0 评论 -
docker-compose 部署 flink [支持pyflink]
privileged: true 这行配置启用了 taskmanager 容器的特权模式,使得容器内的进程可以获得几乎与主机上相同的权限。原创 2024-09-12 16:48:26 · 999 阅读 · 0 评论 -
docker 搭建 zookeeper 集群
文章目录下载官方zookeeper镜像搜索官方镜像下载官方镜像查看镜像元数据创建docker网络新建bridge网络创建挂载路径创建容器并加入网络查看节点状态参考文献下载官方zookeeper镜像搜索官方镜像$ docker search zookeeperNAME DESCRIPTION STARS OFFICIAL AUTOMATEDzookeepe原创 2022-04-20 10:24:01 · 2727 阅读 · 0 评论 -
Unable to instantiate org.apache.hadoop.hive.ql.metadata.SessionHiveMetaStoreClient
hive> show databases;FAILED: HiveException java.lang.RuntimeException: Unable to instantiate org.apache.hadoop.hive.ql.metadata.SessionHiveMetaStoreClient原因没有初始化 元数据 数据库,在我这是 derby那就初始化一下root@monkey-VirtualBox:/home/monkey# $HIVE_HOME/bin/schemato原创 2020-08-30 21:33:29 · 1295 阅读 · 0 评论 -
Hive 启动失败,Cannot create directory,Name node is in safe mode
原因:hdfs 刚启动,会进入安全模式,这时文件系统中的内容不允许修改也不允许删除,直到安全模式结束。安全模式主要是为了系统启动的时候检查各个DataNode上数据块的有效性,同时根据策略必要的复制或者删除部分数据块。运行期通过命令也可以进入安全模式。在实践过程中,系统启动的时候去修改和删除文件也会有安全模式不允许修改的出错提示,只需要等待一会儿即可。报错情况:root@monkey-VirtualBox:/home/monkey# hiveSLF4J: Class path contains转载 2020-08-30 21:15:07 · 2499 阅读 · 0 评论 -
大数据/数仓面试灵魂30问(转)
1.什么是数据仓库?如何构建数据仓库?(如果这个问题回答的好,后面很多问题都不需要再问)2.如何建设数据中台?可简单说下理解与思路3.数据仓库、数据中台、数据湖的理解4.传统数仓的程度(建模工具、ETL工具、BI报表工具、调度系统)5.传统数仓和大数据数仓的异同?有哪些大的变化?6.印象最深刻的项目?为什么?亮点与优势?7.数仓最重要的是什么?8.实时数仓做过吗?采用什么架构?lambda有哪些优缺点?9.如何看待kappa架构?iota架构呢?10.责任心?沟通能力?团队协作?数据思维?转载 2020-07-09 14:01:13 · 2279 阅读 · 0 评论 -
学习笔记(3):大数据之Hive-连接查询
立即学习:https://edu.youkuaiyun.com/course/play/8005/164135?utm_source=blogtoedu建表create table customers(id int,name string,age int);insert into customers(id,name,age) values(1,'gxf',23);create table orders(id int,cid int,orderno int,price float);insert into or转载 2020-07-04 19:53:06 · 1384 阅读 · 0 评论 -
学习笔记(1):大数据之Hive-Hive安装配置和简单命令
立即学习:https://edu.youkuaiyun.com/course/play/8005/164128?utm_source=blogtoeduhive 架构1、 web ui、command line等2、 metaStore存放元数据3、 HQL ProcessEngine 把 sql 翻译成 MapReduce,编写 sql 代替 MapReduce 程序4、 Execution Engine 处理查询,生成结果5、 MapReduce 作为计算框架6、 hdfs/hbase 存储数据载体转载 2020-07-04 17:56:04 · 1383 阅读 · 0 评论 -
学习笔记(2):大数据之Hive-基本查询
立即学习: https://edu.youkuaiyun.com/course/play/8005/164134?utm_source=blogtoedu导出数据到目录create table test3 as select id,name from test2 where province='hebei' and city='baoding';--导出hive数据到本地目录(下载)insert overwrite local directory '/home/hadoop/hive' select * f转载 2020-07-04 17:50:55 · 1346 阅读 · 0 评论 -
HIVE SQL 实操
文章目录基本操作建表描述表,查看schema从文件导入数据hive 中执行 shell 命令hive 中执行 hdfs 命令拷贝表内部表和外部表内部表外部表分区表建表描述分区表载入数据到指定分区查询数据查看 hdfs分区表的查询模式: strict/nostrict查看有哪些分区增加分区修改表名移动分区的存储位置复制表基本操作建表show databases;show tables;create database mydb;create table if not exists mydb.原创 2020-07-04 11:55:21 · 1787 阅读 · 0 评论 -
hadoop 重启失败?暴力解决
暴力重启 hadoopstop-all.shrm -r /data/hadoop/tmprm -r /data/hadoop/hdfs/namerm -r /data/hadoop/hdfs/datamkdir /data/hadoop/tmpmkdir /data/hadoop/hdfs/namemkdir /data/hadoop/hdfs/datassh root@h02...原创 2020-04-07 23:13:31 · 1549 阅读 · 0 评论 -
Hive 安装
文章目录下载 hive:解压环境变量查看版本配置 hivehadoop下载 hive:wget http://archive.apache.org/dist/hive/hive-2.1.1/apache-hive-2.1.1-bin.tar.gz解压tar -xzvf apache-hive-2.1.1-bin.tar.gzmv apache-hive-2.1.1-bin hivemv hive /usr/local/环境变量vi /etc/profileexport HIVE_H原创 2020-07-03 22:05:41 · 1458 阅读 · 0 评论 -
spark学习 —— 键值对操作
文章目录创建键值对RDD键值对RDD上的变换单个RDD上的变换两个RDD间的变换wordcount创建键值对RDDmap>>> lines = sc.textFile("/input/README.md")>>> lines.count()104>>> pairs = lines.map(lambda x: (x.split("...原创 2020-04-13 21:07:59 · 1358 阅读 · 0 评论 -
spark学习 —— RDD入门
文章目录helloworld一、创建 RDD二、RDD 操作1. 变换filtermapflatmap2. 动作三、自定义函数注意helloworld把文件传入 hdfs$ hadoop fs -ls /$ hadoop fs -mkdir /input$ hadoop fs -put /usr/local/spark-2.4.5/README.md /input2020-04-10 ...原创 2020-04-11 00:24:05 · 1377 阅读 · 0 评论 -
hadoop 集群中安装 spark 2.4
文章目录安装 hadoop 集群下载 spark添加环境变量修改配置文件1. spark-env.sh2. slaves配置其它节点启动 spark 集群测试安装 hadoop 集群参见:ubuntu 基于 docker 搭建 hadoop 3.2 集群下载 spark镜像地址:http://mirrors.hust.edu.cn/apache/spark/wget http://mir...原创 2020-04-08 09:24:35 · 1524 阅读 · 0 评论 -
hadoop 集群中安装 hbase 2.2
文章目录安装 hadoop 集群下载 hbase修改 hbase 配置文件1. hbase-env.sh2. hbase-site.xml3. regionservers配置其它节点拷贝 hbase远程执行脚本启动 hbase安装 hadoop 集群参见:ubuntu 基于 docker 搭建 hadoop 3.2 集群下载 hbase镜像地址: http://mirrors.hust.e...原创 2020-04-07 23:47:55 · 1651 阅读 · 5 评论 -
ubuntu 基于 docker 搭建 hadoop 3.2 集群【成功】
使用docker搭建hadoop集群原创 2020-04-07 20:39:49 · 3445 阅读 · 2 评论 -
docker 中安装 java
下载 ubuntu 镜像$ docker pull ubuntu:18.0418.04: Pulling from library/ubuntu5bed26d33875: Pull complete f11b29a9c730: Pull complete 930bda195c84: Pull complete 78bf9a5ad49e: Pull complete Digest: ...原创 2020-04-06 23:51:23 · 3464 阅读 · 0 评论 -
ubuntu 18.04 安装 docker
上官网一查:https://docs.docker.com/install/linux/docker-ce/ubuntu/原创 2020-04-06 19:46:25 · 2154 阅读 · 0 评论 -
spark 推荐系统实战
文章目录问题背景推荐算法:交替最小二乘推荐算法矩阵分解模型交替最小二乘法问题背景音乐推荐系统 Audioscrobbler 提供了一个公开的数据集,该数据集记录了听众播放过哪些艺术家的歌曲。last.fm 公司使用这些音乐播放记录构建了一个强大的音乐推荐引擎。这个推荐引擎系统覆盖了数百万的用户。Audioscrobbler 数据集只记录了播放数据,如“Bob 播放了一首 Prince 的歌曲...原创 2020-04-06 16:53:50 · 1572 阅读 · 1 评论