
大数据
文章平均质量分 88
yunpeng.zhou
纸上得来终觉浅,绝知此事要躬身。
展开
-
Jupyterhub 多用户分析平台在线和离线部署(自定义用户认证)
Jupyterhub简介,在线和离线安装部署,设置自定义身份验证器Authenticator,自定义单用户jupyter服务生成器Spawner,配置 jupyterhub_config.py。jupyterhub启动服务登录测试,服务配置域名证书原创 2024-09-26 14:45:38 · 4311 阅读 · 0 评论 -
Jupyter + Pyspark + Yarn 交互式大数据分析
jupyter+pyspark+Yarn 交互式大数据分析, pyspark交互式环境配置,spark在线交互式数据分析原创 2024-07-12 11:20:49 · 1294 阅读 · 0 评论 -
airflow2.7.3 + celery + redis + mysql 安装部署测试
1.mysql8.0.36 离线安装;2. celery+redis 分布式消息队列 部署测试 ;3. airflow2.7.3 +celeryExecutor 安装测试 ,简单案例调度测试原创 2024-05-24 11:15:49 · 1572 阅读 · 1 评论 -
Celery + redis 异步分布式任务队列安装测试
celery + redis 多节点安装部署,celery任务发布、多机运行原理及结果测试原创 2024-05-06 14:44:21 · 1059 阅读 · 0 评论 -
CDH集群离线配置python3环境,并安装pyhive、impyla、pyspark
1. CDH集群离线配置python3环境,并安装pyhive、impyla、pyspark。2. 使用远程Jupyterlab 服务,利用pyspark 对千万级数据在线分析原创 2023-08-22 11:19:49 · 1175 阅读 · 0 评论 -
hive3.1安装配置与底层表存储原理
基于自建Hadoop集群,单节点配置hive服务,主要用于验证工作中的hsql和hive的底层表架构原理(hive外部表数据在哪,分区表在hadoop是怎么存储的等等)。纸上得来终觉浅,绝知此事要躬行。原创 2022-08-29 08:58:29 · 366 阅读 · 0 评论 -
Spark-core/SparkSQL 简单使用总结
Spark-core总结 RDD对象特性和RDD常用算子总结(SparkContext对象创建、RDD对象创建、Transformation算子Action 算子分区操作算子 RDD优化缓存 cache与checkpoint RDD共享变量与累加器 共享变量(广播变量与累加器)RDD全局并行度设置;SparkSQL总结 DataFrame构建 DataFrame数据处理代码风格 DataFrame数据清洗API DataFrame注册成表 SparkSQL 数据保存 自定义udf函数 开窗函数 Shuff原创 2022-08-16 16:13:33 · 3024 阅读 · 0 评论 -
Spark on yarn 环境简单安装配置,python代码提交测试
使用云服务器搭建hadoop集群,hadoop、yarn和spark配置文件设置,spark on yarn 环境搭建,python任务提交测试,spark-submit提交python任务测试,及其spark-submit提交参数详解原创 2022-07-15 09:35:41 · 1395 阅读 · 0 评论 -
记录python使用pymysql连接mysql数据库,使用impyla、ibis-framework[impala]连接hive\impala(kerberos)数据库(备以后查阅)
记录python使用pymysql连接mysql数据库,使用impyla、ibis-framework[impala]连接hive\impala(kerberos)数据库连接mysql 数据库# @time: 2022/1/21 13:12 # @function : 连接mysql数据库import pymysqlimport pandas as pdclass Mysql_: def __init__(self): self.db = pymy原创 2022-05-03 17:21:41 · 2383 阅读 · 0 评论 -
大数据及其组件通俗理解(组件间发展历程,为什么出现、替代或了什么功能)
大数据及其组件通俗理解(组件间发展历程,为什么出现、替代或了什么功能)最近因工作,需要使用python对接大数据平台做数据清洗、算法模型部署等工作,就花时间好好了解一下“大数据”这个高大上的概念到底是什么?及其各组件间的作用。下面是我读过的一篇非常好的文章(忽略里面特色词汇)阐述大数据组件间的发展历程,对不了解大数据的我很有帮助,有了整个骨架,才好去注入血液填充灵魂。原作者:tracy_668链接:https://www.jianshu.com/p/42fc9941e105来源:简书1、大数据产生原创 2022-04-14 14:25:29 · 671 阅读 · 0 评论