
数据分析
文章平均质量分 78
yunpeng.zhou
纸上得来终觉浅,绝知此事要躬身。
展开
-
Zero to JupyterHub with Kubernetes 下篇 - Jupyterhub on k8s
在k8s集群,使用helm 离线部署jupyterhub服务,实现多用户在线python分析环境搭建。记录jupyterhub k8s资源相关各种配置,解决k8s容器python镜像修改编辑、外网访问问题。原创 2025-01-03 17:14:52 · 1424 阅读 · 0 评论 -
Jupyterhub 多用户分析平台在线和离线部署(自定义用户认证)
Jupyterhub简介,在线和离线安装部署,设置自定义身份验证器Authenticator,自定义单用户jupyter服务生成器Spawner,配置 jupyterhub_config.py。jupyterhub启动服务登录测试,服务配置域名证书原创 2024-09-26 14:45:38 · 4311 阅读 · 0 评论 -
Jupyter + Pyspark + Yarn 交互式大数据分析
jupyter+pyspark+Yarn 交互式大数据分析, pyspark交互式环境配置,spark在线交互式数据分析原创 2024-07-12 11:20:49 · 1294 阅读 · 0 评论 -
CDH集群离线配置python3环境,并安装pyhive、impyla、pyspark
1. CDH集群离线配置python3环境,并安装pyhive、impyla、pyspark。2. 使用远程Jupyterlab 服务,利用pyspark 对千万级数据在线分析原创 2023-08-22 11:19:49 · 1175 阅读 · 0 评论 -
matplotlib与seaborn常用绘图及设置
matplotlib与seaborn常用绘图及设置 3种绘图方式 双系列柱状图 三维图绘制 小提琴图 填充图或面积图 动态图 修改坐标系显隐性及坐标轴位置 中文与负号显示乱码问题seaborn 绘图整体风格、环境 离散变量统计分析 分类散点图、箱型图、小提琴图、点图,柱状图等 FacetGrid catplot=FacetGrid+stripplot histplot、kdeplot joinplot pairplot PairGrid scatterplot lineplot regplot原创 2023-03-14 09:37:20 · 542 阅读 · 0 评论 -
Spark-core/SparkSQL 简单使用总结
Spark-core总结 RDD对象特性和RDD常用算子总结(SparkContext对象创建、RDD对象创建、Transformation算子Action 算子分区操作算子 RDD优化缓存 cache与checkpoint RDD共享变量与累加器 共享变量(广播变量与累加器)RDD全局并行度设置;SparkSQL总结 DataFrame构建 DataFrame数据处理代码风格 DataFrame数据清洗API DataFrame注册成表 SparkSQL 数据保存 自定义udf函数 开窗函数 Shuff原创 2022-08-16 16:13:33 · 3024 阅读 · 0 评论 -
jupyter-lab 添加内核、修改工作目录、多行输出、指定浏览器等常用配置
1、 jupyter-lab 添加不同内核2、 jupyter-lab修改工作目录3、jupyter-lab 多行输出(单个cell)4、jupyter-lab指定默认浏览器5、jupyter-lab 远程访问服务原创 2022-06-20 23:12:01 · 1672 阅读 · 0 评论 -
基于python 利用pyecharts作图,实现图表随数据变化实时更新
基于python 利用pyecharts作图,实现图表随数据变化实时更新利用vue和echarts可以设置定时获取数据渲染页面,但pyecharts做的图在前端页面上为JS中的一个对象数据,(利用Python搭建服务器定时返回新作的图表太麻烦目前不想这样做),那位大神有好办法不妨告知。。。目前采用定时修改pyecharts图表对象的属性值,在渲染页面:代码如下<!-- 初始化echarts图表 --> var chart_65e195a41f494479b5c980b2原创 2021-08-28 22:37:13 · 4513 阅读 · 0 评论 -
pandas 行列转换
HSql 行列转换(collect_list/set, lateral view + explode/posexplode)pandas 行列转换1、一个array字段纵向扩展(多行) explode(col)2、一个array字段横向扩展(多列) .str.split(,expand=True)3、行转列(某些字段值转换为表头) pd.pivot4、列转行(部分列名转换位一列数据值)pd.melt5、多列合并两列(列合并)pd.lreshape原创 2021-08-28 22:35:39 · 5719 阅读 · 0 评论 -
python岗位数据分析报告
python岗位数据分析报告数据集为针对智联,boss,拉勾三个招聘网站的爬取,爬取关键字段:语言为python,java,c;城市为 北上广深郑杭;数据分类保存在 ‘’python招聘数据.xlsx‘’ 表格中研究问题 :一. python相关岗位(数据分析,数据挖掘,开发工程师)地区(北京地区内)分布(1) 数据处理# 导入模块import pandas as pd# 读取数据full_data = pd.read_excel('python招聘数据.xlsx',sheet_name原创 2021-08-28 22:33:29 · 3237 阅读 · 1 评论