- 博客(49)
- 资源 (3)
- 收藏
- 关注
原创 Zero to JupyterHub with Kubernetes 下篇 - Jupyterhub on k8s
在k8s集群,使用helm 离线部署jupyterhub服务,实现多用户在线python分析环境搭建。记录jupyterhub k8s资源相关各种配置,解决k8s容器python镜像修改编辑、外网访问问题。
2025-01-03 17:14:52
1351
3
原创 Zero to JupyterHub with Kubernetes中篇 - Kubernetes 常规使用记录
Kubernets介绍、简介、架构与组件。重要资源实战 :Namespace介绍与创建、 Pods介绍与创建销毁、Deployment控制器介绍与实战、pvc 和 pv 容器数据持久化存储、Service服务代理。Helm 部署基本使用
2024-11-27 17:51:17
898
原创 Zero to JupyterHub with Kubernetes上篇 - Kubernetes 离线二进制部署
kubernetes 离线二进制部署
2024-11-27 17:38:40
1055
原创 Jupyterhub 多用户分析平台在线和离线部署(自定义用户认证)
Jupyterhub简介,在线和离线安装部署,设置自定义身份验证器Authenticator,自定义单用户jupyter服务生成器Spawner,配置 jupyterhub_config.py。jupyterhub启动服务登录测试,服务配置域名证书
2024-09-26 14:45:38
3984
4
原创 Jupyter + Pyspark + Yarn 交互式大数据分析
jupyter+pyspark+Yarn 交互式大数据分析, pyspark交互式环境配置,spark在线交互式数据分析
2024-07-12 11:20:49
1265
原创 logging 模块简单使用记录
1、logging 基本架构2、Logger 日志记录器及基础配置2.1 基础配置函数logging.basicConfig()3、Handler 日志处理器 、 Formatter 格式化器和 Filterer 日志过滤器3.1 logging 模块提供的 Handler:[官方网址](https://docs.python.org/2/howto/logging.html#useful-handlers)4、输出python 错误信息 tracebak5、使用配置文件,动态地配置日志记录器、
2024-06-27 16:50:18
1071
1
原创 airflow2.7.3 + celery + redis + mysql 安装部署测试
1.mysql8.0.36 离线安装;2. celery+redis 分布式消息队列 部署测试 ;3. airflow2.7.3 +celeryExecutor 安装测试 ,简单案例调度测试
2024-05-24 11:15:49
1541
2
原创 Celery + redis 异步分布式任务队列安装测试
celery + redis 多节点安装部署,celery任务发布、多机运行原理及结果测试
2024-05-06 14:44:21
1016
原创 时间序列预测各类算法探究上篇
时间序列基本概念、时序数据集、传统时序建模平稳性检验(单位根检验)+ 差分预处理自相关acf(auto-correlation function) 和偏自相关pacf(partial auto-correlation function) 图自相关 和 偏自相关 说明的问题ARIMA模型、机器学习模型LR (线性回归)
2023-11-15 17:19:35
374
原创 CDH集群离线配置python3环境,并安装pyhive、impyla、pyspark
1. CDH集群离线配置python3环境,并安装pyhive、impyla、pyspark。2. 使用远程Jupyterlab 服务,利用pyspark 对千万级数据在线分析
2023-08-22 11:19:49
1159
原创 linux 常用命令总结与shell脚本
linux常用命令总结 如磁盘、端口、系统资源查看问题(free 、df、du、lsblk、lsof)ssh免密登录 cat、head、tail、more、less、sort、sed 内容查看命令 at、crontab 定时任务 > 、>> 、2>$1 重定向shell脚本 read 、echo 输入输出 变量 分支语句 if 、case 循环语句 for、while 函数
2023-03-22 16:28:04
1066
原创 matplotlib与seaborn常用绘图及设置
matplotlib与seaborn常用绘图及设置 3种绘图方式 双系列柱状图 三维图绘制 小提琴图 填充图或面积图 动态图 修改坐标系显隐性及坐标轴位置 中文与负号显示乱码问题seaborn 绘图整体风格、环境 离散变量统计分析 分类散点图、箱型图、小提琴图、点图,柱状图等 FacetGrid catplot=FacetGrid+stripplot histplot、kdeplot joinplot pairplot PairGrid scatterplot lineplot regplot
2023-03-14 09:37:20
507
原创 T检验、F检验、卡方检验、互信息法及机器学习应用
T检验、F检验、卡方检验统计学原理介绍;T检验、F检验、卡方检验案例计算;利用F检验(方差分析)和互信息法进行随机森林数字识别数据集特征筛选;使用卡方分箱进行连续值编码,生成woe编码。
2022-11-10 12:21:07
1910
原创 机器学习总结一:Bagging之决策树、随机森林原理与案例
决策树原理介绍,信息增益,信息增益率,基尼系数等公式和案例计算,随机森林原理,分类案例
2022-10-18 17:51:44
958
原创 hive3.1安装配置与底层表存储原理
基于自建Hadoop集群,单节点配置hive服务,主要用于验证工作中的hsql和hive的底层表架构原理(hive外部表数据在哪,分区表在hadoop是怎么存储的等等)。纸上得来终觉浅,绝知此事要躬行。
2022-08-29 08:58:29
358
原创 Spark-core/SparkSQL 简单使用总结
Spark-core总结 RDD对象特性和RDD常用算子总结(SparkContext对象创建、RDD对象创建、Transformation算子Action 算子分区操作算子 RDD优化缓存 cache与checkpoint RDD共享变量与累加器 共享变量(广播变量与累加器)RDD全局并行度设置;SparkSQL总结 DataFrame构建 DataFrame数据处理代码风格 DataFrame数据清洗API DataFrame注册成表 SparkSQL 数据保存 自定义udf函数 开窗函数 Shuff
2022-08-16 16:13:33
2986
原创 Spark on yarn 环境简单安装配置,python代码提交测试
使用云服务器搭建hadoop集群,hadoop、yarn和spark配置文件设置,spark on yarn 环境搭建,python任务提交测试,spark-submit提交python任务测试,及其spark-submit提交参数详解
2022-07-15 09:35:41
1377
原创 jupyter-lab 添加内核、修改工作目录、多行输出、指定浏览器等常用配置
1、 jupyter-lab 添加不同内核2、 jupyter-lab修改工作目录3、jupyter-lab 多行输出(单个cell)4、jupyter-lab指定默认浏览器5、jupyter-lab 远程访问服务
2022-06-20 23:12:01
1648
原创 Hugging Face 中文预训练模型使用介绍及情感分析项目实战
HuggingFace Transformers库中文预训练语言模型使用介绍,包含pipeline的简单使用,不同Model架构的输出,最后评论数据情感分析项目实践。
2022-05-29 22:36:31
7989
9
原创 基于word2vec+TextCNN 实现中文文本分类
基于word2vec+TextCNN 作文本分类; 文学、体育、女性、校园文本分类数据集,利用jieba库进行分词、去停用词、使用卷积神经网络进行文本分类。模型参数配置# 模
2022-05-25 23:00:53
1907
7
原创 记录python使用pymysql连接mysql数据库,使用impyla、ibis-framework[impala]连接hive\impala(kerberos)数据库(备以后查阅)
记录python使用pymysql连接mysql数据库,使用impyla、ibis-framework[impala]连接hive\impala(kerberos)数据库连接mysql 数据库# @time: 2022/1/21 13:12 # @function : 连接mysql数据库import pymysqlimport pandas as pdclass Mysql_: def __init__(self): self.db = pymy
2022-05-03 17:21:41
2376
原创 基于ResNet残差卷积网络进行验证码图片识别
使用ResNet卷积网络识别验证码图片备注:验证码训练集可以在有验证码网站获取(但前期标注比较恶心),这里使用captcha自动进行验证码图像生成,验证码为4位数字,范围0~4(范围较小方便训练),使用pillow和opencv两种方法进行了图像预处理,使用torch+cpu训练。网络架构图0.1 整体结构0.2 残差单元结构0.3 部分识别结果展示导包from captcha.image import ImageCaptchaimport matplotlib.pyplot
2022-04-24 09:41:18
1358
原创 大数据及其组件通俗理解(组件间发展历程,为什么出现、替代或了什么功能)
大数据及其组件通俗理解(组件间发展历程,为什么出现、替代或了什么功能)最近因工作,需要使用python对接大数据平台做数据清洗、算法模型部署等工作,就花时间好好了解一下“大数据”这个高大上的概念到底是什么?及其各组件间的作用。下面是我读过的一篇非常好的文章(忽略里面特色词汇)阐述大数据组件间的发展历程,对不了解大数据的我很有帮助,有了整个骨架,才好去注入血液填充灵魂。原作者:tracy_668链接:https://www.jianshu.com/p/42fc9941e105来源:简书1、大数据产生
2022-04-14 14:25:29
662
原创 使用循环神经网络训练语言模型(从简单起手、歌词生成器,爬虫+GRU循环网络)
使用循环神经网络训练语言模型(从简单起手、汪峰老师歌词生成器,爬虫+GRU循环网络)第一部分:歌词爬取(本次主要是训练语言模型,百度随便搜的歌词下载网站,编写爬虫脚本自动下载歌词)第二部分:网络构建,歌词生成测试(使用GRU门控循环网络,进行语言模型训练,根据预先给定词,自动向后编写歌词)结果展示: 输入 “生命就” 3个字,自动生成后续歌词: “生命就像找 让我们彼此坦诚 现在或永不 感觉越来越虚无 就像我越来越硬可与你无关 我发现了一些迹象 让我疼痛”第一部分:爬虫impo
2022-04-13 22:23:38
1448
原创 FashionMNIST_CNN with pytorch (accuracy: 97.58%/90.1%)
FashionMNIST_CNN with pytorch (accuracy: 97.58%/90.1%)接上篇,想进行各种CCN经典网络的效果对比,因为个人电脑配置原因失败,不得以科学上网,注册了kaggle进行训练,整体训练分两部分:1 创建CNN网络训练(网络简单,大概后台运行了5h);2 使用后台运行产生的模型,进行测试集预测结果如下:#1 ----------- first/第一步:kaggle后台训练模型 -------------------------import torc
2022-03-25 10:13:57
3078
原创 手工简单复现经典CNN网络测试(LeNet5、AlexNet、VGG16、GoogLeNet、ResNe)
手工简单复现经典CNN网络测试**前言:**突然想把看到的机器视觉的经典网络(LeNet5、AlexNet、VGG16、GoogLeNet、ResNet)手工复现一遍,运气好的可以看到效果时逐渐趋于完美的,但现实是残酷的,这里把遇到的问题和部分结果记录以下(真心认为解决问题的过程就是成长的过程)1、导入相关包import torchvisionfrom torchvision.datasets import FashionMNISTimport torchvision.transforms as
2022-03-01 09:48:45
1364
5
原创 手动创建词向量训练神经网络
一直不太明白词向量怎样产生,搜索生成原理后,自己分别使用word2vector和自建单隐层神经网络进行训练(数据集优美,量少,不用太在意训练效果,主要记录流程)先介绍数据处理与网络架构:1.训练数据集:import torchimport torch.nn as nnfrom torch.nn import CrossEntropyLossfrom torch.optim import SGDimport jiebafrom gensim import corporaimport
2022-02-13 20:00:34
708
原创 验证 CrossEntropyLoss 内部运算过程
验证 CrossEntropyLoss 内部运算过程import torchfrom torch.nn import CrossEntropyLossfrom torch.optim import SGD假设三分类真实值real 和预测值predreal = [0,1,1,2]pred = [[0.7,0.2,0.1],[0.1,0.6,0.3],[0.1,0.6,0.3],[0.2,0.2,0.6]]real = torch.tensor(real)pred = torch.tens
2022-02-09 09:37:45
610
原创 gensim简单使用
详细了解参见这篇,写的很棒https://blog.youkuaiyun.com/imsuhxz/article/details/87337608
2022-01-30 15:41:53
2129
原创 xgboost的predict接口输出问题以及相关参数的探究(evals、evals_result、verbose_eval、pred_leaf、pred_contribs)、利用gbdt进行特征组合
一、一直对xgboost的输出有些疑惑,这里记录一下1.xgboost的predict接口输出问题(参数pred_leaf、pred_contribs)2.训练过程中输出相关参数的探究(evals、evals_result、verbose_eval)3.多分类内部原理探究(不涉及源码)4.利用gbdt进行特征组合问题(gbdt+lr)二、导入验证数据,验证问题针对问题1# 导入数据import xgboostfrom sklearn.datasets import load_iris(多分
2022-01-30 10:54:53
6199
en_core_web_sm-3.2.0-py3-none-any.whl
2021-11-20
nltk_data.zip
2021-11-19
spider_system(源码).rar
2021-09-14
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人