自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

积跬步,慕至千里的博客

想,都是问题;做,才有答案!

  • 博客(284)
  • 资源 (4)
  • 收藏
  • 关注

原创 pyspark 数据处理的三种方式RDD、DataFrame、Spark SQL案例

上一篇对pyspark的一些常用函数做了梳理,这篇主要是针对RDD、DataFrame、SparkSql三种实现同一功能需要的方式做一梳理,通过实际动手,体会不同方式在数据处理过程中的差异性、便利性。

2025-03-10 19:15:00 1318

原创 pyspark RDD相关常用函数使用案例

虽然让大模型生成了现成的代码,但自己看不动其处理方式终归不是走捷径之道。一个字母一个字母的敲击、运行、输出、报错、调试,现在虽然各种AI大模型层出不穷的展现着其强大的智能水平,紧跟时代的同时,也需要脚踏实地,对一些基础信息进行了解和掌握.

2025-03-10 19:00:00 883

原创 机器学习中过拟合和欠拟合问题处理方法总结

实际操作中,可能受制于业务场景、数据质量等多方面限制,具体采用何种方式防止过拟合、欠拟合问题,可以根据模型评估的结果来进一步分析。

2025-02-10 11:47:44 1003

原创 如何使用满血版的deepseek(避免卡顿的使用方法)

最近deepseek十分火爆,但使用过程中,你是不是和我一样常常碰到如下图所示的问题,并且响应还十分缓慢。基于上述描述的问题,为了体验满血版的deepseek,因此将使用满血版的deepseek的方法总结如下。解决deepseek卡顿的问题,只需要三步。记得填写邀请码:g3ic2DNa)

2025-02-10 07:30:00 5231

原创 机器学习模型常用模型评价指标总结

对于机器学习模型,评价模型的好坏是十分重要的一环,不同的任务对应的评估指标也有所差异,以更好的评价和比较模型的优劣。诸如分类(classification)、回归(regression)、排序(ranking)、聚类(clustering)、主题模型(topic modeling)等。本文则对不同场景的评估指标进行总结梳理

2025-02-07 07:30:00 772

原创 书籍《新能源汽车动力电池安全管理算法设计》和《动力电池管理系统核心算法》脑图笔记

随着一步步的学习,发现数据所提及的算法,对于基于国标32960的车辆数据来说,整体实用性不是很好,所以,部分章节的笔记也就开始了忽略了潦草。当然,作为对动力电池相关基础知识的了解读物的话,两本书还是不妨拜读一下,对于不感兴趣或者不适用的章节部分,可以根据当下所需选择性略读或跳过。如今身处新能源动力电池行业,欲对动力电池相关算法做一些了解,通过查找相关电子书app,最后找到了这两本书:《新能源汽车动力电池安全管理算法设计》、《动力电池管理系统核心算法》,sui开始阅读,并对书中相关知识点进行了梳理。

2025-02-06 18:12:03 506

原创 Windows环境本地配置pyspark环境详细教程

如何在windows环境本地配置pyspark环境,本文将过程进行了详细梳理和记录。

2025-01-17 08:00:00 2321 8

原创 pyspark连接clickhouse数据库的方式(其它数据库同样适用)

如何用pyspark连接clickhouse,本文通过测试,给出了示例案例。本文的连接方式,同样可以衍生适用于mysql、oracle等数据库。

2025-01-17 07:45:00 730

原创 numpy和panda在数据统计时的注意事项

numpy和panda在数据统计时的注意事项。

2024-12-13 15:33:35 204

原创 01《Python数据分析》数据分析初探章节总结

数据分析就是:用适当的统计分析方法对收集来的大量数据进行分析,提取有用信息和形成结论,对数据加以详细研究和概括总结的过程。

2024-12-13 15:32:55 1041

原创 在win10系统安装fbprophet模块操作方式

prophet模型运行,win10环境中配置环境方式总结。

2024-11-29 17:35:22 538

原创 Prophet时间序列算法总结及python实现案例

Prophet算法总结、使用注意事项及python实现案例

2024-11-29 16:44:16 1146

原创 使用 pyecharts 渲染成图片程序报错: echarts is not defined问题处理

之前写的使用来保存pyeacharts渲染成的网页截图,可以正常运行。,来来回回试了一些方式,包括卸载重装相关模块或者替换模块,均没解决问题。由于之前好使的snapshot_selenium 方式开始报错,另两个模块也不能用了。

2024-07-04 19:00:00 665

原创 python:大文件分批/块导入数据库方式记录

对于数据文件比较大的数据,一次性串联sql进行入库,往往会受到数据库本身对sql长度的限制,从而需要分块或者分批次,将大数据文件一点一点的进行入库。特针对这种入库方式,进行一个简单记录,各类数据库入库后续均可参考下述实现分块的方式,进行分批入库数据。问题点其实主要是如何对数据进行分块。,从而实现分批入库。

2024-05-23 17:32:38 724

原创 14-pyspark的DataFrame使用总结

PySpark实战笔记系列第五篇:DataFrame使用总结

2024-04-11 20:02:52 1015

原创 13-pyspark的共享变量用法总结

PySpark实战笔记系列第四篇:共享变量用法总结

2024-04-09 20:12:35 983

原创 12-pyspark的RDD算子注意事项总结

pyspark入门学习笔记第三篇:RDD算子注意事项总结

2024-04-08 20:00:00 1374 2

原创 11-pyspark的RDD的变换与动作算子总结

pyspark入门学习笔记第二篇:RDD的变换与动作算子总结

2024-04-06 23:04:54 1447 2

原创 10-用PySpark建立第一个Spark RDD

pyspark入门学习笔记第一篇

2024-04-05 10:21:12 1555

原创 clickhouse常用函数总结

formatDateTime(def_datetime, '%y') AS def_datetime_year_litter, -- 19(指定日期为19年,Year, last two digits (00-99),本世纪的第19年)formatDateTime(def_datetime, '%M') AS def_datetime_get_minute,-- 20(得到指定事件的“分”,minute (00-59))-- 30(得到指定事件的“秒”,second (00-59))

2024-04-03 18:06:46 2341

原创 pyecharts画图结果存为图片

通过pyecharts绘制的图像,我们尝尝保存在html文件中,以保持其原有的良好的交互性。但当我们在word或者ppt中使用时,保存为图片的形式,则是我们最想要的方式。针对此问题,通过查找相关实现方式,总结其渲染的html文件保存图片方式。在 Python 中,模块pyecharts模块中存在make_snapshot函数,其作用是生成静态图像快照,能够将 pyecharts 生成的图表保存为图片文件。

2023-11-21 20:09:48 2988

原创 仪表盘:pyecharts绘制

利用pyecharts绘制仪表盘

2023-11-21 19:59:05 583

原创 【案例卡】clickhouse:多行数据拼接在一行

groupArray 是 ClickHouse 提供的一种聚合函数,用于在 GROUP BY查询中将行组的某个列的值组合成一个数组。groupArray 函数在分析数据时非常有用,它可以将行组中的数据合并成数组形式,方便后续的处理和分析。

2023-11-07 16:43:13 5207

原创 【总结卡】clickhouse数据库常用高级函数

clickhouse常用高级函数总结

2023-11-07 10:07:05 2541

原创 01 Excel常用高频快捷键汇总

Excel软件是我们工作学习必备的工具之一,作为如此高频使用的一个工具,如果能够掌握其中一些常用的快捷方式,将对轻易提升我们的工作效率,事半功倍,快捷工具的熟练使用,使我们达成所愿的捷径之一,也是相对来说,学习投入最少却最易获益的一种方式。基于此,本文对常用的一些高频快捷键进行了汇总和介绍,以期帮助到有需要的人。

2023-07-26 15:26:51 1854

原创 案例卡:pandas数据框(DataFrame)转换为嵌套列表的两种常见方法

DataFrame转换为嵌套列表的两种实现方式。

2023-03-07 22:04:44 2238

原创 python自动发送邮件实现

使用python来实现自动发送邮件的功能,本质上也是模拟我们实操的这一过程。用python来实现邮件的定期发送,可以极大的节省人工成本。

2023-02-11 22:16:37 5760 1

原创 python正确读取文件路径的三种解决方法

日常用程序读取文件数据等时,常常会显示一些诸如文件路径不存在等错误信息。常用解决的三种方法。

2023-01-30 11:05:21 11265

原创 2022阅读数据分析报告

2022,不安的一年,阅读小记,回顾之余,思未来,从零出发,磨砺以须,保持阅读,坚持小事!

2023-01-03 22:11:33 792

原创 二、postgre数据库SQL优化:查看执行计划

sql优化是一项必备技能,为了优化sql任务,则需要明确需要优化的内容。除了经验之外,可以借助工具,查看sql执行过程中的耗时环节,从而针对性的进行优化,本文即为对执行计划的一些基本信息进行了总结学习。

2022-11-03 22:30:00 6509

原创 一、postgre数据库SQL优化:相关视图介绍

关于sql优化,面试或工作中,都是高频遇到的问题。本文对优化的思考的和相关优化参考用的视图信息进行了整理介绍。

2022-10-24 22:00:00 2639 1

原创 关于手动回车换行操作引起的问题处理方式

这次事件的起因是在数据库中配置一些shell脚本,方便部署在服务器上的脚本的运行。过程中,在数据库中配置的shell脚本存在一个换行操作,常见的操作自然是直接回车操作了,没想到,也正是因为这种操作,导致配置的shell脚本,无法在服务器上正常运行。总是报一些语法错误,但肉眼看脚本,怎么看也看不出毛病。,我则是选择了另一种方式,在notepad++中将 ‘\r’ ,'\n’均进行了字符串替换,进而在数据库中更新对应的配置信息。原来,这一切的起因都是因为linux不支持诸如’\r’等,它会当作一个字符处理。

2022-09-16 17:19:50 507

原创 【模型篇】01 记点脑子里还残存的关于模型分类的三种方式

从不同的角度出发,观察同一模型,会让我们对同一个模型,有更多的了解,更深刻的体会。

2022-09-02 16:33:06 837

原创 【商分篇】02 数据指标及指标体系,商业分析的起跑线

简述数据指标及指标体系的概要信息,为后续进一步学习商业分析做准备和铺垫。

2022-08-18 15:45:14 638 1

原创 【商分篇】01 我开始了解商业数据分析了

简述什么是商业分析,怎么定义和描述一个完整的数据指标。

2022-07-28 16:53:57 1240

原创 《变量:大国的腾挪》摘记

不管几岁,童心万岁。

2022-06-02 19:43:54 557 1

原创 《阅读的方法》做一点小努力

“做一点小努力,对自己很满意”。点滴的改变,积跬步,至千里。

2022-05-29 21:11:44 561

原创 《用图表说话》脑图笔记

字不如表,表不如图,图不如自媒体。图表可视化,也是可以有迹可循的。

2022-05-16 08:00:00 716

原创 《数据中台:让数据用起来》前四章笔记

目录1.数据中台的3个核心认知2.数据中台必备的4个核心能力3.大数据平台与数据中台的区别4.数据中台建设方法论1.数据中台的3个核心认知数据中台1需要提升到企业下一代基础设施的高度,进行规模化投入。数据中台的目标是提供普惠数据服务,在“互联网+”行动计划和“智能+”的推动下,数字产业化和产业数字化成为数字经济的两大基础。数据中台需要全新的数据价值观和方法论,并在其指引下形成平台级能力数据中台围绕业务、数据、分析会衍生出全新人才素养要求,需要尽快启动人才储备2.数据中台必备的4个核心能力

2022-05-13 21:00:00 399

原创 《吴军阅读与写作讲义》笔记

目录1 前言2 脑图笔记2.1 序章2.2 如何阅读与写作2.2.1 阅读的意义:理解他人2.2.2 写作的核心:表达自己2.2.3 日常实用写作2.2.4 听和说的艺术2.3 部分语录摘记3 小感1 前言      如若时光可倒流,这种书搁在自己眼前可能也不一定会打开瞅一眼吧。大概是五六年前的某一个瞬间,自己突然开始看一些所谓的课外书,也差不多大概从那时候起,习惯虽然坚持的不太好,但每年学业相关也好,学业无关也罢,都开始涉猎,粗略统计每年2

2022-05-12 20:00:00 1840

windows-pyspark环境安装包

博文《Windows环境本地配置pyspark环境详细教程》提到的所有软件安装包

2025-01-16

聚类性能度量.png

对常见的聚类性能的度量标准进行了梳理,总结了优缺点、对应的python实现方式,通过表格化的形式,方便展现不同度量标准之间的差异,。

2020-11-06

复工复产日报数据原始数据集 .zip

复工复产情况日报样例数据集,对应个人博客《复工复产日报数据整理处理脚本个人备份版(:https://blog.youkuaiyun.com/weixin_42521211/article/details/109271145 )的代码完整原始数据样例

2020-10-25

《python常见图形代码可视化大全整理(包括动图)更新中... 》提及的部分数据

个人博文:https://blog.youkuaiyun.com/weixin_42521211/article/details/105711518#comments_13282630 提及的一个数据表,供学习参考

2020-09-28

北京市投资与GDP数据

对应博客: https://blog.youkuaiyun.com/weixin_42521211/article/details/105769520?utm_medium=distribute.pc_aggpage_search_result.none-task-blog-2~all~sobaiduend~default-3-105769520.nonecase&utm_term=%E5%9B%9E%E5%BD%92%E7%B3%BB%E6%95%B0%E7%9A%84%E6%98%BE%E8%91%97%E6%80%A7%E6%A3%80%E9%AA%8C%E6%AD%A5%E9%AA%A4 的数据

2020-09-16

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除