- 博客(284)
- 资源 (4)
- 收藏
- 关注
原创 pyspark 数据处理的三种方式RDD、DataFrame、Spark SQL案例
上一篇对pyspark的一些常用函数做了梳理,这篇主要是针对RDD、DataFrame、SparkSql三种实现同一功能需要的方式做一梳理,通过实际动手,体会不同方式在数据处理过程中的差异性、便利性。
2025-03-10 19:15:00
1318
原创 pyspark RDD相关常用函数使用案例
虽然让大模型生成了现成的代码,但自己看不动其处理方式终归不是走捷径之道。一个字母一个字母的敲击、运行、输出、报错、调试,现在虽然各种AI大模型层出不穷的展现着其强大的智能水平,紧跟时代的同时,也需要脚踏实地,对一些基础信息进行了解和掌握.
2025-03-10 19:00:00
883
原创 机器学习中过拟合和欠拟合问题处理方法总结
实际操作中,可能受制于业务场景、数据质量等多方面限制,具体采用何种方式防止过拟合、欠拟合问题,可以根据模型评估的结果来进一步分析。
2025-02-10 11:47:44
1003
原创 如何使用满血版的deepseek(避免卡顿的使用方法)
最近deepseek十分火爆,但使用过程中,你是不是和我一样常常碰到如下图所示的问题,并且响应还十分缓慢。基于上述描述的问题,为了体验满血版的deepseek,因此将使用满血版的deepseek的方法总结如下。解决deepseek卡顿的问题,只需要三步。记得填写邀请码:g3ic2DNa)
2025-02-10 07:30:00
5231
原创 机器学习模型常用模型评价指标总结
对于机器学习模型,评价模型的好坏是十分重要的一环,不同的任务对应的评估指标也有所差异,以更好的评价和比较模型的优劣。诸如分类(classification)、回归(regression)、排序(ranking)、聚类(clustering)、主题模型(topic modeling)等。本文则对不同场景的评估指标进行总结梳理
2025-02-07 07:30:00
772
原创 书籍《新能源汽车动力电池安全管理算法设计》和《动力电池管理系统核心算法》脑图笔记
随着一步步的学习,发现数据所提及的算法,对于基于国标32960的车辆数据来说,整体实用性不是很好,所以,部分章节的笔记也就开始了忽略了潦草。当然,作为对动力电池相关基础知识的了解读物的话,两本书还是不妨拜读一下,对于不感兴趣或者不适用的章节部分,可以根据当下所需选择性略读或跳过。如今身处新能源动力电池行业,欲对动力电池相关算法做一些了解,通过查找相关电子书app,最后找到了这两本书:《新能源汽车动力电池安全管理算法设计》、《动力电池管理系统核心算法》,sui开始阅读,并对书中相关知识点进行了梳理。
2025-02-06 18:12:03
506
原创 pyspark连接clickhouse数据库的方式(其它数据库同样适用)
如何用pyspark连接clickhouse,本文通过测试,给出了示例案例。本文的连接方式,同样可以衍生适用于mysql、oracle等数据库。
2025-01-17 07:45:00
730
原创 01《Python数据分析》数据分析初探章节总结
数据分析就是:用适当的统计分析方法对收集来的大量数据进行分析,提取有用信息和形成结论,对数据加以详细研究和概括总结的过程。
2024-12-13 15:32:55
1041
原创 使用 pyecharts 渲染成图片程序报错: echarts is not defined问题处理
之前写的使用来保存pyeacharts渲染成的网页截图,可以正常运行。,来来回回试了一些方式,包括卸载重装相关模块或者替换模块,均没解决问题。由于之前好使的snapshot_selenium 方式开始报错,另两个模块也不能用了。
2024-07-04 19:00:00
665
原创 python:大文件分批/块导入数据库方式记录
对于数据文件比较大的数据,一次性串联sql进行入库,往往会受到数据库本身对sql长度的限制,从而需要分块或者分批次,将大数据文件一点一点的进行入库。特针对这种入库方式,进行一个简单记录,各类数据库入库后续均可参考下述实现分块的方式,进行分批入库数据。问题点其实主要是如何对数据进行分块。,从而实现分批入库。
2024-05-23 17:32:38
724
原创 clickhouse常用函数总结
formatDateTime(def_datetime, '%y') AS def_datetime_year_litter, -- 19(指定日期为19年,Year, last two digits (00-99),本世纪的第19年)formatDateTime(def_datetime, '%M') AS def_datetime_get_minute,-- 20(得到指定事件的“分”,minute (00-59))-- 30(得到指定事件的“秒”,second (00-59))
2024-04-03 18:06:46
2341
原创 pyecharts画图结果存为图片
通过pyecharts绘制的图像,我们尝尝保存在html文件中,以保持其原有的良好的交互性。但当我们在word或者ppt中使用时,保存为图片的形式,则是我们最想要的方式。针对此问题,通过查找相关实现方式,总结其渲染的html文件保存图片方式。在 Python 中,模块pyecharts模块中存在make_snapshot函数,其作用是生成静态图像快照,能够将 pyecharts 生成的图表保存为图片文件。
2023-11-21 20:09:48
2988
原创 【案例卡】clickhouse:多行数据拼接在一行
groupArray 是 ClickHouse 提供的一种聚合函数,用于在 GROUP BY查询中将行组的某个列的值组合成一个数组。groupArray 函数在分析数据时非常有用,它可以将行组中的数据合并成数组形式,方便后续的处理和分析。
2023-11-07 16:43:13
5207
原创 01 Excel常用高频快捷键汇总
Excel软件是我们工作学习必备的工具之一,作为如此高频使用的一个工具,如果能够掌握其中一些常用的快捷方式,将对轻易提升我们的工作效率,事半功倍,快捷工具的熟练使用,使我们达成所愿的捷径之一,也是相对来说,学习投入最少却最易获益的一种方式。基于此,本文对常用的一些高频快捷键进行了汇总和介绍,以期帮助到有需要的人。
2023-07-26 15:26:51
1854
原创 python自动发送邮件实现
使用python来实现自动发送邮件的功能,本质上也是模拟我们实操的这一过程。用python来实现邮件的定期发送,可以极大的节省人工成本。
2023-02-11 22:16:37
5760
1
原创 二、postgre数据库SQL优化:查看执行计划
sql优化是一项必备技能,为了优化sql任务,则需要明确需要优化的内容。除了经验之外,可以借助工具,查看sql执行过程中的耗时环节,从而针对性的进行优化,本文即为对执行计划的一些基本信息进行了总结学习。
2022-11-03 22:30:00
6509
原创 一、postgre数据库SQL优化:相关视图介绍
关于sql优化,面试或工作中,都是高频遇到的问题。本文对优化的思考的和相关优化参考用的视图信息进行了整理介绍。
2022-10-24 22:00:00
2639
1
原创 关于手动回车换行操作引起的问题处理方式
这次事件的起因是在数据库中配置一些shell脚本,方便部署在服务器上的脚本的运行。过程中,在数据库中配置的shell脚本存在一个换行操作,常见的操作自然是直接回车操作了,没想到,也正是因为这种操作,导致配置的shell脚本,无法在服务器上正常运行。总是报一些语法错误,但肉眼看脚本,怎么看也看不出毛病。,我则是选择了另一种方式,在notepad++中将 ‘\r’ ,'\n’均进行了字符串替换,进而在数据库中更新对应的配置信息。原来,这一切的起因都是因为linux不支持诸如’\r’等,它会当作一个字符处理。
2022-09-16 17:19:50
507
原创 《数据中台:让数据用起来》前四章笔记
目录1.数据中台的3个核心认知2.数据中台必备的4个核心能力3.大数据平台与数据中台的区别4.数据中台建设方法论1.数据中台的3个核心认知数据中台1需要提升到企业下一代基础设施的高度,进行规模化投入。数据中台的目标是提供普惠数据服务,在“互联网+”行动计划和“智能+”的推动下,数字产业化和产业数字化成为数字经济的两大基础。数据中台需要全新的数据价值观和方法论,并在其指引下形成平台级能力数据中台围绕业务、数据、分析会衍生出全新人才素养要求,需要尽快启动人才储备2.数据中台必备的4个核心能力
2022-05-13 21:00:00
399
原创 《吴军阅读与写作讲义》笔记
目录1 前言2 脑图笔记2.1 序章2.2 如何阅读与写作2.2.1 阅读的意义:理解他人2.2.2 写作的核心:表达自己2.2.3 日常实用写作2.2.4 听和说的艺术2.3 部分语录摘记3 小感1 前言 如若时光可倒流,这种书搁在自己眼前可能也不一定会打开瞅一眼吧。大概是五六年前的某一个瞬间,自己突然开始看一些所谓的课外书,也差不多大概从那时候起,习惯虽然坚持的不太好,但每年学业相关也好,学业无关也罢,都开始涉猎,粗略统计每年2
2022-05-12 20:00:00
1840
复工复产日报数据原始数据集 .zip
2020-10-25
《python常见图形代码可视化大全整理(包括动图)更新中... 》提及的部分数据
2020-09-28
北京市投资与GDP数据
2020-09-16
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人