- 博客(52)
- 收藏
- 关注
原创 在数据集上通过聚类实现特征降维
以下是代码讲解:1.导入numpy库和机器学习库的数据集、聚类算法模块2.加载手写数字数据集这行代码从 sklearn.datasets 模块中加载了手写数字数据集,该数据集包含8x8像素的灰度图像和对应的标签(0到9)。digits.images 是一个形状为 (1797, 8, 8) 的数组,其中 1797 是样本数量,每个样本是一个 8x8 的灰度图像。这行代码将每个 8x8 的图像展平成一个长度为64的一维向量,因此 X 的形状变为 (1797, 64)。这里创建了一个 Featur
2025-03-01 22:50:20
374
原创 python代码制作数据集的测试和数据质量检测思路
本文指的数据集为通用数据集,并不单是给机器学习领域使用。包含科研和工业领域需要自己制作数据集的。首先,在制作大型数据集时,代码错误和数据问题可能会非常复杂。前期逻辑总是简单的,库库一顿写,等排查的时候两眼无泪。后期慢慢摸排和检查的时候不断完善代码,前期代码主要是完成功能,后期是增加维护性和检测性。这部分工作其实前期可以考虑进去。以下提供一些血泪经验。
2024-11-23 20:22:17
509
原创 python程序对服务器cpu和内存资源占用的管理。
cgroups(控制组)是一种Linux内核功能,用于限制、记录和隔离进程组的资源使用(如CPU、内存、磁盘I/O等)。在服务器上部署了一套目标检测的程序,做成while true 的轮询检测数据更新的定时任务。所以寻思给程序加个资源占用的限制,跑慢一点没关系。服务器上设置则更适合于生产环境,因为它利用了操作系统提供的资源管理工具,更加灵活和强大。如果你的Python程序是通过systemd管理的,可以在服务文件中设置资源限制。代码中设置适用于需要更细粒度的控制,并且不依赖于操作系统特性的情况。
2024-11-15 11:40:44
648
原创 解决 ValueError: did not find HDF5 headers----安装netCDF4报错
报错说是hdf5找不到,按照这个思路搞了半天都没搞好。后来换了一个安装命令。
2024-09-25 13:21:57
981
5
原创 用python+vue实现一个计算页面
要实现一个计算器页面,我们需要分别创建前端和后端部分。前端使用 Vue.js 框架,后端使用 Python 的 Flask 框架。
2024-06-12 13:58:51
653
1
原创 笔记2024
pip源][docker]查看镜像:docker psbuild:导出父镜像(本地192.100.30.208 root/admin):导入父镜像:拉取代码:构建镜像:在代码所在目录,前提是有Dockerfile文件。
2024-05-10 17:07:18
1032
1
原创 时间步长问题。tensorflow训练lstm时序模型,输出层实际输出维度和期待维度不一致
input_shape填两个参数值,第一个值代表指定的时间步长。后来对比了以前跑过的文件。发现LSTM少定义一个参数。输入y 维度(2250,) 和 (2250,1)但模型预测出的结果维度都是(2250,48,1)模型预测值维度为(2250,1)但结果跑出来的输出维度每次都是三维的。输入x维度(2250,48,2)我就很纳闷= =!第二个值是特征数目。
2024-04-20 13:27:21
582
原创 解决 pandas concat | ValueError: cannot insert,already exists
报错原因:索引数据在原表中已经存在,reset_index函数默认重置索引的时候会把索引数据放回表里。如果已经存在就会报错。只需要添加drop参数即可。
2024-04-01 18:14:24
1602
原创 重采样的常用算法resample
三次样条插值(Cubic Spline Interpolation):通过构建一个三次多项式函数来拟合已知数据点,并使用该函数来计算新数据点的值。线性插值(Linear Interpolation):通过在两个已知数据点之间插入新的数据点,使得新数据点的值在这两个已知数据点之间线性分布。最近邻插值(Nearest-neighbor Interpolation):将新数据点的值设置为距离最近的已知数据点的值。这种方法适用于数据变化较为剧烈的情况,但可能会导致数据的突变。
2024-03-26 15:30:46
1789
原创 gradio运行示例及解决gradio运行报错:UnicodeDecodeError:‘gbk‘ codec can‘t decode byte 0xb2 in position 1972
解决gradio报错问题
2024-03-21 10:34:37
2131
原创 解决tensorflow/keras报错:ValueError: Input 0 of layer sequential is incompatible with the layer
解决报错 ValueError: Input 0 of layer sequential is incompatible with the layer: expected ndim=3, found ndim=2. Full shape received: (None, 72)
2023-12-05 09:19:19
1227
原创 SettingWithCopyWarning: A value is trying to be set on a copy of a slice from a DataFrame. Try usin
SettingWithCopyWarning: A value is trying to be set on a copy of a slice from a DataFrame.Try using .loc[row_indexer,col_indexer] = value insteadSee the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html
2022-08-02 16:45:50
736
原创 pymongo更新数据
import pymongourl = "mongodb://user:pwd@121.36.3.28:27017/test"client = pymongo.MongoClient(url)db = client.test # 库名collection = db.mock_test_data # 集合名condition = {'systime': '2020-12-14 20:45:00'} # 查询条件data = collection.find_one(condition)prin
2022-04-08 10:08:42
1442
原创 python操作mongodb全集
很全!https://juejin.im/post/5addbd0e518825671f2f62ee#heading-5
2022-04-08 09:03:19
890
原创 tensorflow1.x版本代码向tf2.x迁移
以莫烦强化学习中A3C_continuous_action.py作为示例import部分添加代码:import tensorflow._api.v2.compat.v1 as tftf.compat.v1.disable_eager_execution()
2022-02-17 09:23:26
251
原创 python获取指定月份的最后一天日期
import calendarcal=calendar.month(2020,2)print(cal)print(cal[-3:])直接切最后的三个字符串,然后再拼成日期。比自己写判断快多了。
2022-01-27 16:07:13
3543
2
原创 机器学习及特征工程心得
2021/12/18心得记录截至目前也做了一些工作,也train了一些模型。对人工智能领域有了一些实际的体验。目前的感受:特征工程远比算法的那些参数调节要重要。增加一列有效的特征,对结果提升的程度远远大于算法中超参数的调节(超参数如神经网络节点/层数,决策树层数,随机森林棵数,学习迭代次数(基本在50次就能收敛,看Loss图。))数据集的构建非常非常重要。甚至数据集决定了你的model是不是OK。不然不管你的训练表现有多好,在测试集上的表现有多好,模型一迁移,泛化效果一样很差。所以说是调参师
2021-12-18 10:39:43
1031
原创 问题解决: Pandas: KeyError: […] not in index
报错代码:df_trainset=df[['time','temp','hum','cooling']]报错说index里没有这些(主要df也是拼接来的,如果是文件读出的表是可以这么取数据的。)猜测跟pandas内部有关系,索引的地址不一样。于是试了一下这个解决方案:df=df.copy()df_trainset=df[['time','temp','hum','cooling']]果然就可以了。(我可真棒啊~)附另一版解决方案:因为这几个特征列在原表里是不连续的,而且数量不多,所以采
2021-11-25 09:11:17
24401
1
原创 运筹学学习心得(持续更新)
整体方向做得好的运筹学问题都是这样的: 1. 深刻认识现实问题 2. 用数学语言描述问题(建模) 3. 用数学工具研究模型 4. 再把研究出来的成果从数学语言翻译成我们能看懂的语言(例如汉语,英语。。。)这篇文很好,在入坑运筹学以及各种算法之前,及时提醒我把握事物的本质,我的目的在于用这些算法去解决问题,而不是手算算法并提升自己的计算量= =。所以学自己需要的,找自己需要的东西。别入了“专业”的思维坑里。附地址:运筹学(最优化理论)如何入门?...
2021-11-12 09:50:34
1756
原创 windows10 实现Flask无窗口后台运行
一 cmd常用命令tasklist 正执行的进程tasklist | findstr “pythonw” 根据条件查找对应进程netstat -ano | findstr “5000” 根据端口查找taskkill /PID “22045” -f 杀死pid为22045的进程 -f代表强行停止二 python程序的无窗口运行方式pythonw的方法修改py文件后缀为pyw。双击运行。如果无法运行则右键选择打开方式,指定python文件夹中的pythonw.exe打开。ba
2021-10-20 15:56:16
2722
1
原创 python对三维数组切片
import numpy as npdata=[ [[1,0,5],[2,4,5]], [[3,8,5],[4,6,5]], [[5,9,5],[6,8,5]], [[5,9,5],[6,9,5]],]a=np.array(data)print(a.shape)print(a)print('a:',a[:,-1])结果:shapea切片后a:切片顺序和shape的顺序是一致的,如果不写最后一个维度,默认全选...
2021-09-17 09:45:57
936
原创 pandas 取每天某个时刻的数据
dfdf[‘systime’]为datetime类型。取整点数据df1=df[df['systime'].dt.minute ==0 ]打印如下:取每天某个小时的数据df2=df[df['systime'].dt.hour == 8 ]如下为每天八点到九点的数据取每个月某天的数据df1=df[df['systime'].dt.day ==8 ]以此类推。pandas yyds...
2021-09-14 16:20:23
2178
原创 pandas 统计一周中的每个位置的NO2平均浓度
df.groupby( [air_quality["datetime"].dt.weekday, "location"])["value"].mean()此处‘datetime’是datetime数据类型。此处datetime数据中有完整年月日时分秒。还记得统计计算教程中groupby提供的split-apply-combine模式吗?这里,我们要计算每个工作日和每个测量位置的给定统计数据(例如平均值)。为了在工作日分组,我们使用pandas Timestamp的datetime属性weekd
2021-09-14 09:30:47
173
原创 记录psutil的一个小坑,实时监控进程内存/关闭监控线程
需求:需要提供一个API接收json数据,然后写入excel,写入的同时需要启一个线程实时监控系统内存情况。坑:结果发现,在实际运行中,资源监视器上的数据和监控线程跑的数据是不一致的。代码如下:def monitor_memory(p,q): mem = psutil.virtual_memory() while True: # 系统总计内存 zj = float(mem.total) / 1024 / 1024 / 1024 print
2021-09-11 17:05:53
630
原创 openpyxl初级教程
先跑demofrom openpyxl import Workbookwb = Workbook()# grab the active worksheetws = wb.active# Data can be assigned directly to cells# ws['A1'] = 42# Rows can also be appendedws.append([1, 2, 3])# Python types will automatically be convertedimp
2021-09-10 15:01:36
210
卫星文件命名规则说明文档
2024-12-12
2023年热带气旋/台风最佳路径数据集
2024-10-10
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人