天才少女爱迪生-优快云博客

原创在数据集上通过聚类实现特征降维

以下是代码讲解：1.导入numpy库和机器学习库的数据集、聚类算法模块2.加载手写数字数据集这行代码从 sklearn.datasets 模块中加载了手写数字数据集，该数据集包含8x8像素的灰度图像和对应的标签（0到9）。digits.images 是一个形状为 (1797, 8, 8) 的数组，其中 1797 是样本数量，每个样本是一个 8x8 的灰度图像。这行代码将每个 8x8 的图像展平成一个长度为64的一维向量，因此 X 的形状变为 (1797, 64)。这里创建了一个 Featur

2025-03-01 22:50:20 374

原创 modelscope方式下载大模型

【代码】modelscope方式下载大模型。

2025-02-28 16:13:54 160

原创两种画地图底图的方式（含下载资源）

这个需要配置GIS数据信息，文件见末尾下载链接。

2025-02-06 17:39:02 131

原创一键批量下载风云卫星数据的python脚本

批量下载ftp和http形式的风云卫星数据代码

2025-01-08 18:01:13 280

原创 Basemap 在地图上显示图例

basemap添加点坐标和显示图例

2024-11-28 19:04:41 291

原创 python代码制作数据集的测试和数据质量检测思路

本文指的数据集为通用数据集，并不单是给机器学习领域使用。包含科研和工业领域需要自己制作数据集的。首先，在制作大型数据集时，代码错误和数据问题可能会非常复杂。前期逻辑总是简单的，库库一顿写，等排查的时候两眼无泪。后期慢慢摸排和检查的时候不断完善代码，前期代码主要是完成功能，后期是增加维护性和检测性。这部分工作其实前期可以考虑进去。以下提供一些血泪经验。

2024-11-23 20:22:17 509

原创实际工程里为什么不用面向过程编程而是用面向对象编程

在软件工程中，面向对象编程（OOP）比面向过程编程（OPP）更为常用，这背后有多个原因。

2024-11-23 16:15:52 176

原创 numpy中的nan填充

简单好用的填充方法

2024-11-22 19:44:35 273

原创 python程序对服务器cpu和内存资源占用的管理。

cgroups（控制组）是一种Linux内核功能，用于限制、记录和隔离进程组的资源使用（如CPU、内存、磁盘I/O等）。在服务器上部署了一套目标检测的程序，做成while true 的轮询检测数据更新的定时任务。所以寻思给程序加个资源占用的限制，跑慢一点没关系。服务器上设置则更适合于生产环境，因为它利用了操作系统提供的资源管理工具，更加灵活和强大。如果你的Python程序是通过systemd管理的，可以在服务文件中设置资源限制。代码中设置适用于需要更细粒度的控制，并且不依赖于操作系统特性的情况。

2024-11-15 11:40:44 648

原创小白级DCT的公式和计算（有示例数据代入说明每个步骤）

纯小白友好的DCT计算说明教程。

2024-10-25 11:26:08 1118

原创解决 ValueError: did not find HDF5 headers----安装netCDF4报错

报错说是hdf5找不到，按照这个思路搞了半天都没搞好。后来换了一个安装命令。

2024-09-25 13:21:57 981 5

原创风云4A/4B卫星行列号和经纬度查找表文件下载及读取方式

python通过查表方式对卫星数据预处理

2024-09-23 22:13:52 1881 4

原创用python+vue实现一个计算页面

要实现一个计算器页面，我们需要分别创建前端和后端部分。前端使用 Vue.js 框架，后端使用 Python 的 Flask 框架。

2024-06-12 13:58:51 653 1

原创笔记2024

pip源][docker]查看镜像：docker psbuild:导出父镜像(本地192.100.30.208 root/admin)：导入父镜像：拉取代码：构建镜像：在代码所在目录，前提是有Dockerfile文件。

2024-05-10 17:07:18 1032 1

原创时间步长问题。tensorflow训练lstm时序模型,输出层实际输出维度和期待维度不一致

input_shape填两个参数值，第一个值代表指定的时间步长。后来对比了以前跑过的文件。发现LSTM少定义一个参数。输入y 维度（2250，）和（2250，1）但模型预测出的结果维度都是（2250，48，1）模型预测值维度为（2250，1）但结果跑出来的输出维度每次都是三维的。输入x维度（2250，48，2）我就很纳闷= =！第二个值是特征数目。

2024-04-20 13:27:21 582

原创深度学习神经网络模型微调

微调的方式。

2024-04-09 15:35:40 509

原创解决 pandas concat | ValueError: cannot insert,already exists

报错原因：索引数据在原表中已经存在，reset_index函数默认重置索引的时候会把索引数据放回表里。如果已经存在就会报错。只需要添加drop参数即可。

2024-04-01 18:14:24 1602

原创解决pandas的concat表格错位问题。表格拼接错误。

解决表格拼接错位的问题。表格拼接失败、有误。

2024-04-01 18:11:03 851

原创重采样的常用算法resample

三次样条插值（Cubic Spline Interpolation）：通过构建一个三次多项式函数来拟合已知数据点，并使用该函数来计算新数据点的值。线性插值（Linear Interpolation）：通过在两个已知数据点之间插入新的数据点，使得新数据点的值在这两个已知数据点之间线性分布。最近邻插值（Nearest-neighbor Interpolation）：将新数据点的值设置为距离最近的已知数据点的值。这种方法适用于数据变化较为剧烈的情况，但可能会导致数据的突变。

2024-03-26 15:30:46 1789

原创 gradio运行示例及解决gradio运行报错：UnicodeDecodeError:‘gbk‘ codec can‘t decode byte 0xb2 in position 1972

解决gradio报错问题

2024-03-21 10:34:37 2131

原创【软工】-数据流图和状态图

软件工程

2024-01-17 10:51:18 596

原创 Pandas按每天的时间区间筛选数据

pandas dataframe指定每天时间区间提取数据

2024-01-02 08:50:54 1304

原创解决tensorflow/keras报错：ValueError: Input 0 of layer sequential is incompatible with the layer

解决报错 ValueError: Input 0 of layer sequential is incompatible with the layer: expected ndim=3, found ndim=2. Full shape received: (None, 72)

2023-12-05 09:19:19 1227

原创 python比较两个字符串格式的时间相差是否超过十分钟

【代码】python比较两个字符串格式的时间相差是否超过十分钟。

2023-09-28 16:53:43 450

原创 SettingWithCopyWarning: A value is trying to be set on a copy of a slice from a DataFrame. Try usin

SettingWithCopyWarning: A value is trying to be set on a copy of a slice from a DataFrame.Try using .loc[row_indexer,col_indexer] = value insteadSee the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html

2022-08-02 16:45:50 736

原创 pandas分组排序：对excel数据按日期分组后排序

pandas处理excel表格数据，分组排序处理

2022-07-14 09:58:56 3488

原创 pymongo更新数据

import pymongourl = "mongodb://user:pwd@121.36.3.28:27017/test"client = pymongo.MongoClient(url)db = client.test # 库名collection = db.mock_test_data # 集合名condition = {'systime': '2020-12-14 20:45:00'} # 查询条件data = collection.find_one(condition)prin

2022-04-08 10:08:42 1442

原创 python操作mongodb全集

很全！https://juejin.im/post/5addbd0e518825671f2f62ee#heading-5

2022-04-08 09:03:19 890

原创 tensorflow下载离线包

https://pypi.org/project/tensorflow/2.8.0/#files

2022-02-24 16:49:36 1538

原创 tensorflow1.x版本代码向tf2.x迁移

以莫烦强化学习中A3C_continuous_action.py作为示例import部分添加代码：import tensorflow._api.v2.compat.v1 as tftf.compat.v1.disable_eager_execution()

2022-02-17 09:23:26 251

原创 python获取指定月份的最后一天日期

import calendarcal=calendar.month(2020,2)print(cal)print(cal[-3:])直接切最后的三个字符串，然后再拼成日期。比自己写判断快多了。

2022-01-27 16:07:13 3543 2

原创机器学习及特征工程心得

2021/12/18心得记录截至目前也做了一些工作，也train了一些模型。对人工智能领域有了一些实际的体验。目前的感受：特征工程远比算法的那些参数调节要重要。增加一列有效的特征，对结果提升的程度远远大于算法中超参数的调节（超参数如神经网络节点/层数，决策树层数，随机森林棵数，学习迭代次数（基本在50次就能收敛，看Loss图。））数据集的构建非常非常重要。甚至数据集决定了你的model是不是OK。不然不管你的训练表现有多好，在测试集上的表现有多好，模型一迁移，泛化效果一样很差。所以说是调参师

2021-12-18 10:39:43 1031

原创问题解决： Pandas: KeyError: […] not in index

报错代码：df_trainset=df[['time','temp','hum','cooling']]报错说index里没有这些（主要df也是拼接来的，如果是文件读出的表是可以这么取数据的。）猜测跟pandas内部有关系，索引的地址不一样。于是试了一下这个解决方案：df=df.copy()df_trainset=df[['time','temp','hum','cooling']]果然就可以了。（我可真棒啊~）附另一版解决方案：因为这几个特征列在原表里是不连续的，而且数量不多，所以采

2021-11-25 09:11:17 24401 1

原创运筹学学习心得（持续更新）

整体方向做得好的运筹学问题都是这样的：１.　深刻认识现实问题２.　用数学语言描述问题（建模）３.　用数学工具研究模型４.　再把研究出来的成果从数学语言翻译成我们能看懂的语言（例如汉语，英语。。。）这篇文很好，在入坑运筹学以及各种算法之前，及时提醒我把握事物的本质，我的目的在于用这些算法去解决问题，而不是手算算法并提升自己的计算量= =。所以学自己需要的，找自己需要的东西。别入了“专业”的思维坑里。附地址：运筹学（最优化理论）如何入门？...

2021-11-12 09:50:34 1756

原创 windows10 实现Flask无窗口后台运行

一 cmd常用命令tasklist 正执行的进程tasklist | findstr “pythonw” 根据条件查找对应进程netstat -ano | findstr “5000” 根据端口查找taskkill /PID “22045” -f 杀死pid为22045的进程 -f代表强行停止二 python程序的无窗口运行方式pythonw的方法修改py文件后缀为pyw。双击运行。如果无法运行则右键选择打开方式，指定python文件夹中的pythonw.exe打开。ba

2021-10-20 15:56:16 2722 1

原创 python对三维数组切片

import numpy as npdata=[ [[1,0,5],[2,4,5]], [[3,8,5],[4,6,5]], [[5,9,5],[6,8,5]], [[5,9,5],[6,9,5]],]a=np.array(data)print(a.shape)print(a)print('a:',a[:,-1])结果：shapea切片后a：切片顺序和shape的顺序是一致的，如果不写最后一个维度，默认全选...

2021-09-17 09:45:57 936

原创 pandas 取每天某个时刻的数据

dfdf[‘systime’]为datetime类型。取整点数据df1=df[df['systime'].dt.minute ==0 ]打印如下：取每天某个小时的数据df2=df[df['systime'].dt.hour == 8 ]如下为每天八点到九点的数据取每个月某天的数据df1=df[df['systime'].dt.day ==8 ]以此类推。pandas yyds...

2021-09-14 16:20:23 2178

原创 pandas 统计一周中的每个位置的NO2平均浓度

df.groupby( [air_quality["datetime"].dt.weekday, "location"])["value"].mean()此处‘datetime’是datetime数据类型。此处datetime数据中有完整年月日时分秒。还记得统计计算教程中groupby提供的split-apply-combine模式吗？这里，我们要计算每个工作日和每个测量位置的给定统计数据（例如平均值）。为了在工作日分组，我们使用pandas Timestamp的datetime属性weekd

2021-09-14 09:30:47 173

原创记录psutil的一个小坑，实时监控进程内存/关闭监控线程

需求：需要提供一个API接收json数据，然后写入excel，写入的同时需要启一个线程实时监控系统内存情况。坑：结果发现，在实际运行中，资源监视器上的数据和监控线程跑的数据是不一致的。代码如下：def monitor_memory(p,q): mem = psutil.virtual_memory() while True: # 系统总计内存 zj = float(mem.total) / 1024 / 1024 / 1024 print

2021-09-11 17:05:53 630

原创 openpyxl初级教程

先跑demofrom openpyxl import Workbookwb = Workbook()# grab the active worksheetws = wb.active# Data can be assigned directly to cells# ws['A1'] = 42# Rows can also be appendedws.append([1, 2, 3])# Python types will automatically be convertedimp

2021-09-10 15:01:36 210

卫星文件命名规则说明文档

范围本标准规定了气象卫星数据文件名的构成和信息字段的定义。本标准适用于气象卫星各级数据接收、处理、存储、归档和分发服务等管理 2规范性引用文件下列文件对于本文件的应用是必不可少的。凡是注日期的引用文件,仅注日期的版本适用于本文件。凡是不注日期的引用文件,其最新版本(包括所有的修改单)适用于本文件GB/T7408-2005 数据元和交换格式信息交换日期和时间表示法 3 文件名构成 3.1 气象卫星数据文件名命名采用顺序固定且部分可选的信息字段进行组合,信息字段之间除数据格式字段外均使用“”作为分隔符,数据格式字段与其他信息字段之间的分隔符为".”,文件名结构如下所示:卫星名称_仪器名称_数据区域类型_可选信息字段标识符_数据名称_][仪器通道名称_][投影方式观测起始日期,观测起始时间!空间分辨率】接收站名,数据格式。其中一中为可选信息字段。3.2、根据气象卫星数据文件存储和应用的不同需求,按照文件名长短划分为短格式文件名,基本格式文件名、完整格式文件名三种类型。 3.2.1 短格式文件名由7个信息字段和6个分隔符构成,共 36个字符,适用于气象卫星遥感数据之外的数据文件,定义如下

2024-12-12

2023年热带气旋/台风最佳路径数据集

2023全年度台风最佳路径，包含 YYYYMMDDHH: YYYY年, MM月, DD日，HH时(世界时); I: 强度标记, 以正点前2分钟至正点内的平均风速为准, 参见《热带气旋等级》国家标准（GB/T 19201-2006）： 0- 弱于热带低压(TD), 或等级未知, 1- 热带低压(TD, 10.8-17.1m/s), 2- 热带风暴(TS,17.2-24.4 m/s), 3- 强热带风暴(STS, 24.5-32.6 m/s), 4- 台风(TY, 32.7-41.4 m/s), 5- 强台风(STY, 41.5-50.9 m/s), 6- 超强台风(SuperTY, ≥51.0 m/s), 9- 变性,第一个标记表示变性完成. LAT: 纬度(0.1°N); LONG: 经度(0.1°E); PRES: 中心最低气压(hPa); WND: 2分钟平均近中心最大风速(MSW, m/s). WND=9 表示 MSW < 10m/s, WND=0 为缺测. OWD: 2分钟平均风速(m/s), 有两种情况: (a) 对登陆我国的热带气旋, 表示沿海大风的风速; (b) 热带气旋

2024-10-10

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人