- 博客(56)
- 收藏
- 关注
原创 AlphaEarth模型架构梳理及借鉴哪些深度学习领域方面的思想
谷歌Earth AI 模型alpha earth的模型架构介绍及思想借鉴,对深度学习建模带来深刻启发。
2025-08-06 18:18:38
209
原创 如何学习跨模态对齐(尤其是 CLIP 思想)
本文系统介绍了跨模态对齐(尤其是CLIP模型)的学习路径。首先需要掌握深度学习、CV/NLP基础及对比学习原理。然后深入理解CLIP的核心思想:通过对比学习将图像和文本映射到同一语义空间,实现图文匹配。建议通过实践调用预训练CLIP模型或复现简化版来加深理解。最后,可扩展学习CLIP的改进模型如ALBEF、BLIP等,了解从独立编码到交互编码的演进。学习资源包括原始论文、代码库及相关课程。整体路径为:基础知识→CLIP原理→实践应用→前沿扩展。
2025-08-06 17:50:06
402
原创 pytorch的自定义 CUDA 扩展怎么学习
学习 PyTorch 自定义 CUDA 扩展可分为三个阶段: 基础准备:掌握 PyTorch 张量操作、CUDA 编程基础(核函数、线程结构)及 C++/Python 交互(pybind11); 入门实践:通过官方教程实现简单扩展(如向量加法),熟悉 CUDA 核函数编写、pybind11 绑定及编译流程(setup.py); 进阶优化:学习自动求导实现、性能调优(共享内存/线程配置)并参考开源项目(如 DCNv2)。关键点包括正确处理设备内存、优化编译选项及使用调试工具(cuda-memcheck)。
2025-07-31 13:46:31
958
1
原创 热带气旋【CH报文数据插值】中央气象台-台风路径数据每小时插值
将3小时间隔的中央气象台台风报文数据插值成每小时的报文数据,生成新的报文数据文件,格式不变。
2025-04-25 18:29:14
214
原创 在数据集上通过聚类实现特征降维
以下是代码讲解:1.导入numpy库和机器学习库的数据集、聚类算法模块2.加载手写数字数据集这行代码从 sklearn.datasets 模块中加载了手写数字数据集,该数据集包含8x8像素的灰度图像和对应的标签(0到9)。digits.images 是一个形状为 (1797, 8, 8) 的数组,其中 1797 是样本数量,每个样本是一个 8x8 的灰度图像。这行代码将每个 8x8 的图像展平成一个长度为64的一维向量,因此 X 的形状变为 (1797, 64)。这里创建了一个 Featur
2025-03-01 22:50:20
423
原创 python代码制作数据集的测试和数据质量检测思路
本文指的数据集为通用数据集,并不单是给机器学习领域使用。包含科研和工业领域需要自己制作数据集的。首先,在制作大型数据集时,代码错误和数据问题可能会非常复杂。前期逻辑总是简单的,库库一顿写,等排查的时候两眼无泪。后期慢慢摸排和检查的时候不断完善代码,前期代码主要是完成功能,后期是增加维护性和检测性。这部分工作其实前期可以考虑进去。以下提供一些血泪经验。
2024-11-23 20:22:17
560
原创 python程序对服务器cpu和内存资源占用的管理。
cgroups(控制组)是一种Linux内核功能,用于限制、记录和隔离进程组的资源使用(如CPU、内存、磁盘I/O等)。在服务器上部署了一套目标检测的程序,做成while true 的轮询检测数据更新的定时任务。所以寻思给程序加个资源占用的限制,跑慢一点没关系。服务器上设置则更适合于生产环境,因为它利用了操作系统提供的资源管理工具,更加灵活和强大。如果你的Python程序是通过systemd管理的,可以在服务文件中设置资源限制。代码中设置适用于需要更细粒度的控制,并且不依赖于操作系统特性的情况。
2024-11-15 11:40:44
797
原创 解决 ValueError: did not find HDF5 headers----安装netCDF4报错
报错说是hdf5找不到,按照这个思路搞了半天都没搞好。后来换了一个安装命令。
2024-09-25 13:21:57
1271
5
原创 用python+vue实现一个计算页面
要实现一个计算器页面,我们需要分别创建前端和后端部分。前端使用 Vue.js 框架,后端使用 Python 的 Flask 框架。
2024-06-12 13:58:51
713
1
原创 笔记2024
pip源][docker]查看镜像:docker psbuild:导出父镜像(本地192.100.30.208 root/admin):导入父镜像:拉取代码:构建镜像:在代码所在目录,前提是有Dockerfile文件。
2024-05-10 17:07:18
1040
1
原创 时间步长问题。tensorflow训练lstm时序模型,输出层实际输出维度和期待维度不一致
input_shape填两个参数值,第一个值代表指定的时间步长。后来对比了以前跑过的文件。发现LSTM少定义一个参数。输入y 维度(2250,) 和 (2250,1)但模型预测出的结果维度都是(2250,48,1)模型预测值维度为(2250,1)但结果跑出来的输出维度每次都是三维的。输入x维度(2250,48,2)我就很纳闷= =!第二个值是特征数目。
2024-04-20 13:27:21
636
原创 解决 pandas concat | ValueError: cannot insert,already exists
报错原因:索引数据在原表中已经存在,reset_index函数默认重置索引的时候会把索引数据放回表里。如果已经存在就会报错。只需要添加drop参数即可。
2024-04-01 18:14:24
1905
原创 重采样的常用算法resample
三次样条插值(Cubic Spline Interpolation):通过构建一个三次多项式函数来拟合已知数据点,并使用该函数来计算新数据点的值。线性插值(Linear Interpolation):通过在两个已知数据点之间插入新的数据点,使得新数据点的值在这两个已知数据点之间线性分布。最近邻插值(Nearest-neighbor Interpolation):将新数据点的值设置为距离最近的已知数据点的值。这种方法适用于数据变化较为剧烈的情况,但可能会导致数据的突变。
2024-03-26 15:30:46
2213
原创 gradio运行示例及解决gradio运行报错:UnicodeDecodeError:‘gbk‘ codec can‘t decode byte 0xb2 in position 1972
解决gradio报错问题
2024-03-21 10:34:37
2262
原创 解决tensorflow/keras报错:ValueError: Input 0 of layer sequential is incompatible with the layer
解决报错 ValueError: Input 0 of layer sequential is incompatible with the layer: expected ndim=3, found ndim=2. Full shape received: (None, 72)
2023-12-05 09:19:19
1343
原创 SettingWithCopyWarning: A value is trying to be set on a copy of a slice from a DataFrame. Try usin
SettingWithCopyWarning: A value is trying to be set on a copy of a slice from a DataFrame.Try using .loc[row_indexer,col_indexer] = value insteadSee the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html
2022-08-02 16:45:50
753
原创 pymongo更新数据
import pymongourl = "mongodb://user:pwd@121.36.3.28:27017/test"client = pymongo.MongoClient(url)db = client.test # 库名collection = db.mock_test_data # 集合名condition = {'systime': '2020-12-14 20:45:00'} # 查询条件data = collection.find_one(condition)prin
2022-04-08 10:08:42
1467
原创 python操作mongodb全集
很全!https://juejin.im/post/5addbd0e518825671f2f62ee#heading-5
2022-04-08 09:03:19
897
原创 tensorflow1.x版本代码向tf2.x迁移
以莫烦强化学习中A3C_continuous_action.py作为示例import部分添加代码:import tensorflow._api.v2.compat.v1 as tftf.compat.v1.disable_eager_execution()
2022-02-17 09:23:26
274
原创 python获取指定月份的最后一天日期
import calendarcal=calendar.month(2020,2)print(cal)print(cal[-3:])直接切最后的三个字符串,然后再拼成日期。比自己写判断快多了。
2022-01-27 16:07:13
3580
2
原创 机器学习及特征工程心得
2021/12/18心得记录截至目前也做了一些工作,也train了一些模型。对人工智能领域有了一些实际的体验。目前的感受:特征工程远比算法的那些参数调节要重要。增加一列有效的特征,对结果提升的程度远远大于算法中超参数的调节(超参数如神经网络节点/层数,决策树层数,随机森林棵数,学习迭代次数(基本在50次就能收敛,看Loss图。))数据集的构建非常非常重要。甚至数据集决定了你的model是不是OK。不然不管你的训练表现有多好,在测试集上的表现有多好,模型一迁移,泛化效果一样很差。所以说是调参师
2021-12-18 10:39:43
1047
原创 问题解决: Pandas: KeyError: […] not in index
报错代码:df_trainset=df[['time','temp','hum','cooling']]报错说index里没有这些(主要df也是拼接来的,如果是文件读出的表是可以这么取数据的。)猜测跟pandas内部有关系,索引的地址不一样。于是试了一下这个解决方案:df=df.copy()df_trainset=df[['time','temp','hum','cooling']]果然就可以了。(我可真棒啊~)附另一版解决方案:因为这几个特征列在原表里是不连续的,而且数量不多,所以采
2021-11-25 09:11:17
24795
1
原创 运筹学学习心得(持续更新)
整体方向做得好的运筹学问题都是这样的: 1. 深刻认识现实问题 2. 用数学语言描述问题(建模) 3. 用数学工具研究模型 4. 再把研究出来的成果从数学语言翻译成我们能看懂的语言(例如汉语,英语。。。)这篇文很好,在入坑运筹学以及各种算法之前,及时提醒我把握事物的本质,我的目的在于用这些算法去解决问题,而不是手算算法并提升自己的计算量= =。所以学自己需要的,找自己需要的东西。别入了“专业”的思维坑里。附地址:运筹学(最优化理论)如何入门?...
2021-11-12 09:50:34
1840
原创 windows10 实现Flask无窗口后台运行
一 cmd常用命令tasklist 正执行的进程tasklist | findstr “pythonw” 根据条件查找对应进程netstat -ano | findstr “5000” 根据端口查找taskkill /PID “22045” -f 杀死pid为22045的进程 -f代表强行停止二 python程序的无窗口运行方式pythonw的方法修改py文件后缀为pyw。双击运行。如果无法运行则右键选择打开方式,指定python文件夹中的pythonw.exe打开。ba
2021-10-20 15:56:16
2833
1
原创 python对三维数组切片
import numpy as npdata=[ [[1,0,5],[2,4,5]], [[3,8,5],[4,6,5]], [[5,9,5],[6,8,5]], [[5,9,5],[6,9,5]],]a=np.array(data)print(a.shape)print(a)print('a:',a[:,-1])结果:shapea切片后a:切片顺序和shape的顺序是一致的,如果不写最后一个维度,默认全选...
2021-09-17 09:45:57
964
卫星文件命名规则说明文档
2024-12-12
2023年热带气旋/台风最佳路径数据集
2024-10-10
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人