STUffT-优快云博客

原创 Catboost 中Bernoulli采样 vs Bayesian采样介绍

你可以像调节「显微镜焦距」一样，控制模型对数据的敏感度，从而找到最佳平衡点。你可以将它理解为调节「哪些样本更重要」的开关，类似做饭时调整火候的旋钮。低温（bagging_temperature=0.1）通过这种对比，可以直观理解两种采样的区别及适用场景。高温（bagging_temperature=1）苹果权重分配（Dirichlet分布）是一个关键参数，用于控制样本权重的。在 CatBoost 的。

2025-02-27 14:30:39 934

原创 1 推荐系统概述

推荐系统概述

2025-02-11 00:16:12 926

原创 python 爬虫自动获取 GB/T 7714 引用格式

介绍：从 Google Scholar 网站（具体为 https://xueshu.aigrogu.com/）收集文章信息，包括文章标题、链接和 GB/T 7714 引用格式。该代码接收一个文章标题列表，遍历列表中的每个标题，打开网页进行搜索，解析搜索结果页面，提取相关信息，并将提取到的 GB/T 7714 引用信息存储到文件 references.txt 中。实现了从特定网站自动搜索文章信息并提取 GB/T 7714 引用信息的功能，可将结果存储到文件中。路径和等待时间的调整，以确保程序的稳定运行。

2025-01-14 15:59:32 707

原创远程服务器文件和本地文件同步的一个方法

背景：在远程服务器改代码并测试后（因为账号问题不允许直接 git），希望将更改同步到本地设备然后 git push 到代码仓库。

2024-08-22 11:30:34 573

原创托管你的程序——命令行后台运行记录

笔者在网页端远程连接服务器使用命令行跑代码生成数据时，离开了一会然后电脑熄屏了，程序终止了。。。崩溃，查询记录后台运行常用指令，记录如下，一劳永逸：)

2024-07-11 20:15:28 535

翻译理解LSTM

深入浅出理解LSTM。

2023-12-05 11:17:45 278

原创 Python代码编译并生成Docker镜像

python代码编译并生成Docker镜像，解决对python项目交付时对关键代码的保护

2023-12-04 17:43:10 1015

原创 Datawhale-AIGC实践

【代码】Datawhale-AIGC实践。

2023-11-04 22:41:43 414

原创 DataWhale 机器学习夏令营第三期——任务二：可视化分析

DataWhale 机器学习夏令营第三期——用户新增预测挑战赛，可视化分析

2023-08-23 22:33:25 843

原创 DataWhale 机器学习夏令营第三期

DataWhale 机器学习夏令营第三期——用户新增预测挑战赛

2023-08-18 21:54:54 1155

原创 DataWhale 机器学习夏令营第二期——AI量化模型预测挑战赛学习记录

DataWhale 机器学习夏令营第二期——AI量化模型预测挑战赛

2023-08-06 21:41:11 1563 3

原创 DataWhale AI夏令营——机器学习

DataWhale AI夏令营机器学习篇——锂电池电池生产参数调控及生产温度预测挑战赛学习记录

2023-07-22 23:11:06 816

原创从ChatGPT到大模型

AIGC学习记录，分享关于AIGC的背景、概念、前景、使用、工具等。

2023-05-17 13:39:31 1496

原创机器学习特征工程——类别相关统计特征

阅读鱼佬《机器学习算法竞赛实战》4.3节记录，特征工程相关。主要记录如何对类别相关统计特征进行目标编码

2023-05-04 20:30:39 915

原创 SQL—— CASE 表达式

获取只加入一个社团的学生的社团 ID 和加入多个社团的学生的主社团 ID。某公司规定“女性员工的工资必须在 20 万日元以下。注意对比逻辑与 P ^ Q。

2023-04-02 18:18:22 161

原创 Datawahle组队学习——妙趣横生大数据 Day3

HBase 介绍

2023-02-21 21:10:15 719

原创 Datawhale组队学习：大数据 D2——分布式文件系统(HDFS)

介绍了Hadoop分布式文件系统的概念，结构，读写方式，容错处理，以及简单的实验操作。

2023-02-18 21:02:43 727

原创 Datawahle组队学习——妙趣横生大数据 Day1

了解大数据的概述和Hadoop的介绍，进行了Hadoop3.3.1伪分布式安装和集群式安装。

2023-02-15 15:07:53 1061

原创机器学习模型搭建与评估

基于已清洗的泰坦尼克数据集，搭建机器学习模型完成训练和预测，并应用交叉验证、混淆矩阵、ROC曲线对模型进行评估。

2023-01-25 13:40:26 1348 1

原创 Pandas 数据可视化

Pandas 数据可视化的简单介绍和应用，各类基本图形的绘制。

2023-01-23 19:43:36 2347 4

原创 Pandas数据重构

Pandas 数据重构，围绕着数据合并、分组、聚合，主要介绍了 concat 、groupby、agg函数的使用

2023-01-21 10:49:32 1067

原创 Pandas数据清洗及特征处理

Pandas 数据清洗和特征处理，主要包括缺失值、重复值的清洗和连续数值特征和文本特征的处理。

2023-01-18 22:28:25 540

原创 Pandas数据分析D1

Datawhale 动手学数据分析课程学习记录，第一章部分，主要涉及数据读取保存、增删改查、分析处理。

2023-01-17 14:26:10 314

原创 CAM：Class Activation Mapping 类激活映射

介绍CAM(类激活映射），一项关于深度学习可视化的奠基之作。如何通过 GAP 全局平局池化实现类激活可视化。

2022-12-17 20:16:00 1793

原创人性化语言生成与鉴别学术交流

机器学习快速发展推动语言、图像领域发展和应用局限性需要大量结构化数据，小数据性能差语音实例能实用的语言识别系统需要大量标注数据接近真人的合成语言单人需要十多小时，个性化语言数据却很少

2022-12-16 15:39:16 187

原创智能无人系统学术交流

典型例子：Boston Dynamics 研制：机器人无人车（清华、同济、湖南…)无人机美国直观外科公司：手术机器人特斯拉：智能工厂空间智能机器人

2022-12-16 15:19:14 119

原创卷积神经网络的可视化理解

ZFNet论文学习笔记，主要关于卷积神经网络可视化工作。每一层的卷积核在提取什么特征。

2022-12-15 20:10:43 731

原创可解释机器学习介绍

可解释机器学习学习笔记。主要介绍为什么要解释机器学习，以及机器学习、深度学习可解释分析的方法简单介绍。

2022-12-13 17:45:08 456

原创 Pytorch张量操作

Pytorch张量操作，包括：数据操作，运算符，广播，索引切片，转换类型，张量运算

2022-11-30 15:33:13 275

原创 torch 和 numpy 中 flatten() 降维操作

总结了 numpy 和 torch 中关于展平和压缩维度操作的函数。

2022-11-29 16:27:28 2861

原创 Datawhale 李宏毅机器学习 Task5

因为在 critical point （梯度接近0）处一阶导等于 0，所以只留下含 Hessian 矩阵的二阶导数项。扩展：现在有其他方法，无需计算 Hessian 矩阵即可判断 critical point 是否为鞍点。在考虑并行运算时，大的 Batch-size 在跑完一个epoch 时间比小的少。一个解释：开始走小路，让分母的参数获得更多可靠的统计信息。Batch-size 小：不稳定，时间短。Batch-size 大：稳定，时间长。（但实际不一定，见下分析）

2022-11-23 21:50:27 640

原创 Datawhale 李宏毅机器学习 Task4

关于深度学习的流程，关于反向传播的过程。

2022-11-20 21:26:34 435

原创 Datawhale 李宏毅机器学习 Task3

关于机器学习误差的讨论（偏差和方差），关于梯度下降法的学习率，随机梯度下降和特征缩放的学习。

2022-11-18 20:45:46 391

原创 Datawhale 李宏毅机器学习 Task2

讨论了回归，找到一个函数 function ，通过输入特征 x，输出一个数值 Scalar。已经如何实现回归。

2022-11-16 20:45:56 273

原创 Datawhale 李宏毅机器学习 Task1

machine learning概念入门，为什么要学习机器学习

2022-11-14 11:19:07 335

原创论文阅读 | Dual-stream Multiple Instance Learning Network

背景：解决WSI（高分辨率、缺乏局部注释）分类问题。工作：提出一种基于MIL的WSI分类和病灶检查的方法。1. 提出一种新颖的MIL聚合器，通过可训练的距离度量对双流架构中实例的关系进行建模；2. 提出了自监督对比学习来提取MIL的良好表示（WSI会产生阻碍MIL模型训练的大型或不平衡包），并缓解大型包的高内存的问题；3. 对多尺度WSI特征采用金字塔融合机制，进一步提高分类和定位的准确性。

2022-10-31 12:14:48 1559 1

原创 Datawhale-车道渲染数据智能质检

2022鸿蒙开发者大赛全球校园AI算法精英赛道-车道渲染数据智能质检赛道介绍及参赛记录分享。参加datawhale组队学习项目实践记录。在地图业务中，导航过程中所看到的背景道路界面是基于地图数据渲染生成。渲染过程中，部分数据会存在不同程度的问题，导致该部分数据渲染生成的道路存在缺陷，诸如缺边少角，异形道路等。为了更高效的检测这部分数据，降低人工成本，质检模型需要达到更高的准确度。

2022-09-13 19:22:14 1364

原创《计算之魂》Task4：关于排序的讨论（二）

本文是学习吴军《计算之魂》1.4所做学习记录。在之前排序基本算法的讨论上，针对一些特殊的序列（不是完全无序），讨论其是否存在更好的排序算法。通过结合之前算法得到的混合算法，如内省排序、蒂姆排序，可以更好应用于这类特殊排序问题上。另外，讨论了为什么排序算法的时间复杂度不低于O（n log n）,转换问题的思想值得我们借鉴。最后，参照相关材料给出了思考题的解答。

2022-09-09 21:46:05 534

原创《计算之魂》Task3：关于排序的讨论

该文是在阅读吴军《计算之魂》1.4章节关于排序的讨论后的读书笔记，在对排序算法的效率和稳定性有了更深刻的了解之后，对以往所学的排序算法进行了梳理和总结。最后，针对课后思考题，参照网上的一些解法给出了自己的一些理解。

2022-09-02 20:55:00 401 1

原创《计算之魂》Task2：怎样寻找最好的算法

针对总和最大区间问题，讨论了不同算法复杂度的解法思路，并对文中的思考题给出了一些见解。

2022-08-26 09:59:13 542

车道渲染数据智能质检赛事baseline： train.ipynb

车道渲染数据智能质检赛事baseline

2022-09-15

U-net搭建.ipynb

2022-07-18

修改模型层.ipynb

2022-07-18

FashionMNIST时装分类.ipynb

FashionMNIST时装分类jupyter 记事本文件

2022-07-14

深度学习+FashionMNIST图像分类+数据集、代码+Pytorch入门

数据集介绍：FashionMNIST数据集中包含已经预先划分好的训练集和测试集，其中训练集共60,000张图像，测试集共10,000张图像。每张图像均为单通道黑白图像，大小为28*28pixel，分属10个类别。适用人群：深度学习、Pytorch初学者适用场景：深度学习、Pytorch入门

2022-07-14

opencv+python+文档扫描处理

资源描述：人工拍摄的文档图片往往存在着背景、边缘不整齐、光线昏暗、文字模糊等各种问题，资源包含一个文档扫描程序，实现电脑端的文档自动背景裁剪、边缘对齐和对比度调整。此外，为了解决小部分文档和背景对比不强烈导致的文档自动裁剪错误问题，增设了手动调整裁剪轮廓的功能，人工拍摄的文档图片往往存在着背景、边缘不整齐、光线昏暗、文字模糊等各种问题，增设了明亮度对比的功能。另外，资源还包含一个GUI的python文件，供参考。适用人群： Python入门实战、Opencv入门实战实用场景：自动识别校正拍摄的背景、边缘不整齐、光线昏暗、文字模糊文档图片其他说明：可作为软著借鉴材料

2022-07-14

数据挖掘、机器学习+数据集+糖尿病遗传风险预测挑战赛公开数据（讯飞开放平台）

赛事链接：https://challenge.xfyun.cn/topic/info?type=diabetes&ch=ds22-dw-wd01 内容概要：赛题数据由训练集和测试集组成，具体情况如下： - 训练集：共有5070条数据，用于构建您的预测模型 - 测试集：共有1000条数据，用于验证预测模型的性能。其中训练集数据包含有9个字段：性别、出生年份、体重指数、糖尿病家族史、舒张压、口服耐糖量测试、胰岛素释放实验、肱三头肌皮褶厚度、患有糖尿病标识（数据标签）。在此基础上增加了两种训练策略的机器学习代码：官方的demo的ipynb代码和一个决策树实现的代码。适用人群：初学数据挖掘、机器学习的新手使用目标及场景：初学数据挖掘、机器学习，，提高实践技能其他说明：学习交流。

2022-07-14

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人