- 博客(58)
- 资源 (6)
- 收藏
- 关注
原创 Catboost 中Bernoulli采样 vs Bayesian采样 介绍
你可以像调节「显微镜焦距」一样,控制模型对数据的敏感度,从而找到最佳平衡点。你可以将它理解为调节「哪些样本更重要」的开关,类似做饭时调整火候的旋钮。低温(bagging_temperature=0.1)通过这种对比,可以直观理解两种采样的区别及适用场景。高温(bagging_temperature=1)苹果权重分配(Dirichlet分布)是一个关键参数,用于控制样本权重的。在 CatBoost 的。
2025-02-27 14:30:39
743
原创 python 爬虫自动获取 GB/T 7714 引用格式
介绍:从 Google Scholar 网站(具体为 https://xueshu.aigrogu.com/)收集文章信息,包括文章标题、链接和 GB/T 7714 引用格式。该代码接收一个文章标题列表,遍历列表中的每个标题,打开网页进行搜索,解析搜索结果页面,提取相关信息,并将提取到的 GB/T 7714 引用信息存储到文件 references.txt 中。实现了从特定网站自动搜索文章信息并提取 GB/T 7714 引用信息的功能,可将结果存储到文件中。路径和等待时间的调整,以确保程序的稳定运行。
2025-01-14 15:59:32
478
原创 远程服务器文件和本地文件同步的一个方法
背景:在远程服务器改代码并测试后(因为账号问题不允许直接 git),希望将更改同步到本地设备然后 git push 到代码仓库。
2024-08-22 11:30:34
447
原创 托管你的程序——命令行后台运行记录
笔者在网页端远程连接服务器使用命令行跑代码生成数据时,离开了一会然后电脑熄屏了,程序终止了。。。崩溃,查询记录后台运行常用指令,记录如下,一劳永逸:)
2024-07-11 20:15:28
428
原创 DataWhale 机器学习夏令营第二期——AI量化模型预测挑战赛 学习记录
DataWhale 机器学习夏令营第二期——AI量化模型预测挑战赛
2023-08-06 21:41:11
1433
3
原创 SQL—— CASE 表达式
获取只加入一个社团的学生的社团 ID 和 加入多个社团的学生的主社团 ID。某公司规定“女性员工的工资必须在 20 万日元以下。 注意对比 逻辑与 P ^ Q。
2023-04-02 18:18:22
100
原创 Datawhale组队学习:大数据 D2——分布式文件系统(HDFS)
介绍了Hadoop分布式文件系统的概念,结构,读写方式,容错处理,以及简单的实验操作。
2023-02-18 21:02:43
668
原创 Datawahle组队学习——妙趣横生大数据 Day1
了解大数据的概述和Hadoop的介绍,进行了Hadoop3.3.1伪分布式安装和集群式安装。
2023-02-15 15:07:53
974
原创 CAM:Class Activation Mapping 类激活映射
介绍CAM(类激活映射),一项关于深度学习可视化的奠基之作。如何通过 GAP 全局平局池化实现类激活可视化。
2022-12-17 20:16:00
1579
原创 人性化语言生成与鉴别 学术交流
机器学习快速发展推动语言、图像领域发展和应用局限性需要大量结构化数据,小数据性能差语音实例能实用 的语言识别系统需要大量标注数据接近真人的合成语言单人需要十多小时,个性化语言数据却很少
2022-12-16 15:39:16
151
原创 智能无人系统学术交流
典型例子:Boston Dynamics 研制 : 机器人无人车(清华、同济、湖南…)无人机美国直观外科公司:手术机器人特斯拉: 智能工厂空间智能机器人
2022-12-16 15:19:14
90
原创 Datawhale 李宏毅机器学习 Task5
因为 在 critical point (梯度接近0)处 一阶导 等于 0, 所以 只留下 含 Hessian 矩阵的二阶导数项。扩展: 现在有其他方法,无需计算 Hessian 矩阵 即可判断 critical point 是否为 鞍点。在考虑 并行运算时, 大的 Batch-size 在跑完一个epoch 时间比小的少。一个解释:开始 走小路, 让 分母的参数获得更多可靠的统计信息。Batch-size 小:不稳定, 时间短。Batch-size 大: 稳定,时间长。(但实际不一定,见下分析)
2022-11-23 21:50:27
585
原创 Datawhale 李宏毅机器学习 Task2
讨论了回归,找到一个函数 function ,通过输入特征 x,输出一个数值 Scalar。已经如何实现回归。
2022-11-16 20:45:56
248
原创 论文阅读 | Dual-stream Multiple Instance Learning Network
背景:解决WSI(高分辨率、缺乏局部注释)分类问题。工作:提出一种基于MIL的WSI分类和病灶检查的方法。1. 提出一种新颖的MIL聚合器,通过可训练的距离度量对双流架构中实例的关系进行建模;2. 提出了自监督对比学习来提取MIL的良好表示(WSI会产生阻碍MIL模型训练的大型或不平衡包),并缓解大型包的高内存的问题;3. 对多尺度WSI特征采用金字塔融合机制,进一步提高分类和定位的准确性。
2022-10-31 12:14:48
1385
1
原创 Datawhale-车道渲染数据智能质检
2022鸿蒙开发者大赛 全球校园AI算法精英赛道-车道渲染数据智能质检 赛道介绍及参赛记录分享。参加datawhale组队学习项目实践记录。在地图业务中,导航过程中所看到的背景道路界面是基于地图数据渲染生成。渲染过程中,部分数据会存在不同程度的问题,导致该部分数据渲染生成的道路存在缺陷,诸如缺边少角,异形道路等。为了更高效的检测这部分数据,降低人工成本,质检模型需要达到更高的准确度。
2022-09-13 19:22:14
1291
原创 《计算之魂》Task4:关于排序的讨论(二)
本文是学习吴军《计算之魂》1.4所做学习记录。在之前排序基本算法的讨论上,针对一些特殊的序列(不是完全无序),讨论其是否存在更好的排序算法。通过结合之前算法得到的混合算法,如内省排序、蒂姆排序,可以更好应用于这类特殊排序问题上。另外,讨论了为什么排序算法的时间复杂度不低于O(n log n),转换问题的思想值得我们借鉴。最后,参照相关材料给出了思考题的解答。
2022-09-09 21:46:05
468
原创 《计算之魂》Task3:关于排序的讨论
该文是在阅读吴军《计算之魂》1.4章节 关于排序的讨论 后的读书笔记,在对排序算法的效率和稳定性有了更深刻的了解之后,对以往所学的排序算法进行了梳理和总结。最后,针对课后思考题,参照网上的一些解法给出了自己的一些理解。
2022-09-02 20:55:00
361
1
深度学习+FashionMNIST图像分类+数据集、代码+Pytorch入门
2022-07-14
opencv+python+文档扫描处理
2022-07-14
数据挖掘、机器学习+数据集+糖尿病遗传风险预测挑战赛公开数据(讯飞开放平台)
2022-07-14
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人