自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(10)
  • 收藏
  • 关注

原创 【Git学习】概念+原理+常用命令(简洁,快速上手)

是指通过执行版本控制、变更控制的规程,以及使用合适的配置管理软件来保证所有配置项的完整性和可跟踪性。版本号的文件关联,一次操作产生多个版本号(使用 “git cat-file -p 版本号” 来安全查看文件内容)图中的箭头表示版本之间的关联,每一次操作都会产生新版本的文件,初始表示 .gitattributes 文件。使用 SHA-1 算法,用于定位仓库种的文件,前 2 位作为文件夹,后 38 位作为文件名。git init:新建本地仓库,只有空的结构,不会新建 main 分支。

2024-07-25 11:38:44 1604

原创 Datawhale AI 夏令营——结营总结

第二期的Datawhale AI 夏令营的机器学习方向与 CV 图像方向完美结束。我很荣幸地成为两个营的优秀学习者。目前的机器学习 Task3 笔记与 CV 的 Task1 笔记被评为优秀笔记。Datawhale是一个专注于数据科学与AI领域的开源组织,汇集了众多领域院校和知名企业的优秀学习者,聚合了一群有开源精神和探索精神的团队成员。

2024-07-21 23:19:07 802

原创 Datawhale AI 夏令营——CV图像竞赛(Deepfake攻防)——Task3学习笔记

数据增强的目的是通过人工方式增加训练数据的多样性,从而提高模型的泛化能力,使其能够在未见过的数据上表现得更好。很容易发现,这种增强带来的不一定是正向收益,而且也不是混合得越多越好,这需要我们不断地去尝试,去试错。这篇文章就没有介绍不同的数据增强代表的含义,是因为确实简单,看看开头的那张图就能很容易理解。使用的是 CIFAR10 的自动增强,确实有提升,但是效果真的一般,不如增强变换。(7)使用 Mixup,就是将两个不同的图像及其标签按照一定的比例混合,从而创建一个新的训练样本。可以看到,分数小有提升。

2024-07-20 19:57:58 714 2

原创 Datawhale AI 夏令营——电力需求挑战赛——Task3学习笔记

这一期学习进阶的特征提取与分析,构建深度学习方案,拿下更高分数,冲冲冲。前两期介绍了代码,没有仔细深化每个优化方向,这里进行补充并尝试新方案。下面是流程图:之前介绍过优化方向 ,开始实践。

2024-07-19 23:55:02 2117

原创 Datawhale AI 夏令营——CPU部署大模型(LLM天池挑战赛)——Task2与3学习笔记

Task2 的任务是组队 + 寻找灵感,这里不作阐述;Task3 的任务是实现 RAG 应用,阅读文档并观看卢哥的直播后,结合个人经验做个分享。运行大语言模型,对 LLM 使用的加深,我们发现,在使用过程中,大模型会有很多幻觉出现。为了解决幻觉,科研人员提出了各种各样的方案,努力提高长上下文下的召回精度,但就成本与效果而言,在目前都不如简单粗暴的检索增强生成(RAG)。

2024-07-18 18:25:04 2349

原创 Datawhale AI 夏令营——CV图像竞赛(Deepfake攻防)——Task2学习笔记

这一篇文章用于从 baseline 理解深度学习,介绍,分享自己的学习过程。深度学习(Deep Learning)是机器学习的一个分支,它使用神经网络模拟人脑的学习方式,从大量数据中自动学习和提取特征,进行预测和决策。它如何学习、怎么训练、什么分类等定义均不在这里介绍,强烈推荐去系统学习,而不是以偏概全。PyTorch是一个流行的开源深度学习框架,广泛用于构建和训练深度学习模型。

2024-07-16 20:30:40 1160

原创 Datawhale AI 夏令营——电力需求挑战赛——Task2学习笔记

LightGBM(Light Gradient Boosting Machine)是一个实现 GBDT 算法的框架,支持高效率的并行训练,并且具有更快的训练速度、更低的内存消耗、更好的准确率、支持分布式可以快速处理海量数据等优点。GBDT (Gradient Boosting Decision Tree) 是机器学习中一个长盛不衰的模型,其主要思想是利用弱分类器(决策树)迭代训练以得到最优模型,该模型具有训练效果好、不易过拟合等优点。LightGBM 框架中还包括随机森林和逻辑回归等模型。

2024-07-16 00:01:24 2164

原创 Datawhale AI 夏令营——CPU部署大模型(LLM天池挑战赛)——Task1学习笔记

检索给出了结果,虽然当前的测试效果不好,但是整体流程正确,我们也确实成功搭建了 千问2 大模型,结合 LlamaIndex 实现了 RAG 系统。baseline 中的代码我并没有全部展示,这里只为了整体流程的通畅与逻辑的清晰。可能的优化点:换新模型,改进模型参数,混合精度训练,修改量化程度,缓存机制,使用 FAISS 等高效的向量检索库,

2024-07-14 22:16:27 1269

原创 Datawhale AI 夏令营——CV图像竞赛(Deepfake攻防)——Task1学习笔记

参赛者需要开发和优化检测模型,以应对多样化的Deepfake生成技术和复杂的应用场景,从而提升Deepfake图像检测的准确性和鲁棒性。这个文件的每一行包含两个部分,分别是图片文件名和模型预测的Deepfake评分(即样本属于Deepfake图像的概率值)上面的第六板块中的 RandomHorizontalFlip() 等函数用于数据变换,只在训练集上进行,而验证集不进行,open()打开了一张测试集里面的图片,是一张大帅哥,用于测试的,这里我就不再展示。获取模型预测的第二个类别的概率。

2024-07-14 17:44:05 1315

原创 Datawhale AI 夏令营——电力需求挑战赛——Task1学习笔记

很简单的流程,最关键的处理数据也只是单纯的筛选、分组、求平均、重置序号、合并。这一份 baseline 只是用来入门,明显可以优化,具体考虑增加数据处理的流程与准确性,参数的选取与加工等等。时间序列问题是指对按时间顺序排列的数据点进行分析和预测的问题,往往用来做未来的趋势预测。比如,基于历史股票每天的股价,预测未来股票的价格走向。可以看出,这里的分数很大,也就是效果很差,具体优化请参考我的下一篇文章 Task2。这里的数据量在百万级别,总共就 68.4 MB,算是比较小的数据集,训练与预测速度都很快。

2024-07-14 12:07:56 974

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除