数据科学
文章平均质量分 69
机器学习算法理论及应用实践相关
撸猫摸鱼选手
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
DataWhale AI夏令营:大模型技术方向(小白学习篇)
0 数据竞赛的tips1 赛题背景2 数据解读及官方例子的baseline学习了解数据task1识别商品(文本编码)task2 用户评论情感分析(文本分类)task3 评论聚类(文本聚类)3 小白的学习总结和回顾官方给的baseline写得很清晰简洁,很好地划分了几个task。代码和模型上在查资料和问AI的基础上慢慢理解,整体流程上,拆分下来还是数据预处理、特征选择构造、预训练和预测提交,虽然在实际的代码里,有很多封装起来的东西,乍一看没那么好理解。原创 2025-07-14 22:11:16 · 632 阅读 · 0 评论 -
NLP实践-文本分类(docker踩坑记录)
前述 本篇记录来源于datawhale组织的组队学习活动,内容是中文预测训练模型泛化能力挑战赛,该比赛采用docker镜像的提交方式,提交打包好的代码镜像来运行得出预测结果。这次学习从学习怎么下载安装docker,还有docker的使用方式开始,满满的都是坑~ 一、Windows Docker的安装 对于Windows 10 家庭版系统,第一步需要确认windows 10的版本,是否为2004或者更高版本。可以在“设置”中,找到“windows更新”,查看windows版本。 更新完后,需要启动Hyper-原创 2021-02-21 23:40:08 · 308 阅读 · 1 评论 -
【大语言模型】02 大模型技术基础
后训练阶段,可以理解为练题阶段,一是指令微调(Instruction Tuning),方法是使用输入于输出配对的指令,目的是提升任务求解能力。二是人类对齐(Human Alignment),想要模型输出的结果好(符合人类的期望需求),需要加入评判,引入基于人类反馈的强化学习方法(RLHF)。KM扩展定律:OpenAI团队建立的神经语言模型性能与参数规模(N)、数据规模(D)、计算算力(C)之间的幂律关系。模型的语言建模损失:不可约损失(真实数据分布的熵)+可约损失(真实和模型的KL散度,可通过优化减少)原创 2025-03-16 21:53:45 · 381 阅读 · 0 评论 -
机器学习(3):支持向量机SVM
前述 支持向量机(support vector machines, SVM)是一种二分类模型,它的基本模型是定义在特征空间上的间隔最大的线性分类器。SVM学习的基本想法是求解能够正确划分训练数据集并且几何间隔最大的分离超平面。 线性支持向量机学习算法如下: 输入:训练数据集 输出:分离超平面和分类决策函数 demo代码示意: import numpy as np import matplotlib.pyplot as plt import seaborn as sns from sklearn impor原创 2020-08-26 20:29:10 · 248 阅读 · 0 评论 -
机器学习(2):决策树
前言 决策树是一种机器学习的方法。决策树是一种树形结构,其中每个内部节点表示一个属性上的判断,每个分支代表一个判断结果的输出,最后每个叶节点代表一种分类结果。 决策树需要监管学习。监管学习就是给出一堆样本,每个样本都有一组属性和一个分类结果,也就是分类结果已知,那么通过学习这些样本得到的决策树,这个决策树能够对新的数据给出正确的分类。 优点: ▪ 具有很好的解释性,模型可以生成可以理解的规则 ▪ 可以发现特征的重要程度 ▪ 模型的计算复杂度低 缺点: 模型容易过拟合,需要采用剪枝处理 不能很好地利用连续型原创 2020-08-22 20:53:18 · 318 阅读 · 0 评论 -
机器学习(1):基于逻辑回归的分类预测
前言 逻辑回归(Logistic regression)是一个分类模型,可解释性强。本次学习主要内容有: 逻辑回归算法原理 逻辑回归算法实践 基于鸢尾花(iris)数据集的分类预测原创 2020-08-20 19:28:02 · 343 阅读 · 0 评论
分享