自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(4)
  • 收藏
  • 关注

原创 大模型数据工程

低质过滤语言过滤:如果一个大语言模型仅关注一种或者几种语言,那么就可以大幅度的过滤掉数据中其他语言的文本。指标过滤:利用评测指标也可以过滤低质量文本。例如,可以使用语言模型对于给定文本的困惑度(Perplexity)进行计算,利用该值可以过滤掉非自然的句子。统计特征过滤:针对文本内容可以计算包括标点符号分布、符号字比(Symbol-to-Word Ratio)、句子长度等等在内的统计特征,利用这些特征过滤低质量数据。关键词过滤:根据特定的关键词集,可以识别和删除文本中的噪声或无用元素,例如,HT

2024-06-13 10:27:17 243

原创 机器学习-决策树

决策树在机器学习领域,决策树不管是在面试过程中还是在工作中都是非常常见的一个算法,所以有必要对决策树算法的概念进行深入的了解。概念决策树算法是一种基本的分类和回归算法,本文主要探讨的是分类方法。决策树分类是基于训练数据,根据损失函数最小化的原则建立决策树模型。决策树学习通常包含3个步骤:特征选择、决策树生成和决策树剪枝。分类决策树是一种描述对实例进行分类的树形结构。决策树由结点和有向边组成,结点有两种类型:内部结点和叶结点。内部结点表示一个特征或属性,叶结点表示一个类。分类决策树选择特征的三种算法(

2021-12-05 16:05:11 148

转载 Python基础(day02)

day01回顾:python的版本   python 2   python 3解释执行器  python3 (c语言开发,CPython的一种)python 文件的后缀 .py运行的两种模式:  执行模式:    python3 xxx.py  交互模式:    python <回车>    >>>数字类型:  整型数 int, ...

2018-11-16 17:26:51 385

转载 Python基础(day01)

简介    python的诞生      创建人:Guido van Rossum(荷兰人)      时 间:1989年    python语言的应用领域:      系统运维      网络编程(搜索引擎,爬虫,服务器编程)      科学计算      人工智能,机器人      web 开发      云计算      大数据以及数据库编程      教育   ...

2018-11-16 17:24:49 167

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除