自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(4)
  • 收藏
  • 关注

原创 大模型数据工程

低质过滤 语言过滤:如果一个大语言模型仅关注一种或者几种语言,那么就可以大幅度的过滤掉数据中其他语言的文本。 指标过滤:利用评测指标也可以过滤低质量文本。例如,可以使用语言模型对于给定文本的困惑度(Perplexity)进行计算,利用该值可以过滤掉非自然的句子。 统计特征过滤:针对文本内容可以计算包括标点符号分布、符号字比(Symbol-to-Word Ratio)、句子长度等等在内的统计特征,利用这些特征过滤低质量数据。 关键词过滤:根据特定的关键词集,可以识别和删除文本中的噪声或无用元素,例如,HT

2024-06-13 10:27:17 327

原创 机器学习-决策树

决策树 在机器学习领域,决策树不管是在面试过程中还是在工作中都是非常常见的一个算法,所以有必要对决策树算法的概念进行深入的了解。 概念 决策树算法是一种基本的分类和回归算法,本文主要探讨的是分类方法。决策树分类是基于训练数据,根据损失函数最小化的原则建立决策树模型。决策树学习通常包含3个步骤:特征选择、决策树生成和决策树剪枝。分类决策树是一种描述对实例进行分类的树形结构。决策树由结点和有向边组成,结点有两种类型:内部结点和叶结点。内部结点表示一个特征或属性,叶结点表示一个类。 分类决策树选择特征的三种算法(

2021-12-05 16:05:11 178

转载 Python基础(day02)

day01回顾: python的版本    python 2    python 3 解释执行器   python3 (c语言开发,CPython的一种) python 文件的后缀 .py 运行的两种模式:   执行模式:     python3 xxx.py   交互模式:     python <回车>     >>> 数字类型:   整型数 int, ...

2018-11-16 17:26:51 431

转载 Python基础(day01)

简介     python的诞生       创建人:Guido van Rossum(荷兰人)       时 间:1989年     python语言的应用领域:       系统运维       网络编程(搜索引擎,爬虫,服务器编程)       科学计算       人工智能,机器人       web 开发       云计算       大数据以及数据库编程       教育    ...

2018-11-16 17:24:49 194

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除