- 博客(4)
- 收藏
- 关注
原创 大模型数据工程
低质过滤语言过滤:如果一个大语言模型仅关注一种或者几种语言,那么就可以大幅度的过滤掉数据中其他语言的文本。指标过滤:利用评测指标也可以过滤低质量文本。例如,可以使用语言模型对于给定文本的困惑度(Perplexity)进行计算,利用该值可以过滤掉非自然的句子。统计特征过滤:针对文本内容可以计算包括标点符号分布、符号字比(Symbol-to-Word Ratio)、句子长度等等在内的统计特征,利用这些特征过滤低质量数据。关键词过滤:根据特定的关键词集,可以识别和删除文本中的噪声或无用元素,例如,HT
2024-06-13 10:27:17
243
原创 机器学习-决策树
决策树在机器学习领域,决策树不管是在面试过程中还是在工作中都是非常常见的一个算法,所以有必要对决策树算法的概念进行深入的了解。概念决策树算法是一种基本的分类和回归算法,本文主要探讨的是分类方法。决策树分类是基于训练数据,根据损失函数最小化的原则建立决策树模型。决策树学习通常包含3个步骤:特征选择、决策树生成和决策树剪枝。分类决策树是一种描述对实例进行分类的树形结构。决策树由结点和有向边组成,结点有两种类型:内部结点和叶结点。内部结点表示一个特征或属性,叶结点表示一个类。分类决策树选择特征的三种算法(
2021-12-05 16:05:11
148
转载 Python基础(day02)
day01回顾:python的版本 python 2 python 3解释执行器 python3 (c语言开发,CPython的一种)python 文件的后缀 .py运行的两种模式: 执行模式: python3 xxx.py 交互模式: python <回车> >>>数字类型: 整型数 int, ...
2018-11-16 17:26:51
385
转载 Python基础(day01)
简介 python的诞生 创建人:Guido van Rossum(荷兰人) 时 间:1989年 python语言的应用领域: 系统运维 网络编程(搜索引擎,爬虫,服务器编程) 科学计算 人工智能,机器人 web 开发 云计算 大数据以及数据库编程 教育 ...
2018-11-16 17:24:49
167
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人