- 博客(12)
- 收藏
- 关注
原创 【NLP 基础:文本预处理、分词与词袋模型(优化版】
文本预处理的目的是将原始文本数据转换为适合机器学习模型处理的格式。通过清洗和标准化文本数据,可以提高模型的性能和准确性。
2025-03-05 23:08:28
980
原创 深度学习--数据加载
1. **手写 `Dataset` 类**2. **数据集划分**2.1 使用Subset创建子集Subset 类的定义参数说明关键方法示例代码使用场景注意事项2.2 使用 `random_split` 将数据集划分为训练集、验证集和测试集。函数定义1. 基本用法2. 设置随机种子3. 划分为多个子集注意事项与 `Subset` 的区别3. **数据集加载**3.1 **`DataLoader` 的功能**3.2 **`DataLoader` 的参数**
2025-03-03 23:07:03
818
原创 【时间序列--相似性分析】
比较项DTW(动态时间规整)余弦相似度计算方式距离累积,通过最优路径规整向量间夹角是否等长要求不要求需要等长关注点时间序列中的对齐、匹配向量的方向或趋势应用场景时间序列分析、语音识别等文本相似度、推荐系统等DTW 更适合长度不一、非线性对齐的时间序列,而余弦相似度则适用于高维度向量的方向性相似性判断。时序相似性:适合关注特定时间点数据对齐的任务。形状相似性:适合关注整体趋势和形状的任务。变化相似性:适合需要识别和跟踪变化模式的任务。
2024-11-12 15:29:57
1738
原创 【OpenCV】
cv.WINDOW_NORMAL 可以调整窗口大小。默认是cv.WINDOW_AUTOSIZE。-1:代表加载图像,包括alpha通道。1:代表彩色图像(忽略透明度)
2024-11-07 15:56:58
267
原创 【机器学习-----聚类】
SSE 计算的是每个数据点到其簇中心的距离的平方和,用于衡量聚类的紧密度。值越小表示聚类效果越好,常用于 K-Means 聚类评估。
2024-11-06 22:50:20
1008
原创 python
可以使用大括号 { } 或者 set() 函数创建集合,但是注意如果创建一个空集合必须用 set() 而不是 { },因为{}是用来表示空字典类型的。不可变数据(3 个):Number(数字)、String(字符串)、Tuple(元组);可变数据(3 个):List(列表)、Dictionary(字典)、Set(集合)。t = (100, 200) # 不能修改。在 func.py 中写了func1 函数。
2024-07-22 20:43:42
349
2
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人