
数据园地
文章平均质量分 75
介绍数据分析相关的知识,包括但不限于数据预处理、数据挖掘、数据可视化。
bluepomelo
这个作者很懒,什么都没留下…
展开
-
数据创建与数据管理
CROWDLAB 估计基于这样的直觉:对于由少数标注者打标签的样本,我们应该更多地依赖分类器的预测,而对于由许多标注者打标签的样本,则应较少依赖分类器的预测(对于许多标注者的样本,简单的Major Vote已经提供了良好的置信度度量)。其中一种评估模型是否在偏颇的数据上训练的方法是在应用模型的时候,把一个具有代表性的数据集拿出来作为验证集。--时间/地点偏颇(比如训练集是在过去收集的,将来的数据可能会分布改变,或者从一个国家收集数据训练出的模型应用到全世界)2.好的标注者和坏的标注者对估计的影响一样。原创 2023-10-26 18:38:26 · 224 阅读 · 0 评论 -
以数据为中心 的AI v.s. 以模型为中心的AI
这是一个学习笔记。原创 2023-10-12 20:03:14 · 693 阅读 · 1 评论 -
类别不均衡,离群点以及分布改变
本文是学习笔记。原创 2023-10-11 16:46:05 · 324 阅读 · 0 评论 -
用Python做特征工程
用Python做特征工程。原创 2022-06-15 15:24:06 · 370 阅读 · 0 评论