人工智能训练数据-Excel打标签、数据清洗

本文介绍使用Excel为短文本打标签和数据清洗的方法,以用于BERT模型的短文本分类。打标签通过Excel公式组合实现,数据清洗包括定位并删除空单元格、行、列,删除脏数据、回车和制表符等,最后保存为.tsv文件并转为UTF - 8编码。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

今天使用BERT模型对短文本进行分类,整理好的短文本放在了Excel中,准备使用Excel对短文本进行打标签、数据清洗。

打标签

我使用打标签的方法很简单,由于短文本的辨识度比较高,所以我使用了如下Excel公式组合对短文本打标签(因为数据的私密性,所以我只讲方法,数据采用虚拟数据):

如果A1单元格同时包含字符串“大”、“小”、“20”,则标签打成“有”,否则打成“无”

=IF(AND(ISNUMBER(FIND({"大";"小";"20"},A1))),"有","无")  

如果A1单元格包含字符串“大”或“小”或“20”,则标签打成“有”,否则打成“无”
=IF(OR(ISNUMBER(FIND({"大";"小";"20"},A1))),"有","无")

如果A1单元格包含字符串“A”,则标签打成“有”,否则打成“无”,find函数区分大小写
=IF(ISNUMBER(FIND("A",C2)),"有","无")

如果A1单元格包含字符串“A”,则标签打成“有”,否则打成“无”,search函数不区分大小写
=IF(ISNUMBER(SEARCH("A",A1)),"有","无")

若有一条数据占好几行单元格的情况,则使用“取消单元格合并”处理,并“CTRL+G”查找空值,然后使用“CTRL+回车”填充。此方法是为了防止A1占好几行单元格、B1输入公式,B2、B3值异常的情况发生。

数据清洗

  1. 定位空单元格、空行、空列:选中A11单元格,使用“CTRL+SHIFT+→”、“CTRL+SHIFT+↓”查找Excel表中空白的行、列,并删除。使用“CTRL+G”查找空值来定位空的单元格。之所以删除空白值,是因为BERT在取数据时,若遇到空值,会报数组下标超出范围错误。
  2. 删除带有明显关键字的脏数据:使用“开始”--“筛选”,选中带有明显关键词的脏数据,然后选中脏数据的列,进行删除。删脏数据的目的是提高模型训练的质量。
  3. 删除回车、制表符:“CTRL+H”,把光标定位到“查找内容”中,按下“ALT+1+0”键,然后同时松开,点击“替换全部”,这样就可以全部删除回车、制表符。之所以删除制表符,是因为在后续使用Excel另存为“文本文件(制表符分割)(*.txt)”格式时,回车、制表符会发生串行,引起数据紊乱。特别注意:“1”和“0”必须通过小键盘上的数字键位输入,否则不起作用!!!
  4. 文件另存为“文本文件(制表符分割)(*.txt)”格式,并把扩展名改为.tsv。
  5. notepad打开.tsv文件,“编码”--“转为UTF-8”编码,保存,防止Python读.tsv文件时发生编码错误。
  6. 如果Excel第一列为标题,则删除掉。
  7. 最后一行不要留空行。

打标签、清洗数据工作量很大,也是一项特别细致的工作,这一项如果做不好,轻则程序在运行过程中会报各种各样的错误,重则影响模型训练的质量。

### 数据清洗数据分析的方法与流程 #### 数据清洗方法 数据清洗智能体搭建过程中的重要环节,其目的是提高数据的质量以便后续分析。现代数据清洗技术和工具有显著进步,在自动化、效率、可扩展性和用户友好性等方面表现突出[^2]。以下是常用的数据清洗方法: 1. **处理缺失值** 缺失值可以通过删除记录、填充默认值或基于统计学方法(如均值、中位数)进行填补。 2. **去除重复数据** 使用去重算法检测并移除冗余数据,确保数据集的一致性。 3. **修正格式不一致** 统一日期、时间、单位等字段的格式,减少因格式差异带来的错误。 4. **异常值检测与处理** 利用箱线图、Z分数或其他统计方法识别并处理异常值,防止它们对分析结果造成偏差。 5. **集成外部数据源** 当涉及多源数据时,需解决键匹配和冲突问题,以实现无缝融合。 通过上述方法结合人工智能和机器学习技术,可以进一步优化数据质量。 --- #### 数据分析方法 完成数据清洗后,进入数据分析阶段。这是从数据中提取有价值信息的关键步骤[^1]。以下是一些常用的分析方法及其应用场景: 1. **描述性分析** 描述性分析用于总结历史数据的主要特征,通常包括计算平均值、标准差、频率分布等指标。 2. **探索性数据分析 (EDA)** EDA 是一种初步调查手段,旨在发现模式、检验假设以及揭示潜在关系。可视化工具(如直方图、散点图)在此过程中尤为重要。 3. **预测建模** 预测建模依赖于回归分析、分类树和支持向量机等算法来估计未来事件的可能性或数值。 4. **聚类分析** 聚类是一种无监督学习方法,适用于分组相似对象的任务,例如客户细分或产品推荐系统设计。 5. **关联规则挖掘** 此方法广泛应用于电子商务领域,帮助商家理解购买行为之间的联系,从而制定更有效的营销策略[^3]。 6. **会话式数据分析** 借助自然语言处理技术,用户可通过对话形式快速查询复杂数据库,获得即时反馈,极大提升了工作效率[^4]。 --- #### 流程概述 整个数据清洗与分析的过程遵循如下逻辑框架: 1. 明确目标:定义清晰的研究目的或商业需求。 2. 收集原始数据:从内部系统或第三方平台获取相关资料。 3. 清洗数据:按照前述方法执行必要的清理操作。 4. 探索与验证:运用多种图表和技术审查数据特性。 5. 构建模型:选择合适的算法开发预测或解释型解决方案。 6. 解释结果:将定量结论转化为易于理解的语言供利益相关者参考。 7. 实施行动:依据最终报告调整运营计划或者推出新产品/服务。 --- ```python import pandas as pd from sklearn.model_selection import train_test_split from sklearn.preprocessing import StandardScaler from sklearn.cluster import KMeans # 示例代码展示简单的K-Means聚类分析 data = pd.read_csv('cleaned_data.csv') # 加载已清洗好的数据文件 X = data[['feature_1', 'feature_2']] # 提取感兴趣的列作为输入变量 scaler = StandardScaler() scaled_X = scaler.fit_transform(X) kmeans = KMeans(n_clusters=3, random_state=0).fit(scaled_X) labels = kmeans.labels_ print(labels) # 输出每条样本所属类别编号 ``` ---
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值