人工智能模型训练：从不同格式文件中读取训练数据集

果冻人工智能

已于 2024-11-11 09:56:05 修改

阅读量1.1k

点赞数 25

CC 4.0 BY-SA版权

文章标签：人工智能

于 2024-11-11 09:55:35 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/JellyAI/article/details/143673094

上一篇：《研发LLM模型，如何用数值表示人类自然语言？》

序言：人工智能数据工程师在采集数据时往往会使用不同的工具，因此最终得到的原始数据结构各不相同。市场上已知的数据采集和分析工具所输出的文件格式大致有几种。前面我们介绍了如何从谷歌的TFDS中提取支持的格式数据，今天将为大家讲解两类更常用的数据集文件格式：CSV和JSON结构化数据集。这些数据集的质量和组织方式在很大程度上决定了模型的质量和成功与否。

从CSV文件中读取文本

虽然TFDS有很多优秀的数据集，但它并不是包罗万象的，很多时候你需要自己管理数据的加载。NLP数据最常见的格式之一就是CSV文件。在接下来的几章中，你将使用一个我从开源的文本情感分析数据集改编的Twitter数据CSV文件。你将使用两个不同的数据集，一个用于二元分类，将情感简化为“positive”或“negative”，另一个则使用全范围的情感标签。每个数据集的结构是相同的，所以我只展示二元版本。

Python的csv库使得处理CSV文件变得简单。在这种情况下，数据存储在每行两个值的形式中。第一个值是一个数字（0或1），表示情感是消极还是积极。第二个值是一个包含文本的字符串。

以下代码将读取CSV文件并进行与我们在前一部分中相似的预处理。它会在复合词的标点符号周围添加空格，使用BeautifulSoup去除HTML内容，然后删除所有标点符号字符：

import csv

sentences = []

labels = []

with open('/tmp/binary-emotion.csv', encoding='UTF-8') as csvfile:

reader = csv.reader(csvfile, delimiter=",")

for row in reader:

labels.append(int(row[0]))

sentence = row[1].lower()

sentence = sentence.replace(",", " , ")

sentence = sentence.replace(".", " . ")

sentence = sentence.replace("-", " - ")

sentence = sentence.replace("/", " / ")

soup = BeautifulSoup(sentence)

sentence = soup.get_text()

words = sentence.split()

filtered_sentence = ""

for word in words:

最低0.47元/天解锁文章

200万优质内容无限畅学

果冻人工智能

博客等级

码龄1年

290
原创

5591
点赞

3347
收藏

2575
粉丝

关注

私信

热门文章

上一篇：: GPT-5 终于来了 —— 人们的预期与现实

下一篇：: 人工智能是这样理解“情绪”的

最新评论

AGI只是美国硅谷的一场幻觉吗？
killyou12345678: 果冻兄，端侧具身智能AI模型+芯片+系统，是否能讨论下？
5 个开源 MCP 服务器，让你的 AI 代理无所不能
qq_29424283: 我在Trae CN软件中，添加MCP Server，市场中看到了GitHub，但是添加的时候他问我要API....
AI能否取代软件架构师？我将4个大语言模型进行了测试
weixin_44260104: AI未来首先要解决的问题是原始样本数据的扩充与污染问题
Nvidia 开源了“Describe Anything”——10 个现实应用场景，震撼你的认知
果冻人工智能: 💬 有朋友问这类 AI 应用怎么落地到自己行业？我们团队专做 AI 软硬件一体的实战方案，包括模型部署、推理系统、图像识别等落地服务，有需求可以私信我聊聊。 📩 学AI？做AI项目？搞AI训练推理设备？都可以来问我。
Chain-of-Draft (CoD) 是提示工程的新王者
果冻人工智能: 💬 想知道 CoD 提示法怎么实战应用到你自己的项目里？我整理了一套完整的模型推理优化资料 + 实战部署经验包。 📩 后台私信【CoD资料】，我发你一整套落地方案。 🔧 技术实战派 | AI软硬件一体解决者，欢迎来交流技术落地路线！

最新文章

2025

目录

展开全部

收起

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。