【数据清洗】从txt读取行文本，并存成一个list

最新推荐文章于 2024-04-03 20:35:15 发布

原创最新推荐文章于 2024-04-03 20:35:15 发布 · 1.5k 阅读

1 ·

CC 4.0 BY-SA版权

学习记录专栏收录该内容

5 篇文章

订阅专栏

本文介绍了一种使用Python读取TXT文件并处理其中的字符串数据的方法，包括如何利用strip()函数去除字符串两端的换行符，以及如何将读取到的数据存储为列表进行后续处理。此外，还演示了如何判断特定字符串是否存在于列表中。

TXT：
IQIYI_VID_TRAIN_0000001.mp4
IQIYI_VID_TRAIN_0000002.mp4
IQIYI_VID_TRAIN_0000003.mp4
IQIYI_VID_TRAIN_0000004.mp4
IQIYI_VID_TRAIN_0000005.mp4
IQIYI_VID_TRAIN_0000006.mp4
IQIYI_VID_TRAIN_0000008.mp4
IQIYI_VID_TRAIN_0000009.mp4
IQIYI_VID_TRAIN_0000010.mp4

import sys
result=[]

with open('VID.txt', 'r') as f:
    for line in f:
        result.append(line.strip('\n'))

print(len(result))
print(result)
str = 'IQIYI_VID_TRAIN_0000004.mp4'

if str in result:
    print('yes')
else:
    print('no')

工具：
1.strip()：用于移除字符串头尾指定的字符，默认为空格，返回是字符串
2.split()：通过指定分隔符对字符串进行切片，返回是字符串组成的list
输出：
[‘IQIYI_VID_TRAIN_0000001.mp4’, ‘IQIYI_VID_TRAIN_0000002.mp4’, ‘IQIYI_VID_TRAIN_0000003.mp4’, ‘IQIYI_VID_TRAIN_0000004.mp4’, ‘IQIYI_VID_TRAIN_0000005.mp4’, ‘IQIYI_VID_TRAIN_0000006.mp4’, ‘IQIYI_VID_TRAIN_0000008.mp4’, ‘IQIYI_VID_TRAIN_0000009.mp4’, ‘IQIYI_VID_TRAIN_0000010.mp4’]
yes

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

QB_truth

关注关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

如何在 Python 中逐行读取一个文件到列表？

zhangzhechun的专栏

12-20

956

【代码】如何在 Python 中逐行读取一个文件到列表？

tcl语言读取文件一行_TCL语言笔记：TCL中的列表操作

weixin_39572168的博客

12-22

2731

一、介绍列表则是具有特殊解释的字符串。Tcl 中的列表操作和其它 Tcl 命令一样具有相同的结构。列表可应用在诸如 foreach 这样的以列表为变元的循环命令中，也应于构建 eval 命令的延迟命令字符串。二、TCL列表相关命令命令说明listarg1 arg2 ...创建一个列表lindex list index返回列表 list 中的第 index 个元素(element)值llength...

参与评论您还未登录，请先登录后发表或查看评论

python在txt中的替换数据清洗_数据清洗

weixin_34246826的博客

12-20

1809

数据清洗是数据分析的基础工作，但是数据清洗占据了整个数据分析绝大部分的工作量。很多业务数据都是从各个渠道收集过来的，不可避免的有一些缺失数据、重复的数据、单位不统一的数据（比如体重，有的渠道收集的是kg，有的渠道收集的可能是斤）、甚至是明显错误的数据（比如人的年龄不可能是负数，但是收集上来的数据，年龄这个字段竟然有负值）等。数据清洗的工作就是保证取得的数据尽可能干净、完整且符合逻辑，为后续的数据统...

利用python清理CSV和txt格式数据（附代码）

tyh70537的博客

06-20

7847

下面代码主要包括CSV以及txt文件的读写和清理（将离散变量用数字代替） # -*- coding: utf-8 -*- import numpy as np import pandas as pd def loadData(filename): ''' 用于读取CSV或txt文件 ''' dataMat = [] fr = open(filename) for li...

excel批量转换为txt文本文档及数据清洗整理检查小工具

05-25

该小程序主要适用于大量excel导入ORACLE数据库时，批量将excel转换为TXT文本文档并同时完成数据清洗，特定分隔符转换，以及数据质量检查。适用于大数据分析者。内含使用说明文档。

Python数据处理工具—去除TXT文件里面相同的数据

weixin_54243306的博客

02-15

2641

Python数据处理工具

MFC读取txt，分割显示到listctrl控件上

11-12

MFC读取txt，分割显示到listctrl控件上

Unity读取一个文件夹路径的所有图片并把他们整合成List集合

qq_38411133的博客

09-12

5599

此文代码为宅小丰原创，转载，复制请注明!!! 因为项目有需求从一个文件夹读取所有的照片并转为Texture2d来使用，具体需求如下图：即读取上图所有图片并存放在一个List能通过链式方式调用,下面上代码： [Serializable] public class ImageList //文件夹读取所有照片后存放的名字的类 { [SerializeField] pu...

txt = open('D:/python/wenjian/stopwords.txt','r').read() excludes = list(set(txt.split(','))) def getTxt(): txt = open("D:/python/wenjian/hamlet.txt", 'r').read().lower() for ch in '!"#$%&()*+,-./:;<=>?@[\\]^_`{|}~': txt = txt.replace(ch, ' ') return txt hamletTxt = getTxt() words = hamletTxt.split() counts = {} for word in words: counts[word] = counts.get(word, 0) + 1 for word in excludes: if word not in words: pass else: del(counts[word]) items = list(counts.items()) new_items = sorted(items, key = lambda x:x[1], reverse=True)1.使用with语句确保文件自动关闭，添加异常处理，文件不存在时提示，2.读取文本：read_file,清洗文本：clean_file,统计文本：count_file,输出结果：prin_results,3.使用正则表达式替代字符逐个替换：re.sub(r"[^a-zA-Z'\s"]", " ",test),4.使用参数传入文件路径，不写死路径，支持设置输出前N个高频词，例如top_n=10, 5.从文件读取停用并存为set(),便于快速查找，在统计时跳过停用词：if word not in stopwords: 6.优化输出格式：print(f"{word:<15}{count:>10}")

04-25

每个函数需要职责单一，比如read_file负责读取文件内容，clean_text处理文本清洗，count_words统计词频，print_results输出结果。正则表达式清洗文本，用户可能需要去除特殊符号、数字等非字母字符。可以用re.sub...

import numpy as np # 导入numpy命名为np import os # 导入os库 os模块是整理文件和目录最为常用的库，其提供丰富的方法来处理文件和目录 from sklearn.model_selection import cross_val_score # 从sklearn库的model_selection类中导入cross_val_score方法用来通过交叉验证选择最佳k值 from sklearn.neighbors import KNeighborsClassifier # 从sklearn库的neighbors类中导入KNeighborsClassifier方法用来生成k近邻分类器 from sklearn.metrics import precision_score # 从sklearn库的metrics类中导入precision_score方法用来计算分类器的精确率（查准率） from sklearn.metrics import recall_score # 从sklearn库的metrics类中导入recall_score方法用来计算分类器的召回率（查全率） import matplotlib.pyplot as plt raw_data = b'123\x00456' # 示例含空字符的二进制数据 # 方案A：移除所有空字符 clean_str = raw_data.decode('utf-8').replace('\x00', '') number = int(clean_str) # 123456 # 从matplotlib中导入导入pyplot类并定义一个别名plt # 2定义将图像转化为向量的函数 def img2vector(filename): # 定义将图像转化为向量的函数 # 为了使用KNN模型，我们需要将图片转化为一个行向量。由于图片大小为32*32，故需要一个1024大小的行向量存储。 # filename文件目录名 # 函数返回的向量array # 创建向量 vect = np.zeros(1024) fr = open(filename) # 打开数据文件，并将每行的字符转换成整形数字放在向量vect中 for i in range(32): # 循环读取每一行 line_str = fr.readline() for j in range(32): # 将每行前32字符转成int存入向量 vect[32 * i + j] = int(line_str[j]) return vect # 3从文件夹中读取数据，获得训练数据和测试数据 def obtain_train_test(): """读取训练集和测试集数据""" # 处理训练数据 train_text_name = os.listdir('Data/trainingDigits') # 测试数据的文件名列表 # os.listdir(path）中有一个参数，就是传入相应的路径，将会返回那个目录下的所有文件名 num_train = len(train_text_name) # 用于测试的txt文件个数 train_matrix = np.zeros((num_train, 1024)) # 初始化测试样本数据矩阵，矩阵的每一行对应由一个测试数据集中图像转换而成的向量 label_train = [] for i in range(num_train): # 依次读取测试数据集文件夹中所有测试样本数据到矩阵train_matrix中 # 提取文件名中的数字 text_name = train_text_name[i] # 第i个测试数据的文件名 # 去掉．txt name_str = text_name.split('.')[0] # split(）方法是用来拆分字符串，通过指定分隔符对字符串进行切片，并返回分割后的字符串列表（list) # 因此text_name.split('.')[0］存储的是字符串text_name中．前面的内容 # 获取第一个字符，即它是哪一个数字 # 下面提取每一个测试数据（图像，txt文件）对应的数字 label_num = int(name_str.split('_')[0]) # 首先用分隔符对字符串name_str进行切片，并返回分割后的字符串列表（list) # 再提取分割后的字符串列表中的第0个元素，因此name_str.split('_')[0］存储的是字符串name_str中＿前面的内容 # 最后将其转换为整形，若测试数据的txt文件名称为0_1.txt，则label_num = 0，表示该测试数据的标签为0 label_train.append(label_num) # 保存训练数据标签 # 下面将训练样本存入矩阵train_matrix train_matrix[i, :] = img2vector('Data/trainingDigits/' + text_name) # 将Data/trainingDigits/下的每一个tex文件转换成一个向量并存放在train_matrix中第i行 # 处理测试数据 test_text_name = os.listdir('Data/testDigits') # 测试数据的文件名列表 # os.listdir(path）中有一个参数，就是传入相应的路径，将会返回那个目录下的所有文件名 num_test = len(test_text_name) # 用于测试的txt文件个数 test_matrix = np.zeros((num_test, 1024)) # 初始化测试样本数据矩阵，矩阵的每一行对应由一个测试数据集中图像转换而成的向量 label_test = [] for i in range(num_test): # 依次读取测试数据集文件夹中所有测试样本数据到矩阵test_matrix中 # 提取文件名中的数字 text_name = test_text_name[i] # 第i个测试数据的文件名 # 去掉．txt name_str = text_name.split('.')[0] # split(）方法是用来拆分字符串，通过指定分隔符对字符串进行切片，并返回分割后的字符串列表（list) # 因此text_name.split('.')[0］存储的是字符串text_name中．前面的内容 # 获取第一个字符，即它是哪一个数字 # 下面提取每一个测试数据（图像，txt文件）对应的数字 label_num = int(name_str.split('_')[0]) # 首先用分隔符对字符串name_str进行切片，并返回分割后的字符串列表（list) # 再提取分割后的字符串列表中的第0个元素，因此name_str.split('_')[0］存储的是字符串name_str中＿前面的内容 # 最后将其转换为整形，若测试数据的txt文件名称为0_1.txt，则label_num = 0，表示该测试数据的标签为0 label_test.append(label_num) # 保存训练数据标签 # 下面将训练样本存入矩阵train_matrix test_matrix[i, :] = img2vector('Data/testDigits/' + text_name) # 将Data/trainingDigits/下的每一个tex文件转换成一个向量并存放在test_matrix中第i行 return train_matrix, label_train, test_matrix, label_test # 获取训练和测试数据 train_matrix, label_train, test_matrix, label_test = obtain_train_test() # 检查类别分布并确定合适的交叉验证折数 unique, counts = np.unique(label_train, return_counts=True) class_distribution = dict(zip(unique, counts)) print("类别分布:", class_distribution) min_samples = min(counts) cv_folds = min(10, min_samples) # 确保折数不超过最小类别样本数 print(f"使用{cv_folds}折交叉验证") # 首先使用训练集通过交叉验证确定最优的k k_range = range(1, 14) # 生成1到14,k_range是k的取值范围 cv_score_acc = [] # 用来存放每个k对应的精确率 for k in k_range: knn = KNeighborsClassifier(k) score_acc = cross_val_score(knn, train_matrix, label_train, cv=cv_folds, scoring='accuracy') # 每种类型的训练样本差异不大，因此可以用准确率评估模型性能 cv_score_acc.append(score_acc.mean()) plt.plot(k_range,cv_score_acc) plt.xlabel('k') plt.ylabel('accuracy') plt.show() # 对该训练数据最优的k值 # 使用最优的k值和训练数据训练出一个knn分类器，对测试数据进行预测，并对结果进行评价分析 # 使用最优k值和训练数据训练出一个knn分类器 knn = KNeighborsClassifier(k_opt) # 实例化 knn.fit(train_matrix,label_train) # 使用训练数据训练 label_test_pred = knn.predict(test_matrix) # 使用训练好的knn分类器对测试数据进行预测 acc_test = 1 - sum(label_test_pred != label_test) / len(label_test) # 测试数据的准确性 precision_micro = precision_score(label_test,label_test_pred,average='micro') precision_macro = precision_score(label_test,label_test_pred,average='macro') recall_micro = recall_score(label_test,label_test_pred,average='micro') recall_macro = recall_score(label_test,label_test_pred,average='macro') print('测试集上的准确率为:',acc_test) print('测试集上的micro_精确率为:',precision_micro) print('测试集上的macro_精确率为:',precision_macro) print('测试集上的micro_召回率为:',recall_micro) print('测试集上的macro_召回率为:',recall_macro) 帮我完善修改