这两天在写爬虫,但由于前期只想将数据保存下来就行,后期直接进行预处理就行,但突然发现在批量预处理时txt文件明显比不上csv格式,所以我需要将我已经爬取的txt文件保存为csv格式。
这是读取txt文件,并将每行不需要的数据给剔除掉,因为爬虫时有很多的空数据没有处理
for line in f.readlines():
# print (line)
l.append(str(line))
while '\n' in l:
l.remove('\n')
while ' \n' in l:
l.remove(' \n')
while ' \xa0\n' in l:
l.remove(' \xa0\n')
f.close()
print("len=", len(l))
这段是提取出我需要的行单独保存,并将提取的数据保存单独的数组
for i in range(len(l) - 1):
if "景色:" in l[i]:
one = l[i][55:-2]
two = l[i + 1][55:-2]
three = l[i + 2][56:-2]
t