爬取语料库
利用爬虫爬取百度网页每个类别假新闻10页,共1000篇文章。爬取的类别如下:
数据预处理
汇总
把爬取到的10个txt文件都放在同一个文件夹下,利用程序将这10个txt文件合并在一起。
把汇总的txt文件命名为result.txt。
程序如下:
file: FileMerage.py
# os模块中包含很多操作文件和目录的函数
import os
# 获取目标文件夹的路径
meragefiledir = os.getcwd() + '\\MerageFiles'
# 获取当前文件夹中的文件名称列表
filenames = os.listdir(meragefiledir)
# 打开当前目录下的result.txt文件,如果没有则创建
file = open('result.txt', 'w')
# 先遍历文件名
for filename in filenames:
filepath = meragefiledir + '\\' + filename
&nb