在贴吧大家都留下了qq 一个一个加太麻烦 所以洗了个爬虫用来抓取发帖的qq
#coding=utf-8 from lxml import etree import requests import re import sys reload(sys) sys.setdefaultencoding("utf-8") # print sys.getdefaultencoding() l=[]#定义空列表 用来存放页数有规律的网址 total_page=3 for i in range(1,total_page+1):#这一模块实现翻页存放 url_origin ='http://tieba.baidu.com/p/967060413?pn=1' url = re.sub('pn=\d+','pn=%d'%i,url_origin,re.S) #sub实现翻页 sub具有替换的作用 l.append(url) for url in l: html = requests.get(url).text#获取网页源码 f1=open('D://info.txt','w+')#以‘读写’的方式打开文件 如果不存在就创建 selector=etree.HTML(html)#爬虫引入 q=selector.xpath('//div[@class="d_post_content j_d_post_content "]/text()')#采用xpath获取发帖内容(在此区域存在qq) for j in q:#把内容写入到文件里 f1.write(j) f1.close() uth='D://info.txt' qth = unicode(uth, "utf-8")#进行编码转换 否则可能显示为乱码 f1=open(qth) qq=f1.read() qqq=re.findall(r'\d+',qq,re.S)#正则找到所有的数字 for i in qqq: if 8<=len(i)<=10:#qq号码在8-10位,其余的为电话号码 print i f1.close()