贴吧qq爬虫

最新推荐文章于 2024-08-10 07:33:13 发布

asleepp

最新推荐文章于 2024-08-10 07:33:13 发布

阅读量646

点赞数

CC 4.0 BY-SA版权

分类专栏： python—排序文章标签： Python 爬虫贴吧qq 大数据

本文链接：https://blog.youkuaiyun.com/asleepp/article/details/50775739

python—排序专栏收录该内容

2 篇文章

订阅专栏

本文介绍了一种利用Python爬虫技术批量抓取百度贴吧帖子中的QQ号的方法，通过翻页和正则表达式筛选，实现自动化数据收集。

在贴吧大家都留下了qq 一个一个加太麻烦所以洗了个爬虫用来抓取发帖的qq

#coding=utf-8
from lxml import etree
import requests
import re
import sys
reload(sys)
sys.setdefaultencoding("utf-8")
# print sys.getdefaultencoding()

l=[]#定义空列表  用来存放页数有规律的网址
total_page=3
for i in range(1,total_page+1):#这一模块实现翻页存放
    url_origin ='http://tieba.baidu.com/p/967060413?pn=1'
    url = re.sub('pn=\d+','pn=%d'%i,url_origin,re.S)
    #sub实现翻页 sub具有替换的作用
    l.append(url)
for url in l:
    html = requests.get(url).text#获取网页源码
    f1=open('D://info.txt','w+')#以‘读写’的方式打开文件 如果不存在就创建
    selector=etree.HTML(html)#爬虫引入
    q=selector.xpath('//div[@class="d_post_content j_d_post_content "]/text()')#采用xpath获取发帖内容（在此区域存在qq）
    for j in q:#把内容写入到文件里
        f1.write(j)
    f1.close()
    uth='D://info.txt'
    qth = unicode(uth, "utf-8")#进行编码转换 否则可能显示为乱码
    f1=open(qth)
    qq=f1.read()
    qqq=re.findall(r'\d+',qq,re.S)#正则找到所有的数字
    for i in qqq:
        if 8<=len(i)<=10:#qq号码在8-10位，其余的为电话号码
            print i
    f1.close()