贴吧qq爬虫

本文介绍了一种利用Python爬虫技术批量抓取百度贴吧帖子中的QQ号的方法,通过翻页和正则表达式筛选,实现自动化数据收集。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

在贴吧大家都留下了qq  一个一个加太麻烦 所以洗了个爬虫用来抓取发帖的qq

#coding=utf-8
from lxml import etree
import requests
import re
import sys
reload(sys)
sys.setdefaultencoding("utf-8")
# print sys.getdefaultencoding()

l=[]#定义空列表  用来存放页数有规律的网址
total_page=3
for i in range(1,total_page+1):#这一模块实现翻页存放
    url_origin ='http://tieba.baidu.com/p/967060413?pn=1'
    url = re.sub('pn=\d+','pn=%d'%i,url_origin,re.S)
    #sub实现翻页 sub具有替换的作用
    l.append(url)
for url in l:
    html = requests.get(url).text#获取网页源码
    f1=open('D://info.txt','w+')#以‘读写’的方式打开文件 如果不存在就创建
    selector=etree.HTML(html)#爬虫引入
    q=selector.xpath('//div[@class="d_post_content j_d_post_content "]/text()')#采用xpath获取发帖内容(在此区域存在qq)
    for j in q:#把内容写入到文件里
        f1.write(j)
    f1.close()
    uth='D://info.txt'
    qth = unicode(uth, "utf-8")#进行编码转换 否则可能显示为乱码
    f1=open(qth)
    qq=f1.read()
    qqq=re.findall(r'\d+',qq,re.S)#正则找到所有的数字
    for i in qqq:
        if 8<=len(i)<=10:#qq号码在8-10位,其余的为电话号码
            print i
    f1.close()

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值