python抓取招聘信息简单代码

本文展示了如何使用Python的urllib2和re库抓取并解析腾讯招聘页面的表格数据,将内容写入文件。首先设置User-Agent,然后构造请求URL,通过Request发送请求,获取响应并读取页面内容,再用正则表达式提取表格数据,并逐条保存到文件中。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

import urllib2
import urllib
import re

print 'begin--'
url = 'http://hr.tencent.com/position.php?lid=2175&tid=87'
user_agent = 'Mozilla/5.0 (Windows NT 6.1; WOW64)'
headers = { 'User-Agent' : user_agent }
param = {}
param['lid']=2175
param['tid']=87
paramsData = urllib.urlencode(param)
print url
req = urllib2.Request(url,None,headers)
res = urllib2.urlopen(url)
page = res.read()
print len(page)
#print res.info()
f = file('1.html','wb')
f.write(page)
f.close()

patten_table = r'<table.*?>(.*?)</table>'
tableStr = re.findall(patten_table,page,re.S|re.M)
#print  tableStr

f_table = file('td.html','wb')
print('table len=%d'%len(tableStr))
for one_table_str in tableStr:
    patten_table_tr = r'<tr.*?>(.*?)</tr>'
    all_tr_str = re.findall(patten_table_tr, one_table_str, re.S | re.M)
    print('tr len=%d' % len(all_tr_str))
    for one_tr_td in all_tr_str:
        patten_table_tr_td = r'<td.*?>(.*?)</td>'
        all_tds = re.findall(patten_table_tr_td, one_tr_td, re.S | re.M)
        print('td len=%d' % len(all_tds))
        f_table.write(all_tds[0])
        f_table.write('aaaa\r\n')
f_table.close()
#print page
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值