Python爬虫之-智联招聘网站

本文介绍了一个简单的Python爬虫程序,用于从智联招聘网站抓取特定岗位的信息,包括公司名称、薪资范围等,并将数据保存到本地文件中。此程序采用正则表达式匹配网页内容。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

爬着玩玩用的,这个做的不好,还爬取过前程无忧是认真做的~

#coding:utf-8
import re
import json
import xlwt
import time
import urllib,urllib2

h=open('zhaopin.txt','a')

#__authour__:小菜菜1223
def run(num):
    url='https://sou.zhaopin.com/jobs/searchresult.ashx?jl=%E9%9D%92%E5%B2%9B&kw=UI&sm=0&p='+str(num) #UI可修改成 .net、java、C%23、数据库/DBA/前端、测试、项目管理、大数据、数据挖掘、ios、安卓、QA、UI
    #url='https://www.baidu.com/'
    a=urllib2.urlopen(url)
    html=a.read().decode('utf-8')
    if not html:
        return 'no'
    get(html)
def get(html):
    reg1='<td class="gsmc"><a href="http://company.zhaopin.com/(.*?)" target="_blank">.*? '#名称
    reg2='<td class="zwyx">(.*?)</td>.*?'#薪资
    reg3='<td class="gzdd">(.*?)</td>.*?'#所在地
    reg4='.*?<li class="newlist_deatil_two"><span>.*?</span><span>公司性质:.*?</span><span>公司规模:(.*?)</span><span>.*?'#规模
    
    reg5='.*?<li class="newlist_deatil_two"><span>.*?</span><span>公司性质:(.*?)</span><span>.*?</span><span>.*?'#性质    
    reg6='.*?.htm" target="_blank">.*?<b>(.*?)</b>(.*?)</a>.*?'#职位
    #reg6='.*?.htm" target="_blank">(.*?)</a>.*?'
    reg7='<td class="gsmc"><a href="(.*?)" target="_blank">'
    reg=reg6+reg1+reg2
    reg=reg.decode('utf-8')
    reg=re.compile(ur'%s'%reg,re.S)
    
    items=re.findall(reg,html)
   
    li= json.dumps(items,ensure_ascii=False)
    
    do(li)
def do(li):
    li=json.loads(li)
    
    for i in li:
        try:
            s=main(i[2])
            s=json.loads(s)
        
        
            for j in s:
                if len(i[1])>8:
                    continue
                s=i[0]+','+i[1]+','+i[3]+','+','+','+j[0]+','+j[1]+','+j[2]+','+j[3]+','+j[4]
                print s
                h.writelines(s.encode('utf-8')+'\n')
        except:
            print 'pass'
            continue
def main(s):
    try:
        url='http://company.zhaopin.com/'+s
        a=urllib2.urlopen(url)
        html=a.read().decode('utf-8')
        reg0='<title>(.*?)招聘信息_电话_地址-智联招聘</title>.*?'
        reg1='<span class="comAddress">(.*?)</span>'
        reg2='<table class="comTinyDes">.*?<span>公司性质:</span>.*?<span>(.*?)</span>.*?<span>公司规模:</span>.*?<span>(.*?)</span>.*?<span>公司行业:</span>.*?<span>(.*?)</span>.*?<span>公司地址:.*?'
        reg=reg0+reg2+reg1
        reg=reg.decode('utf-8')
    
        reg=re.compile(ur'%s'%reg,re.S)
        items=re.findall(reg,html)
        li= json.dumps(items,ensure_ascii=False)
        #print li
        
        time.sleep(0.01)
        return li
    except:
        s=['wu','wu']
        return s
    
count=1


while 1 :
    print count
    result=run(count)
    if result=='no':
        break
        time.sleep(0.001)
    count+=1
    
    

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值