python urllib2用url爬前程无忧职位信息

本文介绍了一个使用Python爬虫技术从51job网站抓取特定页面招聘信息的方法。该爬虫通过发送HTTP请求获取网页内容,并利用正则表达式解析网页源代码来提取所需的职位信息。
# coding:utf-8
__author__ = "carry"

import urllib2,re,sys
# reload(sys)
# sys.setdefaultencoding('utf-8')
# 获取原码
def get_content(page):
    headers = {#'Host':'search.51job.com',
               'User-Agent':'Mozilla/5.0 (Windows NT 6.2; rv:16.0) Gecko/20100101 Firefox/16.0',
               #'Accept':'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',
               #'Connection':'keep-alive'
                }
    url ='http://search.51job.com/list/000000,000000,0000,00,9,99,测试,2,'+ str(page) + '.html'
    req = urllib2.Request(url,headers = headers) # 如果提交表单,需要urllib.urlencode
    r = urllib2.urlopen(req)
    # print r.geturl()
    # print r.getcode()
    response = r.read() # 读取源代码并转为unicode
    return response

def get(html):
    reg = re.compile('class="t1 ">.*? <a target="_blank" title="(.*?)".*? <span class="t2"><a target="_blank" title\
="(.*?)".*?<span class="t3">(.*?)</span>.*?<span class="t4">(.*?)</span>.*? <span class="t5">(.*?)</span>',re.S) # 匹配换行符,不换行时最好用r不转义
    items = re.findall(reg,html) # reg.findall(html)
    return items  # 返回的是一个列表,列表里面是匹配的结果形成的元组形式
kong = []

# 多页处理,下载到文件
for j in range(1,11):
    print "正在爬取第 %s 页数据..." % j
    html1 = get_content(j) # 调用获取网页源码
    for i in get(html1):
        tiqu = i[0] + '\t' + i[1] + '\t'+ i[2] + '\t' + i[3] + '\t' + i[4] # \t 制表符
        # print tiqu.decode('gbk')
        kong.append(tiqu)
with open (r'C:\Users\bin.sun\Desktop\51.txt','a') as f:
    for index,x in enumerate(kong,start = 1):
        index1 = '%03d' % index
        shuju = index1 + ' ' + x + '\n'
        f.write(shuju)

"""
for x in get(get_content(2))[1]:
    print x.decode('gbk') # 输出的是列表,打印会显示ascii码,取出来就是中文了, .encode('utf-8')
print len(get(get_content(2)))
"""
内容概要:本文系统介绍了算术优化算法(AOA)的基本原理、核心思想及Python实现方法,并通过图像分割的实际案例展示了其应用价值。AOA是一种基于种群的元启发式算法,其核心思想来源于四则运算,利用乘除运算进行全局勘探,加减运算进行局部开发,通过数学优化器加速函数(MOA)和数学优化概率(MOP)动态控制搜索过程,在全局探索与局部开发之间实现平衡。文章详细解析了算法的初始化、勘探与开发阶段的更新策略,并提供了完整的Python代码实现,结合Rastrigin函数进行测试验证。进一步地,以Flask框架搭建前后端分离系统,将AOA应用于图像分割任务,展示了其在实际工程中的可行性与高效性。最后,通过收敛速度、寻优精度等指标评估算法性能,并提出自适应参数调整、模型优化和并行计算等改进策略。; 适合人群:具备一定Python编程基础和优化算法基础知识的高校学生、科研人员及工程技术人员,尤其适合从事人工智能、图像处理、智能优化等领域的从业者;; 使用场景及目标:①理解元启发式算法的设计思想与实现机制;②掌握AOA在函数优化、图像分割等实际问题中的建模与求解方法;③学习如何将优化算法集成到Web系统中实现工程化应用;④为算法性能评估与改进提供实践参考; 阅读建议:建议读者结合代码逐行调试,深入理解算法流程中MOA与MOP的作用机制,尝试在不同测试函数上运行算法以观察性能差异,并可进一步扩展图像分割模块,引入更复杂的预处理或后处理技术以提升分割效果。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值