环境:win7 、pycharm、python2、
所用到的库:urllib2 、 re
#coding:utf-8 #解决编码问题
import urllib2 #与请求url相关操作的模块
import re #通过正则表达式进行字符串处理的模块
def search(name):
url = "https://sou.zhaopin.com/jobs/searchresult.ashx?kw=" + name + "&sm=0&p=1" #url中的内容是从浏览器搜索框中赋值中的内容,将关键字python替换成name参数
response = urllib2.urlopen(url).read() #抓取一个网页所有数据
restr = "<em>(\\d+)</em>" #正则表达式 我们所抓取的数据是一个数字所以要用 (\\d+)
regex = re.compile(restr, re.IGNORECASE) # 进行预编译(目的加快速度),忽略大小写
mylist = regex.findall(response) # 在response中查找所有数据
print mylist
print mylist[0] #彻底将数据剥离出来
#调用函数search
search("python")