由于感觉到工作的鸭梨,编程0基础的IT小白被迫上梁山,撸下如下python代码,从此踏入码农的世界。
此前先要安装两个软件
1、python编辑器
pycharm-community-2019.2.exe
2、Python环境
python-3.6.4-amd64.exe
作业1:获取网页http://www.risfond.com/case/fmcg/26700(尾数从26700-26720)中的职位表匹配关键信息
import re
import urllib.request #自带模块,直接调用
# 1.获取网页源代码
def getdate(): #自定义函数 内置函数打印输出;print 封装代码
for i in range(26700,26720):
url = 'http://www.risfond.com/case/fmcg/{}'.format(i)
html = urllib.request.urlopen(url).read().decode('utf-8') #urlopen打开网址 read获取所有源代码
#print(html) #byte字节类型---string字符串
# 2.获取数据 .*? 匹配任意字符
page_list = re.findall('<div class="sc_d_c">(.*?)<span class="sc_d_con">(.*?)</span></div>',html)
print(page_list)
# 3.获取大量数据
getdate() #自定义函数必须要调用,否则没有结果出现
作业2:得出多个网页地址
for i in range(2,9):
print(i,end="")
print(' I Love Study')
#'http://www.risfond.com/case/fmcg/%s'%26700
#'http://www.risfond.com/case/fmcg/%d'%26700
#'http://www.risfond.com/case/fmcg/{}'.format(26700)
for i in range(26700,26720):
print('http://www.risfond.com/case/fmcg/{}'.format(i))
作业3:得出规律及不规律的地址
如
http://www.baidu?page=item
http://www.baidu?page=2
http://www.baidu?page=3
http://www.baidu?page=4
http://www.baidu?page=5
http://www.baidu?page=6
#思考题:如果有的地址玫瑰露,有的有规律,怎么处理呢?
#袋子---1个苹果+5个香蕉
#list列表----有规律的地址+没规律的地址
url = 'http://www.baidu?page=item' #没规律的
url_list = [url]
for i in range(2,7):
link = 'http://www.baidu?page={}'.format(i)
# print('http://www.baidu?page={}'.format(i))#有规律的地址
url_list.append(link)
print(url_list)