python爬虫库urllib的练习

import urllib.request
from lxml import etree

def ecode_url(kw):
    url='http://www.baidu.com/s?wd='+kw
    print(url)
    # url=urllib.parse.unquote(url)
    url = urllib.parse.quote(url, safe=':/?&=')
    return url

def urllibopen(kw):
    url=ecode_url(kw)
    rsp=urllib.request.urlopen(url)
    data=rsp.read()
    # 打印响应内容
    print(data.decode('utf-8'))

def urllibrequest(kw):
    url = ecode_url(kw)
    # 创建请求对象
    req = urllib.request.Request(url, headers={'User-Agent': 'Mozilla/5.0'})
    # 发送请求并获取响应
    response = urllib.request.urlopen(req)
    data = response.read()
    print(data.decode('utf-8'))
    response.close()
    pass


def yw_urls(url):
   #获取民政要闻列表
    req = urllib.request.Request(url, headers={'User-Agent': 'Mozilla/5.0'})
    # 发送请求并获取响应
    response = urllib.request.urlopen(req)
    data = response.read()
    html = etree.HTML(data)
    urls = html.xpath('//div[@id="areacontent"]/ul/li/a/text()| //div[@id="areacontent"]/ul/li/a/@href |//div[@id="areacontent"]/ul/li/span/text()')
    print(urls)
    for url in urls:
        print(url)

def yw2(url):
    req = urllib.request.Request(url, headers={'User-Agent': 'Mozilla/5.0'})
    # 发送请求并获取响应
    response = urllib.request.urlopen(req)
    data = response.read()
    html = etree.HTML(data)
    urls = html.xpath('//div[@id="areacontent"]/ul/li/a')
    urlref = [url.xpath('./@href')[0]  for url in urls]
    for url in urlref:
        print(url)

if __name__ == '__main__':
    #urllibrequest('民政学院')
    #urllibopen('美国降息')
    yw2('https://www.csmzxy.edu.cn/myxw/myyw.htm')
    yw_urls('https://www.csmzxy.edu.cn/myxw/myyw.htm')
['../info/1014/77297.htm', '锤炼奋斗意志 成就闪耀青春——我校举行第七十三期校长沙龙', '2024-10-18', '../info/1014/77269.htm', '“寝”真意切 “寓”见温暖——外语学院党总支联合学校行政管理三支部开展“党员教师进寝室”主题党日活动', '2024-10-16', '../info/1014/77244.htm', '喜报!软件学院学生荣获“2024一带一路暨金砖国家技能发展与技术创新大赛企业信息系统安全赛项”全国总决赛一等奖', '2024-10-15', '../info/1014/77239.htm', '智慧健康养老服务与管理专业群召开第二轮“双高”申报专题会议', '2024-10-14', '../info/1014/77229.htm', '助推中德合作交流,李斌书记出席中德产教融合创新发展交流互鉴专家研讨会并作主旨发言', '2024-10-12', '../info/1014/77222.htm', '我校学生在第七届全国大学生网络文化节中荣获佳绩', '2024-10-11', '../info/1014/77221.htm', '殡仪学院召开现代殡葬技术与管理专业群第二轮双高申报推进会', '2024-10-11', '../info/1014/77234.htm', '校长陈静彬带队开展2024级新生第一堂课教学检查', '2024-10-10', '../info/1014/77208.htm', '喜报!我校在2024年全国大学生数学建模竞赛湖南赛区比赛中荣获6个一等奖', '2024-10-09', '../info/1014/77196.htm', '我校举行2024级新生军训总结暨2023—2024学年表彰大会', '2024-10-03', '../info/1014/77185.htm', '陈静彬校长深入电子信息工程学院指导“蜂富人生”项目备赛工作', '2024-09-30', '../info/1014/77199.htm', '湘江新区新一代自主安全计算系统市域产教联合体建设推进大会在长沙召开', '2024-09-30', '../info/1014/77193.htm', '学校召开教学科研平台建设推进会', '2024-09-29', '../info/1014/77168.htm', '湖南省智能康复机器人与辅具器械工程技术研究中心专家指导委员会成立大会暨工程技术研究中心建设方案论证会顺利召开', '2024-09-27', '../info/1014/77161.htm', '中国工程院院士王耀南教授应邀来校作专题讲座', '2024-09-27']
../info/1014/77297.htm
锤炼奋斗意志 成就闪耀青春——我校举行第七十三期校长沙龙
2024-10-18
../info/1014/77269.htm
“寝”真意切 “寓”见温暖——外语学院党总支联合学校行政管理三支部开展“党员教师进寝室”主题党日活动
2024-10-16
../info/1014/77244.htm
喜报!软件学院学生荣获“2024一带一路暨金砖国家技能发展与技术创新大赛企业信息系统安全赛项”全国总决赛一等奖
2024-10-15
../info/1014/77239.htm
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值