import urllib.request
from lxml import etree
def ecode_url(kw):
url='http://www.baidu.com/s?wd='+kw
print(url)
url = urllib.parse.quote(url, safe=':/?&=')
return url
def urllibopen(kw):
url=ecode_url(kw)
rsp=urllib.request.urlopen(url)
data=rsp.read()
print(data.decode('utf-8'))
def urllibrequest(kw):
url = ecode_url(kw)
req = urllib.request.Request(url, headers={'User-Agent': 'Mozilla/5.0'})
response = urllib.request.urlopen(req)
data = response.read()
print(data.decode('utf-8'))
response.close()
pass
def yw_urls(url):
req = urllib.request.Request(url, headers={'User-Agent': 'Mozilla/5.0'})
response = urllib.request.urlopen(req)
data = response.read()
html = etree.HTML(data)
urls = html.xpath('//div[@id="areacontent"]/ul/li/a/text()| //div[@id="areacontent"]/ul/li/a/@href |//div[@id="areacontent"]/ul/li/span/text()')
print(urls)
for url in urls:
print(url)
def yw2(url):
req = urllib.request.Request(url, headers={'User-Agent': 'Mozilla/5.0'})
response = urllib.request.urlopen(req)
data = response.read()
html = etree.HTML(data)
urls = html.xpath('//div[@id="areacontent"]/ul/li/a')
urlref = [url.xpath('./@href')[0] for url in urls]
for url in urlref:
print(url)
if __name__ == '__main__':
yw2('https://www.csmzxy.edu.cn/myxw/myyw.htm')
yw_urls('https://www.csmzxy.edu.cn/myxw/myyw.htm')
['../info/1014/77297.htm', '锤炼奋斗意志 成就闪耀青春——我校举行第七十三期校长沙龙', '2024-10-18', '../info/1014/77269.htm', '“寝”真意切 “寓”见温暖——外语学院党总支联合学校行政管理三支部开展“党员教师进寝室”主题党日活动', '2024-10-16', '../info/1014/77244.htm', '喜报!软件学院学生荣获“2024一带一路暨金砖国家技能发展与技术创新大赛企业信息系统安全赛项”全国总决赛一等奖', '2024-10-15', '../info/1014/77239.htm', '智慧健康养老服务与管理专业群召开第二轮“双高”申报专题会议', '2024-10-14', '../info/1014/77229.htm', '助推中德合作交流,李斌书记出席中德产教融合创新发展交流互鉴专家研讨会并作主旨发言', '2024-10-12', '../info/1014/77222.htm', '我校学生在第七届全国大学生网络文化节中荣获佳绩', '2024-10-11', '../info/1014/77221.htm', '殡仪学院召开现代殡葬技术与管理专业群第二轮双高申报推进会', '2024-10-11', '../info/1014/77234.htm', '校长陈静彬带队开展2024级新生第一堂课教学检查', '2024-10-10', '../info/1014/77208.htm', '喜报!我校在2024年全国大学生数学建模竞赛湖南赛区比赛中荣获6个一等奖', '2024-10-09', '../info/1014/77196.htm', '我校举行2024级新生军训总结暨2023—2024学年表彰大会', '2024-10-03', '../info/1014/77185.htm', '陈静彬校长深入电子信息工程学院指导“蜂富人生”项目备赛工作', '2024-09-30', '../info/1014/77199.htm', '湘江新区新一代自主安全计算系统市域产教联合体建设推进大会在长沙召开', '2024-09-30', '../info/1014/77193.htm', '学校召开教学科研平台建设推进会', '2024-09-29', '../info/1014/77168.htm', '湖南省智能康复机器人与辅具器械工程技术研究中心专家指导委员会成立大会暨工程技术研究中心建设方案论证会顺利召开', '2024-09-27', '../info/1014/77161.htm', '中国工程院院士王耀南教授应邀来校作专题讲座', '2024-09-27']
../info/1014/77297.htm
锤炼奋斗意志 成就闪耀青春——我校举行第七十三期校长沙龙
2024-10-18
../info/1014/77269.htm
“寝”真意切 “寓”见温暖——外语学院党总支联合学校行政管理三支部开展“党员教师进寝室”主题党日活动
2024-10-16
../info/1014/77244.htm
喜报!软件学院学生荣获“2024一带一路暨金砖国家技能发展与技术创新大赛企业信息系统安全赛项”全国总决赛一等奖
2024-10-15
../info/1014/77239.htm