- 博客(8)
- 收藏
- 关注
原创 Python网络爬虫与信息提取实例:中国大学排名爬虫
我们要爬取的网页对应网址为:http://www.zuihaodaxue.cn/zuihaodaxuepaiming2016.html 我们要爬取的内容为该网页上的中国大学排名: 并将爬取到的内容以下面这种格式输出: 要达到上述目标,必须通过以下三个步骤: (1)从网络上获取大学排名网页内容; (2)提取网页内容中信息到合适的数据结构 (3)利用数据结果展示并输出结果 具体使用到的完整代码为: import requests from bs4 import BeautifulSoup def getht
2020-08-23 10:50:56
667
原创 实例4:网络图片的爬取和存储(尝试用代码下载一张王嘉尔的照片)
找到一张网络图片,点击鼠标右键,然后点击“检查元素”即可查看该图片的地址,最后通过requests库来爬取图片内容。 接下来我们在百度图片上找一张王嘉尔的照片: 爬取代码如下: import requests import os url="https://ss0.bdstatic.com/94oJfD_bAAcT8t7mm9GUKT-xh_/timg?image&quality=100&size=b4000_4000&sec=1597111702&di=ec48ec0ca6
2020-08-11 10:51:59
407
原创 网络爬虫与信息提取 实例3:百度360搜索关键词提交
百度的关键词接口为: http://www.baidu.com/s?wd=keyword 我们可以利用params来提交关键词,代码如下: import requests kv={'wd':'python'} try: r=requests.get("http://www.baidu.com/s",params=kv) r.raise_for_status() print(r.request.url) r.encoding=r.apparent_encoding pr
2020-08-11 09:55:23
353
原创 网络爬虫与信息提取 实例2:亚马逊商品页面的爬取
假如采取与爬取京东页面相同的代码: import requests url="https://www.amazon.cn/dp/B07Z4LZ9HW" try: r=requests.get(url) r.raise_for_status() r.encoding=r.apparent_encoding print(r.text[1000:2000]) except: print("爬取失败") 则会输出“爬取失败”,因为亚马逊限制了爬虫的爬取,所以我们要对原来的代码
2020-08-10 22:12:32
1018
原创 网络爬虫与数据提取实例1:京东商品页面的爬取
京东商品页面的爬取 import requests url="https://item.jd.com/100012545868.html"#输入你想爬取的页面的网址 try: r=requests.get(url) r.raise_for_status() r.encoding=r.apparent_encoding print(r.text[:1000]) except: print("爬取失败") ...
2020-08-09 22:32:33
865
原创 python语言程序设计实例1:温度转换
python语言程序设计 实例1:温度转换 将以摄氏度为单位的温度值和以华氏度为单位的温度值互相转换 tempstr=input("请输入带有符号的温度值") if tempstr[-1] in ['f','F']: C=(eval(tempstr[0:-1])-32)/1.8 print("转换后的温度为:{:.2f}C".format(C)) elif tempstr[-1] in ['c','C']: F=eval(tempstr[0:-1])*1.8+32 prin
2020-08-09 21:14:01
445
原创 爬取网页的通用代码框架(自用)
爬取网页的通用代码框架: import requests def gethtmltext(url): try: r=requests.get(url,timeout=30) r.raise_for_status()#如果状态不是200,引发HTTPError异常 r.encoding=r.apparent_encoding return r.text except: return "产生异常" if __nam
2020-08-09 12:25:03
277
原创 request库的安装小测
输入以下代码并运行: import requests r=requests.get("http://www.baidu.com") print(r.status_code) 如果输出为200,则安装requests库成功
2020-08-09 11:43:28
171
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅