xiaochenishere-优快云博客

原创 Python网络爬虫与信息提取实例：中国大学排名爬虫

我们要爬取的网页对应网址为：http://www.zuihaodaxue.cn/zuihaodaxuepaiming2016.html 我们要爬取的内容为该网页上的中国大学排名：并将爬取到的内容以下面这种格式输出：要达到上述目标，必须通过以下三个步骤：（1）从网络上获取大学排名网页内容；（2）提取网页内容中信息到合适的数据结构（3）利用数据结果展示并输出结果具体使用到的完整代码为： import requests from bs4 import BeautifulSoup def getht

2020-08-23 10:50:56 667

原创实例4：网络图片的爬取和存储（尝试用代码下载一张王嘉尔的照片）

找到一张网络图片，点击鼠标右键，然后点击“检查元素”即可查看该图片的地址，最后通过requests库来爬取图片内容。接下来我们在百度图片上找一张王嘉尔的照片：爬取代码如下： import requests import os url="https://ss0.bdstatic.com/94oJfD_bAAcT8t7mm9GUKT-xh_/timg?image&quality=100&size=b4000_4000&sec=1597111702&di=ec48ec0ca6

2020-08-11 10:51:59 407

原创网络爬虫与信息提取实例3：百度360搜索关键词提交

百度的关键词接口为： http://www.baidu.com/s?wd=keyword 我们可以利用params来提交关键词，代码如下： import requests kv={'wd':'python'} try: r=requests.get("http://www.baidu.com/s",params=kv) r.raise_for_status() print(r.request.url) r.encoding=r.apparent_encoding pr

2020-08-11 09:55:23 353

原创网络爬虫与信息提取实例2：亚马逊商品页面的爬取

假如采取与爬取京东页面相同的代码： import requests url="https://www.amazon.cn/dp/B07Z4LZ9HW" try: r=requests.get(url) r.raise_for_status() r.encoding=r.apparent_encoding print(r.text[1000：2000]) except: print("爬取失败") 则会输出“爬取失败”，因为亚马逊限制了爬虫的爬取，所以我们要对原来的代码

2020-08-10 22:12:32 1018

原创网络爬虫与数据提取实例1：京东商品页面的爬取

京东商品页面的爬取 import requests url="https://item.jd.com/100012545868.html"#输入你想爬取的页面的网址 try: r=requests.get(url) r.raise_for_status() r.encoding=r.apparent_encoding print(r.text[:1000]) except: print("爬取失败") ...

2020-08-09 22:32:33 865

原创 python语言程序设计实例1：温度转换

python语言程序设计实例1：温度转换将以摄氏度为单位的温度值和以华氏度为单位的温度值互相转换 tempstr=input("请输入带有符号的温度值") if tempstr[-1] in ['f','F']: C=(eval(tempstr[0:-1])-32)/1.8 print("转换后的温度为:{:.2f}C".format(C)) elif tempstr[-1] in ['c','C']: F=eval(tempstr[0:-1])*1.8+32 prin

2020-08-09 21:14:01 445

原创爬取网页的通用代码框架（自用）

爬取网页的通用代码框架： import requests def gethtmltext(url): try: r=requests.get(url,timeout=30) r.raise_for_status()#如果状态不是200，引发HTTPError异常 r.encoding=r.apparent_encoding return r.text except: return "产生异常" if __nam

2020-08-09 12:25:03 277

原创 request库的安装小测

输入以下代码并运行： import requests r=requests.get("http://www.baidu.com") print(r.status_code) 如果输出为200，则安装requests库成功

2020-08-09 11:43:28 171

xiaochenishere的博客