
Python爬虫
王里木目心
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Python爬虫——爬取股票信息生成csv文件
最近在学习数据分析,就想着弄一份csv文件练手用,于是就爬取了股票信息,生成csv文件爬取的网址:http://quote.eastmoney.com/ztb/detail#type=ztgc网址信息使用的是动态加载,所以使用了selenium,我是使用的是谷歌浏览器,需要下载谷歌浏览器的驱动程序,下载地址:https://npm.taobao.org/mirrors/chromedriver...原创 2020-04-10 13:57:47 · 3025 阅读 · 0 评论 -
Python爬虫——建立IP代理池
在使用Python爬虫时,经常遇见具有反爬机制的网站。我们可以通过伪装headers来爬取,但是网站还是可以获取你的ip,从而禁掉你的ip来阻止爬取信息。在request方法中,我们可以通过proxies参数来伪装我们的ip,一些网站上有免费的ip代理网站,可以通过爬取这些ip,经检测后建立ip代理池。ip代理网站:(https://www.xicidaili.com/nt/)(https...原创 2020-04-05 08:35:19 · 6776 阅读 · 11 评论 -
Python爬虫——bs4、xpath基本语法
数据解析原理标签定位提取标签、标签属性中存储的数据值bs4数据解析的原理:实例化一个BeautifulSoup对象,并且将页面源码数据加载到该对象中通过调用BeautifulSoup对象中相关的属性或者方法进行标签定位和数据提取环境安装:pip install bs4pip install lxml如何实例化BeautifulSoup对象:from bs4 impor...原创 2020-01-20 17:29:32 · 940 阅读 · 0 评论 -
Python爬取——国家统计局省份加城市 并写入数据库
数据库设计数据库省份表(province)城市表(city)Python代码import requestsfrom lxml import etreeimport pymysqlfrom fake_useragent import UserAgent#请求方法def request(param): url = 'http://www.stats.gov.cn/tjsj...原创 2020-01-19 21:17:48 · 2533 阅读 · 0 评论 -
Python爬虫中文乱码
方法一手动设定相应数据的编码格式:response = requests.get(url=url,headers=headers).textresponse.encoding = 'utf-8'response = response.text方法二通用处理中文乱码的解决方案new_name = img_name.encode('iso-8859-1').decode('gbk')...原创 2019-12-22 15:03:31 · 286 阅读 · 0 评论 -
Python爬虫实例——2019中国大学排名100强
Python爬虫实例——2019中国大学排名100强伪装headersheaders = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:70.0) Gecko/20100101 Firefox/70.0' }url地址http://gaokao.xdf.cn/201812/1083848...原创 2019-12-19 20:20:49 · 1026 阅读 · 1 评论