
Python写网络爬虫
暖仔会飞
这个作者很懒,什么都没留下…
展开
-
Python日常学习之:对于爬虫获得的数据进行批量的修改和处理并通过pyecharts进行可视化
文章目录代码注释接着上一篇拉取拉勾网中所有python相关的职位信息,这篇文章中将会按照我们上一篇的思路进行处理。在这里再重申一下项目的目的:本项目旨在完成以下步骤:爬取拉勾网所有的 python (或者其他职位)信息并按照一定格式写入文件将所有的信息进行数据的清洗、筛选对不同省的python职位的薪资进行平均值求算将不同省份的python薪资标准通过 pyecharts 进行可视化大家要是想用我爬取的数据进行练手的话,可以在评论区里留言,我会把数据分享给你~~代码imp原创 2020-08-27 11:06:37 · 987 阅读 · 0 评论 -
Python网络爬虫之:selenium + chromedriver 爬取拉勾网 python 所有有关职位
需求分析本项目旨在完成以下步骤:爬取拉勾网所有的 python (或者其他职位)信息并按照一定格式写入文件将所有的信息进行数据的清洗、筛选对不同省的python职位的薪资进行平均值求算将不同省份的python薪资标准通过 pyecharts 进行可视化所以在本文的项目中,只是通过爬虫操作将我们需要的职位信息写入了文件,下一篇文章中,我将通过清理和筛选数据,对不同省的职位的薪资进行平均值的求算。代码import timefrom selenium import webdriverf原创 2020-08-24 18:02:21 · 389 阅读 · 0 评论 -
Python网络爬虫之:使用高德地图API实现路径规划
首先使用上一篇文章中提到的获取一个地址的经纬度坐标的方法来获得两个坐标组,即 origin 的坐标组 / destination 的坐标组第二步中,根据高德地图自己的路径规划API的描述,传入三个必填参数:key,origin,destination,然后请求网址即可。注意:路径规划请求的 url 和 前面定位使用的 url 是不同的,这一点千万注意!!而且,origin 和 destination 传进去的参数都是字符串;是这种格式:“origin”:“145.89870, 133.9..原创 2020-08-11 17:54:26 · 7246 阅读 · 4 评论 -
Python网络爬虫之:调用高德地图的 API接口,完成定位的工作(返回经纬度)
文章目录高德地图 API 的使用方式:代码部分高德地图 API 的使用方式:去高德地图的开放平台注册一个账号,并且创建自己的项目,系统会分配给你一个 key 值,这个具体如何操作可以去百度在开发支持中选择 web服务,选中 web服务api然后在左侧的这一栏就可以看到可以操作和使用的 API 操作,里面会有详细的参数告知,你应该怎么与高德地图进行交互操作代码部分import jsonimport requestsdef get_location_x_y():原创 2020-08-10 10:14:04 · 7332 阅读 · 3 评论 -
Python写网络爬虫之:爬取火车站项目中遇到的问题和知识总结
文章目录1. 如何实现模糊匹配2.如何修改 List 中的值3. 如何批量将 List 中所有项目的空格去掉4. 如何批量将 List 中所有的项目都变成相同的长度,不够的地方用指定的符号补齐5. 连续使用占位符 % 的时候,后面一定要接 “元组” 不可以是列表6. 如何根据已有的数据 print 出来规则的表格7. 如何删除字典中的元素8. remove、pop 、append、insert 等对列表操作的方法,不需要返回9. 扩展和拼接列表10. 判断列表是否为空11. 使用 html 中的文本来匹配1原创 2020-08-09 15:51:43 · 707 阅读 · 0 评论 -
Python爬虫自己写项目之:爬取火车站的时刻表和票务信息
目标给定指定的站点信息(始发站和终点站)和发车时间,得到相应的信息表格代码from selenium import webdriverimport sysfrom selenium.webdriver.common.by import Byfrom selenium.webdriver.support.select import Selectimport refrom lxml import etreeimport pandas as pdfrom prettytable impo原创 2020-08-09 14:15:11 · 1685 阅读 · 2 评论 -
Python写网络爬虫:requests.get()请求不到或者请求出错的页面,用 Selenium来解决
文章目录契机解决方法契机最近一段时间一直在学爬虫,学完 urllib、requests 之后也做了几个爬虫小项目,可是当我想去爬瓜子二手车的网站还有其他几个网站的时候,即使在 headers 中设定了User-agent 的选项,用 requests 依然会出现问题:import requestsurl = 'https://www.guazi.com/jn/?ca_s=pz_baidu&ca_n=pcbiaoti&tk_p_mti=ad.pz_baidu.pcbiaoti.1原创 2020-08-04 18:16:02 · 8554 阅读 · 0 评论 -
Python写网络爬虫:实时监测澳币的汇率变化并在低于某个阈值的时候通过qq给我的iphone发消息
代码:import win32guiimport win32conimport win32clipboard as wimport timeimport requestsfrom lxml import etreedef request_page(session,url,headers): #根据创建的会话、规定的url和headers来请求页面 response = session.get(url,headers=headers) txt = response.text原创 2020-08-04 07:27:36 · 516 阅读 · 0 评论 -
Python写网络爬虫:用多线程爬虫爬取澳洲有关的财经、政治、国际新闻
文章目录动机:代码:动机:要去澳洲留学,要时刻关注澳洲的动向,每次浏览太慢,直接爬下来方便多了。代码:采用了多线程,下载数据的时候快一些import osimport requestsfrom lxml import etreeimport threadingdef request_page(url): response = requests.get(url,headers=headers) txt = response.text return txtd原创 2020-08-03 15:10:24 · 421 阅读 · 0 评论 -
Python网络爬虫之:如果请求url 返回的 response 中代码是一行而不是规范的 html 分段格式,处理方法
应用场景介绍:在很多时候,我们向一个页面请求数据,服务器的响应中的response只有长长的一行,这个时候我们就需要使用以下的方法来解决。问题举例from bs4 import BeautifulSoupimport requestsurl = 'https://careers.tencent.com/search.html?pcid=40003'headers = { 'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64.原创 2020-07-31 13:55:27 · 3466 阅读 · 1 评论 -
Python写网络爬虫:requests 模块的高级用法
文章目录1. 文件上传2. 获取和设置Cookies3. SSL 证书验证4. 代理设置5. 超时设置6. 身份验证1. 文件上传import requestsfilename = '1.txt'files = {'file':open(filename)}x = requests.post('http://httpbin.org/post',files=files)print(x.text)通过测试服务器 httpbin.org 返回的结果来看,post 能够上传的文件和格式都写得很清原创 2020-07-30 07:46:20 · 440 阅读 · 0 评论 -
Python学习网络爬虫:复制网页中的cookie有引号怎么办
文章目录例如:Cookie:_zap=3719d565-9bca-44de-9b02-ed714258e599; d_c0=“AMCf599-hhGPTltrHaZ91mg1vjF3HaLikx4=|1593863623”; _ga=GA1.2.1482983231.1593863637; _xsrf=47112a4a-9751-4136-85d4-4cd0ff3e57fc; _gid=GA1.2.1072146028.1596031364; Hm_lvt_98beee57fd2ef70ccdd5c原创 2020-07-29 23:23:52 · 1607 阅读 · 0 评论 -
Python写网络爬虫之:json.dumps() / loads 与 json.dump() / load() 的区别
文章目录1. json.dumps() / json.loads()2. json.dump() / json.load()1. json.dumps() / json.loads()针对的对象是字典类型的数据,要有变量来存储转换成json格式之后的数据import jsonfilename = 'json_doucument.json'dic = {1:'1', 2:'2', 3:'3' }js = json.dumps(dic)print原创 2020-07-29 20:45:11 · 294 阅读 · 0 评论 -
Python 网络爬虫之:requests 模块基础用法、理解;以及 request.get() 方式与使用Request()类发送请求的对比
文章目录1. requests 模块的作用2. requests 简单方法和理解2.1 requests.get() / requests.post() / requests. delete 等:获取服务器信息2.2 requests.get() 方法的局限性2.3 requests.Session() 创建会话2.4 等效的数据请求方式1. requests 模块的作用向服务器端发送请求并接受服务器的响应最常用的方法是:requests.get(),其作用相当于 urllib 库中的 urlop原创 2020-07-29 20:05:47 · 2642 阅读 · 0 评论 -
Python写网络爬虫之:构造和解析URL
1. URL 的组成URL 全称为统一资源定位器,网络上的每一个资源(网页、图片、文字、链接)都有一个特定的 “标识”,这个就是URL2. 什么时候回用到 URL?当我们想构造一个网络爬虫来爬取网络资源的时候,我们要构造一个 URL 让爬虫去访问,然后把资源背回来。所以我们要学习 URL 的相关知识。3. URL 的组成有哪几个部分?http://www.baidu.com/index.html;user?id=5#comment协议 http域名 www.baidu.com路径原创 2020-07-29 12:47:25 · 5276 阅读 · 1 评论