
python_简易的爬虫
文章平均质量分 96
Python基础
自学AI的鲨鱼儿
一个小白学习AI的个人笔记
有朋友发现错误谢谢指出
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
python进阶(爬虫基础简介)
------------------- http://httpbin.org/get ------ 模拟请求(get/post)传入服务器的Json文件=================================== get请求 ============================================{ "args": {}, ---------- get ...原创 2018-11-12 13:19:39 · 500 阅读 · 1 评论 -
python进阶一(文件的处理方式)
一、文件操作方法: 特点:文件操作的结果都是str,需要将 str转化为 python 的对象才能后续进行操作。 ①如果以二进制方式处理不需要加编码格式。常用于存储音乐与图片。 ②注意文件读取 光标的 的位置(查看:.tell( )),调整光标的位置(.seek( )) ③文...原创 2018-11-13 11:43:29 · 225 阅读 · 1 评论 -
python进阶(异常处理)
一、异常处理基本知识: 1、代码异常的特性: python程序一旦发生错误,就从错误的位置停下来了,不会执行后面的内容。二、异常处理语句(try except else finally):1、try 我们需要处理的代码块,try中一旦出现异常代码,异常代码后面的代码不会执行,直接跳转到except语句 判...原创 2018-11-13 20:04:19 · 279 阅读 · 0 评论 -
python进阶(爬虫正则表达式)
一、正则表达式的基本知识:1、正则表达式是一种高度专业化的编程语言,并不是只在python语言中存在,而python需要插入 re 模块才能使用 正则表达式。2、正则表达式只能处理字符串,用于模糊匹配。3、正则表达式的区间是闭区间。4、正则表达式的匹配方式:正则项 被包含于 字符串时均可匹配 , 可以用 ^ $ 来具体匹配正则项二、正则表达式组成: ...原创 2018-11-14 12:44:17 · 968 阅读 · 0 评论 -
python进阶(爬虫 BeautifulSoup用法)
操作演示文件: 文件名: webhtml.html<!DOCTYPE html><html><head> <title>漏斗图</title> <script type="text/javascript" src="./echarts.js"></script&am原创 2018-11-15 20:53:15 · 1021 阅读 · 0 评论 -
python进阶(lxml的用法)
本节处理的文件如下,文件名为:webhtml.html<!DOCTYPE html><html><head> <title>漏斗图</title> <script type="text/javascript" src="./echarts.js">&a原创 2018-11-18 14:48:39 · 8343 阅读 · 2 评论 -
爬虫遇到 HTTPSConnectionPool(host=‘xxxxx‘, port=443) 解决思路
1、原因 SSL 证书报错http连接太多没有关闭导致的。经过一番查询,发现该错误是因为如下:http的连接数超过最大限制,默认的情况下连接是Keep-alive的,所以这就导致了服务器保持了太多连接而不能再新建连接。 1、ip被封 2、程序请求速度过快。2、解决方式(1)time.sleep()(2)关闭 SSL 验证 verify=Falseresponse = requests.get(fpath_or_url,headers=headers,st...转载 2020-08-09 22:57:23 · 104548 阅读 · 4 评论 -
爬虫 安装 selenium = 3.141.0,chromedriver=84.0.4147.30
1、安装环境需要注意的点: chromedriver的版本需要与chrome的版本一一对应1、安装selenium = 3.141.0pip install -i https://mirrors.aliyun.com/pypi/simple/ --upgrade selenium=3.141.02、安装chromedriverselenium在ananconda环境下的安装与浏览器配置浏览器 驱动下载地址 Chrome https://sites.goog...转载 2020-08-20 19:22:27 · 6837 阅读 · 0 评论 -
selenium小练习:自写利用 selenium 下载Google高清图片、大众点评自动传头像/评论
版本介绍python 3.7.4 selenium = 3.141.0chromedriver=84.0.4147.30代码from selenium import webdriverfrom selenium.webdriver.common.by import Byfrom selenium.webdriver.support.ui import WebDriverWaitfrom selenium.webdriver.support import expected_condi原创 2020-09-11 17:30:15 · 1219 阅读 · 0 评论 -
Selenium 元素定位正确,但始终报找不到元素错误
在定位元素时,始终都报找不到元素错误。可能的原因有一下几种:1、元素定位错误 第一种情况就是你的元素定位表达式错误,根本就没有你表达式定位的这个元素,这时候就需要检查一下自己的表达式有没有写错了。当然这种情况出现的可能性不大,所以最有可能的原因还是以下几种2、定位表达式不唯一定位表达式不唯一,不能准确的定位到唯一的元素。比如下方通过find_element_by_class_name("top")来定位的话,就会发现有很多个元素的class值都为top。解决办法:可以尝试换一种定位表..转载 2020-09-21 19:09:26 · 17971 阅读 · 2 评论