- 博客(20)
- 收藏
- 关注
原创 PySpider: unable to get local issuer certificate解决方式可能是这样的……
激动的打开了localhost:5000跟着视频教程一步一步的来,就出现了这样的问题unable to get local issuer certificate不会的我首先选择了搜索,然后出现了两种结果,第一种第二种,只需要在self.crawl中加……幸运的是遇到的问题用第二种解决方式就OK的,要是第一种,我可以直接去撕了……...
2020-10-19 21:22:07
396
1
原创 PySpider从下载到运行不了的解决方案
首先,学习到了PySpider这一板块,但是这一板块卡了我一个多星期,原因就是下载,下载PySpider历经千磨万难,终于下好了。这个问题解决方法:pip install --upgrade pippip install --upgrade setuptools这里需要谨慎,小心卸载了之后,安装不了,小编就出现了卸载之后,安装不了,重新又下载了一个pip。PySpider安装好了,但是出现SyntaxError: invalid syntax解决方法,将关键字 async替换成其
2020-10-18 21:33:29
463
原创 求救爬虫的疑难杂症!!!requests.exceptions.MissingSchema: Invalid URL ‘xxx‘ No schema supplied.
#引入模块import requestsfrom urllib.parse import urlencodefrom requests.exceptions import ConnectionErrorfrom pyquery import PyQuery as pqimport pymongoimport syssys.setrecursionlimit(1000000)client = pymongo.MongoClient('localhost')db = client['weix
2020-10-11 16:44:40
10032
7
原创 爬虫遇到此类情况RecursionError: maximum recursion depth exceeded while calling a Python object
爬虫的朋友一般分页或者回调的时候就经常会遇到这个错误,英文意思很明白,超过了Python的最大递归深度。解决方法很简单,在代码头部加入:import syssys.setrecursionlimit(1000000)这样修改Python最大递归,自定义即可...
2020-10-11 15:26:11
672
原创 反爬虫抓取微信文章(前篇)
import requestsfrom urllib.parse import urlencodefrom requests.exceptions import ConnectionErrorfrom pyquery import PyQuery as pqbase_url = 'https://weixin.sogou.com/weixin?'headers = { 'Cookie': 'SUV=0050272B0E1788145AD0D1D0B5C42214; dt_ssuid=3
2020-10-11 15:20:14
228
原创 爬虫第N天,模拟浏览器搜索
spider.pyimport refrom pydoc import docfrom selenium import webdriverfrom selenium.common.exceptions import TimeoutExceptionfrom selenium.webdriver.common.by import Byfrom selenium.webdriver.support.ui import WebDriverWaitfrom selenium.webdriver..
2020-10-07 00:21:22
166
原创 小试牛刀,学以致用,Requests+正则表达式爬取猫眼电影
第一步目标站点分析打开猫眼电影,查看源代码,比如我们准备爬取Top100的信息。查构造,比如title标签,图片用的img,主演star,评分分为两部分等等。流程框架①抓取单页内容,利用requests请求目标站点,得到单个网页HTML代码,返回结果。②正则表达式分析,根据HTML代码得到电影的名称,主演,航影视剧,评分,图片链接等信息。③保存至文件,通过文件的形式将结果保存,每一部电影一个结果一行Json字符串④开启循环及多线程,对多页内容便利,开启多线程提高抓取速度开始了,爬虫实
2020-09-28 21:50:40
485
原创 Python爬虫第九天,Selenium详解
Selenium基本使用from selenium import webdriverfrom selenium.webdriver.common.by import Byfrom selenium.webdriver.common.keys import Keysfrom selenium.webdriver.support import expected_conditions as ECfrom selenium.webdriver.support.wait import WebDriverW
2020-09-26 14:12:41
498
原创 Selenium解析库Chrome failed to start: crashed.已解决
Selenium自动化测试工具,支持多种浏览器,爬虫中主要用来解决JavaScript渲染的问题。基本使用from selenium import webdriverfrom selenium.webdriver.common.by import Byfrom selenium.webdriver.common.keys import Keysfrom selenium.webdriver.support import expected_conditions as ECfrom selen
2020-09-20 22:02:36
5914
原创 python爬虫第八天,PyQuery详解
PyQuery强大又灵活的网页解析库初始化字符串初始化html='''<div> <ul> <li class="item-0">first item</li> <li class="item-1"><a herf="link2.html">second item</li> <li class="item-0 active"><a herf="link
2020-09-20 16:12:16
190
原创 python爬虫第七天,BeautifulSoup库常用的解析方法
基本使用html="""<html><head><title>The Dormouse's story</title><body><p class="title" name="dromouse"><b>The Dormouse's story</b></p><p class="story">Once upon a time there were three littlw sist
2020-09-19 22:27:18
168
原创 python爬虫返回的结果是中括号[],求解大神?
import requestsimport recontent = requests.get('https://book.douban.com/').textpattern = re.compile('<li.*?cover.*?href="(.*?)".*?title="(.*?)".*?more-meta.*?author">(.*?)</span>.*?year">(.*?)</span>.*?</li>', re.S)results =
2020-09-19 20:47:54
3570
2
原创 爬虫第六天,正则表达式
正则表达式正则表达式是对字符串操作的一种逻辑公式re.matchre.match吃食从字符串的起始位置匹配一个模式,如果不是起始位置匹配成功的话,match()就返回nonere.match(pattern,string,flags)最常规的匹配import recontent = 'Hello 123 4567 World_This is a Regex Demo'result = re.match('^Hello\s\d\d\d\s\d{4}\s\w{10}.*Demo$',con
2020-09-19 20:42:45
127
原创 爬虫学习第五天,Requests库的基础
Requests实例引入import requestsresponse = requests.get('https://www.baidu.com')print(type(response))print(response.status_code)print(type(response.text))print(response.text)print(response.cookies)各种请求方式import requestsrequests.post('http://httpbin.
2020-09-14 22:37:29
160
原创 爬虫学习第四天,URL中的urlparse玉urlunparse
URLurlparseurllib.parse.urlparse(urlstring,scheme=’’,allow_fragments=True)from urllib.parse import urlparseresult = urlparse('http://www.baidu.com/index.html;uesr?id=5#comment')print(type(result),result)from urllib.parse import urlparseresult =
2020-09-13 22:48:37
214
原创 爬虫学习第四条,urllib中的异常处理
异常处理URLErrorHTTPError遇到的问题错误码是1101出现这个本来以为是哪个地方错了,没想到原因是错误码有显示限制,因为默认的处理器处理了重定向(300以外号码),并且100-299范围的号码指示成功,所以你只能看到400-599的错误号码。具体的解释请看 请叫我汪海404 没有找到 处理方式:丢弃403 禁止 处理方式:丢弃……from urllib import request,errortry: response = request.ur
2020-09-13 22:46:32
99
原创 由于目标计算机积极拒绝,无法连接(解决方法)
不容易最初跟着敲了这个ip‘http’:‘http://127.0.0.1:9743’,‘https’:‘https://127.0.0.1:9743’显示由于目标计算机积极拒绝,无法连接找了一下午的解决方法,没想到是因为自己主机上面没有9743这个端口,改成了8888,还是错了import urllib.requestproxy_handler = urllib.request.ProxyHandler({ 'http':'http://127.0.0.1:9743
2020-09-12 19:50:34
96913
原创 爬虫第二天,urllib中的响应+Request
响应响应类型import urllib.requestresponse = urllib.request.urlopen('https://www.python.org')print(type(response))import urllib.requestresponse = urllib.request.urlopen('https://www.python.org')print(response.status)print(response.getheaders())print
2020-09-12 13:40:16
185
原创 爬虫第一天,urllib库中的URLopen
爬虫基本流程1、发起请求requestsGET or importresponse①浏览器发送消息给该网址所在服务器HTTP Requests②服务器根据内容,做出相应处理,把消息回传给浏览器HTTP Response③浏览器收到Response信息后,进行解析2、解析内容3、获取相应内容4、保存数据你好! 这是你第一次使用 Markdown编辑器 所展示的欢迎页。如果你想学习如何使用Markdown编辑器, 可以仔细阅读这篇文章,了解一下Markdown的基本语法知识。新
2020-09-10 22:07:03
115
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人