1. urlopen打开报错
今天才看到鱼c爬虫的第一课,打开网址就卡住了,报了n多错,直接懵了,仔细翻了一下最后几句,发现证书有问题,然后查了一下改了,全局取消验证:
import ssl
ssl._create_default_https_context = ssl._create_unverified_context
2. chardet与pip的安装
发生在想查出网址编码格式,需要安装模块chardet(detection),mac真的就得重新搜,发现很多几年前的方法已经过时了。。而且要先安装pip才能安装python下的各种包。
curl https://bootstrap.pypa.io/get-pip.py | sudo python
搞了好久好久找了好多好多网页。。。终于找到这行代码,看到successfully installed的句子
Uninstalling pip-21.1.3:
Successfully uninstalled pip-21.1.3
Successfully installed pip-21.2.4 wheel-0.37.0
然后安装chardet:
sudo pip install chardet
测试成功!!激动
>>> import ssl
>>> ssl._create_default_https_context = ssl._create_unverified_context
>>> response = urllib.request.urlopen('http://bbs.fishc.com').read()
>>> chardet.detect(response)
{'encoding': 'GB2312', 'confidence': 0.99, 'language': 'Chinese'}