python
cuiljiang
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
【无标题】
Python报错SyntaxError: (unicode error) 'utf-8' codec can't decode byte 0xbb in position 1: invalid start byte在python文件中加了中文字符,执行后出现如上报错:我们一般会在python文件第二行添加如下编码申明:# -*- coding:utf-8 -*-这个地方重点要注意就是,申明只是告诉python解释器按这个编码来解析,和文件本身编码并没有关系。上面出错的原因也是在这里。通过分析查看原创 2022-03-27 22:08:25 · 1265 阅读 · 0 评论 -
Python3.7的安装以及报错处理方法
Python的安装以及报错处理方法一、下载下载路径:https://www.python.org/downloads/二、安装(以安装python3.7为例)在win下安装:1、创建新的安装目录:c:/python372、环境变量的配置(勾选自动配置)检查安装是否正确# 第一步::C:\Users\cuiljiang>pythonPython 3.7.0 (v3.7....原创 2019-06-09 23:57:05 · 5584 阅读 · 0 评论 -
抓取文档的保存
抓取文档的保存一、保存在txt二、保存在docx参考:https://blog.youkuaiyun.com/qq_22521211/article/details/81742887,https://blog.youkuaiyun.com/u011932355/article/details/51769803from docx import Documentdoc = Document()doc.add...原创 2019-05-26 01:21:15 · 346 阅读 · 0 评论 -
Rarfile解压不了的问题
Rarfile解压不了的问题来源:https://www.cnblogs.com/maindir/p/9040108.html最近用python调用rarfile进行解压rar压缩包时,报了如下错误:rarfile.RarCannotExec: Unrar not installed? (rarfile.UNRAR_TOOL='unrar')结合本人C#调用rar.exe的经验:ra...转载 2019-05-24 14:05:17 · 4520 阅读 · 2 评论 -
爬虫报错集
UnicodeEncodeError: ‘gbk’ codec can’t encode character ‘•’ in position 41: illegal multibyte sequence拉勾网数据抓取中,抓取一段数据后出现如下报错:\u200eUnicodeEncodeError: ‘gbk’ codec can’t encode character ‘•’ in posit...原创 2019-04-26 16:40:01 · 374 阅读 · 0 评论 -
Centos7安装python3.7.0
这里使用的时centos7-mini,centos系统本身默认安装有python2.x,可通过 python --V 或 python --version 查看系统自带的python版本有一些系统命令时需要用到python2,不能卸载1、安装依赖包1)首先安装gcc编译器,gcc有些系统版本已经默认安装,通过 gcc --version 查看,没安装的先安装gcc。[root@lo...原创 2019-03-23 09:03:48 · 227 阅读 · 0 评论 -
python爬取拉勾网出现KeyError: 'content'
python爬取拉勾网出现KeyError: ‘content’在爬取拉勾网的时候,出现如下报错,经分析解析路径没有出错,是cookie过期,没有响应数据,即不存在这个数据,才会出现如下报错:【解决办法】1、 设置条件语句:import requestsimport jsondef main(): for i in range(1,3): url = '...原创 2019-03-12 21:04:31 · 19051 阅读 · 14 评论 -
Python中定于全局变量得两种方法
Python中定于全局变量的两种方法1. 声明法该方法是直接在当前模块中进行全局变量定义声明,使用global的声明方式,再进行引用!HEAD = { 'user-agent': 'Mozilla/5.0' } def parse_html(): global OLD_URL response = requests.get(url, headers = HEAD) ...原创 2019-03-12 13:46:11 · 1119 阅读 · 0 评论 -
初级爬虫工程师需要具备哪些知识
爬虫工程师需要具备哪些知识一、必备部分(初级)1、熟悉多线程编程、网络编程、HTTP协议相关2、开发过完整爬虫项目(最好有全站爬虫经验,这个下面会说到)3、反爬相关,cookie、ip池、验证码等等4、熟练使用分布式5、了解企业级爬虫和个人爬虫的差异(企业级爬虫,首先在数据量上跟我们平时学习的时候爬虫,不是同一数量级,数据量大很多。其次,企业级爬虫代码一般部署到专门的爬虫服务器上,采取...原创 2019-03-11 10:52:52 · 8758 阅读 · 0 评论 -
AttributeError: 'builtin_function_or_method' object has no attribute 'acquire'
今天再写写python多线程程序的时候出现了报错:File "C:/Py/python/demo.py", line 26, in run gLock.acquire()AttributeError: 'builtin_function_or_method' object has no attribute 'acquire'经过检查发现是再申明锁机制的时候漏了括号gMoney =...原创 2019-03-07 15:41:37 · 24740 阅读 · 6 评论 -
Python发送请求,构造URL
构造浏览器请求url的方法(一)在分析完爬取数据之后,通过params方法构造请求。程序来源:崔庆才from pyquery import PyQuery as pqimport requestsdef getPage(page): url = 'https://m.weibo.cn/api/container/getIndex?'#在怎么来?分析Ajax请求 hd ...原创 2019-03-08 16:06:27 · 3672 阅读 · 0 评论 -
斗鱼爬取用户信息和观看人数
爬取用户信息和观看人数摘要:此篇文章主要是对Ajax和json两个的练习。如何抓取异步加载的网站以及返回的json数据的提取。目标站点网站:https://www.douyu.com/g_LOL分析:打开网址,进行翻页的时候,发现头部的URL不变化,分析后台请求发现如下需要的数据都在如下图所示里面的response,切都是json格式。分析请求url,发现是采用get的方式请求,翻页...原创 2019-03-08 15:27:49 · 2230 阅读 · 1 评论 -
关于request爬取的时候出现乱码问题
学习爬虫的时候,经常会遇到这种问题,即显示的内容为乱码。以下为12306作为一个例子,执行代码如下import requestsresponse = requests.get('https://www.12306.cn')print(response.encoding)print(response.text)可以看到返回response编码类型为 ISO-8859-1,文本输出中...原创 2019-02-27 22:50:09 · 941 阅读 · 0 评论
分享