
爬虫开发
故里顾里
这个作者很懒,什么都没留下…
展开
-
将python项目打包成exe文件
最近在研究一个采集系统,最后做好之后由于客户使用时不能直接运行py,而且安装python环境也十分不方便,因此通过搜集资料,发现了一个工具包pyinstaller,可以将python类别的所有文件打包成exe,接下来详细说明一下我自己的使用过程。一、安装pyinstaller使用指令pip install pyinstaller进行安装即可。二、找到你python项目的初始文件(即启动文件),在所在目录的dos下执行命令pyinstaller -F main.py ,因为我的启动文件时main.p.转载 2021-10-21 13:37:19 · 1325 阅读 · 0 评论 -
影刀的一些用法
1、os 的用法# 返回的是绝对路径os.path.abspath(path)2、获取网页上的图片from urllib.request import urlretrievepython3中urllib.request模块提供的urlretrieve()函数。urlretrieve()方法直接将远程数据下载到本地。urlretrieve(url, filename=None, reporthook=None, data=None)参数url:下载链接地址参数filename:指定了保存本原创 2021-07-21 15:12:27 · 5802 阅读 · 0 评论 -
zip的使用
1、zip的使用是可以把一系列的数据组合起来a = ['a','b','c','d','e']b = [1,2,3,4,5]for i,j in zip(a,b): print(i,j)返回的数据就是这样的a 1b 2c 3d 4e 5原创 2021-07-20 15:16:43 · 346 阅读 · 0 评论 -
爬取图片并保存
首先我们导入一些相关的库,如requests,re,os等标准库:接下来我们要访问的网址为:http://pic.yxdown.com/list/0_0_1.html这就是我们要爬取的图片。以下是我们要导入的库:import requestsfrom lxml import etreeimport osimport re接下来是找到我们所需要的网页html并解析:url = 'http://pic.yxdown.com/list/0_0_1.html'headers = {原创 2020-11-15 10:41:44 · 329 阅读 · 0 评论 -
解析库的使用
一、解析库的使用1、XPath2、Beautiful Soup3、pyquery1、 XPath的使用方法:表 达 式描 述nodename选取此节点的所有子节点/从当前节点选取直接子节点//从当前节点选取子孙节点.选取当前节点…选取当前节点的父节点@选取属性from lxml import etreetext = '''<div> <ul> <li class="i原创 2020-10-16 21:32:40 · 726 阅读 · 1 评论 -
python文件的读去和写入(r/r+/rb/w/w+/wb/a/a+/ab)
1. ‘r’:只读。该文件必须已存在。2. ‘r+’:可读可写。该文件必须已存在,写为追加在文件内容末尾。3. ‘rb’:表示以二进制方式读取文件。该文件必须已存在。4. ‘w’:只写。打开即默认创建一个新文件,如果文件已存在,则覆盖写(即文件内原始数据会被新写入的数据清空覆盖)。5. ‘w+’:写读。打开创建新文件并写入数据,如果文件已存在,则覆盖写。6. ‘wb’:表示以二进制写方式打开,只能写文件, 如果文件不存在,创建该文件;如果文件已存在,则覆盖写。7. ‘a’:追加写。若打开的是已有原创 2020-10-15 13:13:25 · 366 阅读 · 0 评论 -
正则表达式
模式描述\w匹配数字,字母下滑线\W匹配不是字母、数字及下划线\s匹配任意空白字符,等价于[\t\n\r\f]\S匹配任意非空字符\d匹配任意数字,等价于[0-9]\D匹配任意非数字的字符\A匹配字符串开头\Z匹配字符串结尾,如果存在换行,只匹配到换行前的结束字符串\z匹配字符串结尾,如果存在换行还会匹配换行符\G匹配最后匹配完成的位置\n匹配一个换行符\t匹配一个制表符^匹配一个字符的开头...原创 2020-10-13 22:13:46 · 151 阅读 · 1 评论 -
常见的错误代码
原创 2020-10-13 17:05:54 · 233 阅读 · 0 评论 -
运行pyspider时出现SyntaxError: invalid syntax的解决方法
在安装pyspiders时我们使用:pip3 install pyspider进行安装,安装完成后我们要运行pyspider直接打开命令提示符:输入pyspider运行,但是这时候出现了报错此类异常说语法错误其实很简单,其实是python升级将async 设置为关键字,而pyspider 版本更新缓慢并没有在此处修改,所以导致pyspider 不能正常启动。有两种方法可以解决。第一、将python版本降低到3.5或以下这个不建议使用因为会导致你之前安装的一些环境因为依赖高版本而失效第二、修原创 2020-09-17 21:41:44 · 5664 阅读 · 13 评论 -
Splash渲染报错,渲染后一片空白
Splash使用dockers安装后使用docker run -p 8050:8050 scrapinghub/splash进行安装运行Splash打开网址 localhost:80550 st:80550 出现的画面是这样的没有黑色的代码框,而且输入网址(https://www.baidu.com)进行渲染,输出的是一片空白:不知道是这么回事,而且代码中报错:不知道这么解决,如果哪位大佬知道解决方法,评论我,谢谢。...原创 2020-09-15 12:54:17 · 481 阅读 · 0 评论 -
python爬虫代理的使用
python 爬虫代理的使用from urllib.error import URLErrorfrom urllib.request import ProxyHandle,build_openerproxy_handler=ProxyHandler({ 'http':'http://127.0.0.1:9743' 'https':'https://127.0.0.1:9743'})opener=build_opener(proxy_handler)try: response=opener.转载 2020-09-15 12:32:50 · 117 阅读 · 0 评论