
python
没离开过_MW
这个作者很懒,什么都没留下…
展开
-
python-默认时区的设置及时区的转换
# 设置默认时区datetime.datetime.strptime('需要转换的时间', '你的时间格式').replace(tzinfo=pytz.timezone("你需要设置的默认时区"))原创 2021-06-11 10:13:40 · 2386 阅读 · 0 评论 -
E: Sub-process /usr/bin/dpkg returned an error code (1)
安装pycurl报错:E: Sub-process /usr/bin/dpkg returned an error code (1)此问题是由于dpkg缺失相关文件引起的,解决方案可参考下面这篇博客;https://blog.youkuaiyun.com/stickmangod/article/details/85316142...转载 2019-12-24 10:04:38 · 289 阅读 · 0 评论 -
Scrapy 框架
Scrapy 框架 Scrapy是用纯Python实现一个为了爬取网站数据、提取结构性数据而编写的应用框架,用途非常广泛。 框架的力量,用户只需要定制开发几个模块就可以轻松的实现一个爬虫,用来抓取网页内容以及各种图片,非常之方便。 Scrapy 使用了 Twisted(其主要对手是Tornado)多线程异步网络框架来处理网络通讯,可以加快我们的下载速度,不用自己去实现异步...原创 2018-09-19 19:26:18 · 186 阅读 · 0 评论 -
阿里云-centos-7.2-安装python3,并设置python3为默认
1.安装python3.6.5 1.1 先去python官网下载python3安装包 执行命令: wget https://www.python.org/ftp/python/3.6.5/Python-3.6.5.tgz 1.2 安装zlib-devel包(后面安装pip需要用到,这里先下载,后面就不用重复编译)yum install zlib-devel1.3 ...原创 2018-09-03 20:10:21 · 2873 阅读 · 6 评论 -
Python 一行代码去除list元素(字符串)中的换行符、制表符、空格
priceList为一个列表:priceList = ['\n\t\t\t\t\t\t\t\tCHF\xa0\r\n \r\n \t64.90', '\n\t\t\t\t\t\t\t\tCHF\xa0\r\n \r\n \t58.40', '\n\t\t\t\t\t\t\t\tCHF\xa0\r\n \r\n \t48.70']...原创 2019-02-13 16:53:50 · 19610 阅读 · 0 评论 -
查看本机IP/代理IP
查看本机IP:浏览器地址栏请求:http://httpbin.org/get{ "args": {}, "headers": { "Accept": "text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8", "Accept-Encoding"...原创 2019-03-20 11:33:17 · 5074 阅读 · 1 评论 -
linux 源码安装/配置odoo12
安装postgresql若使用一键安装失败,出现依赖问题,需卸载postgresql数据库时:删除相关的文件:sudo apt-get --purge remove postgresql\*sudo rm -r /etc/postgresql/sudo rm -r /etc/postgresql-common/sudo rm -r /var/lib/postgresql/...原创 2019-03-27 18:14:18 · 1495 阅读 · 0 评论 -
解决: Command "python setup.py egg_info" failed with error code 1 in /tmp/pip-install/mysql-client
ERROR: Command "python setup.py egg_info" failed with error code 1 in /tmp/pip-install-bi1j08n_/mysqlclient/错误无法安装python第三方库 ERROR: Complete output from command python setup.py egg_info: ER...原创 2019-04-29 16:28:21 · 2334 阅读 · 0 评论 -
pandas-按列生成csv文件
a = [1,2,3,4,5]b = [1,1,1,1,1]c = [2,2,2,2,2]d = [3,3,3,3,3]from pandas import DataFrameimport pandas as pddf = pd.DataFrame()df['a'] = adf['b'] = bdf['c'] = cdf['d'] = ddf.set_index('a', ...原创 2019-05-14 14:32:48 · 3387 阅读 · 1 评论 -
pip freeze
pip freeze | tee requirements.txt # 输出本地包环境至文件pip install -r requirements.txt # 根据文件进行包安装原创 2019-05-16 15:03:55 · 270 阅读 · 0 评论 -
django-admin只显示自定义的提示信息
若只显示提示信息django提供了self.message_user()方法:class PricecaclBaseAdmin(admin.ModelAdmin): def save_model(self, request, obj, form, change): self.message_user(request, "%s 请重新设置, 谢谢!" % messag...原创 2019-09-17 16:06:23 · 2167 阅读 · 0 评论 -
字典嵌套字典的数据--按内部字典的值进行排序
如下代码所示:d = { 'a': {'a1': 3, 'a2': 3}, 'b': {'a1': 8, 'a2': 3}, 'c': {'a1': 6, 'a2': 3}, 'd': {'a1': 1, 'a2': 3}, 'e': {'a1': 9, 'a2': 3}, 'f': {'a1': 4, 'a2': 3}, }pri...原创 2019-10-10 15:52:01 · 409 阅读 · 0 评论 -
scrapy安装
安装 1、安装wheel pip install wheel2、安装lxml 3、安装pyopenssl 4、安装Twisted 5、安装pywin32 6、安装scrapypip install scrapyScrapy的安装介绍Scrapy框架官方网址:http://doc.scrapy.org/en/latestScrapy中文维护站点:htt...原创 2018-09-19 19:32:22 · 165 阅读 · 0 评论 -
scrapy入门案例
入门案例学习目标 创建一个Scrapy项目 定义提取的结构化数据(Item) 编写爬取网站的 Spider 并提取出结构化数据(Item) 编写 Item Pipelines 来存储提取到的Item(即结构化数据) 一. 新建项目(scrapy startproject)在开始爬取之前,必须创建一个新的Scrapy项目。进入自定义的项目目录中,运行下...原创 2018-09-19 19:42:56 · 354 阅读 · 0 评论 -
去除字符串中重复元素
# 内含分隔符的字符串str1 = 'a,s,d,f,g,h,d,f'sep = ','list1 = set(str1.spilt(sep)str2 = sep.join(str2)print(type(str2), str2)原创 2018-12-10 18:10:37 · 1060 阅读 · 0 评论 -
获取文件夹下所有文件的名称
import osrootdir = '文件路径'list = os.listdir(rootdir) # 获取文件名列表原创 2018-12-10 18:03:17 · 847 阅读 · 0 评论 -
Scrapy进阶-防ban策略
1. download_delay因为我们要大批量爬取网页,为了防止过分密集影响到别人的服务器,建议在setting.py中设置DOWNLOAD_DELAY=2,最好是在晚上睡觉的时候跑,这样虽然速度慢了一点,但是被dan的几率会降低很多哦。2. 禁止cookiescookies,是指某些网站为了辨别用户身份而储存在用户本地终端(Client Side)上的数据(通常经过加密),有的时...转载 2018-09-21 11:45:12 · 251 阅读 · 0 评论 -
scrapy_反反爬之动态User-Agent、IP
Some websites implement certain measures to prevent bots from crawling them, with varying degrees of sophistication. Getting around those measures can be difficult and tricky, and may sometimes requir...原创 2018-09-26 10:40:28 · 669 阅读 · 0 评论 -
scrapy-CrawlSpiders
通过下面的命令可以快速创建 CrawlSpider模板 的代码:scrapy genspider -t crawl tencent tencent.com上一个案例中,我们通过正则表达式,制作了新的url作为Request请求参数,现在我们可以换个花样...class scrapy.spiders.CrawlSpider它是Spider的派生类,Spider类的设计原则是只爬取...原创 2018-09-20 23:41:18 · 246 阅读 · 0 评论 -
scrapy-parse()方法的工作机制
1. 因为使用的yield,而不是return。parse函数将会被当做一个生成器使用。scrapy会逐一获取parse方法中生成的结果,并判断该结果是一个什么样的类型;2. 如果是request则加入爬取队列,如果是item类型则使用pipeline处理,其他类型则返回错误信息。3. scrapy取到第一部分的request不会立马就去发送这个request,只是把这个request放到队列...原创 2018-09-20 23:30:39 · 767 阅读 · 0 评论 -
scrapy-案例:腾讯招聘网自动翻页采集
创建一个新的爬虫: scrapy genspider tencent "tencent.com" 编写items.py 获取职位名称、详细信息、class TencentItem(scrapy.Item): # define the fields for your item here like: jobTitle = scrapy.Field() j...原创 2018-09-20 23:30:01 · 463 阅读 · 0 评论 -
scrapy-spider类分析
Spider类定义了如何爬取某个(或某些)网站。包括了爬取的动作(例如:是否跟进链接)以及如何从网页的内容中提取结构化数据(爬取item)。 换句话说,Spider就是您定义爬取的动作及分析某个网页(或者是有些网页)的地方。class scrapy.Spider是最基本的类,所有编写的爬虫必须继承这个类。主要用到的函数及调用顺序为:__init__(): 初始化爬虫名字和start_u...原创 2018-09-20 23:25:16 · 283 阅读 · 0 评论 -
scrapy-Item Pipeline
当Item在Spider中被收集之后,它将会被传递到Item Pipeline,这些Item Pipeline组件按定义的顺序处理Item。每个Item Pipeline都是实现了简单方法的Python类,比如决定此Item是丢弃而存储。以下是item pipeline的一些典型应用: 验证爬取的数据(检查item包含某些字段,比如说name字段) 查重(并丢弃) 将...原创 2018-09-20 23:21:37 · 166 阅读 · 0 评论 -
scrapy-如何在CrawlSpider进行模拟登陆
因为CrawlSpider和Spider一样,都要使用start_requests发起请求,用从Andrew_liu大神借鉴的代码说明如何模拟登陆:##替换原来的start_requests,callback为def start_requests(self): return [Request("http://www.zhihu.com/#signin", meta = {'coo...原创 2018-09-20 23:15:42 · 710 阅读 · 0 评论 -
Scrapy 去重
Scrapy 去重RFPDupeFilter这个类 set()集合那么在 scrapy 中是如何来使用这个类的方法的呢?什么时候使用,这个流程是怎样的呢?这个可以追溯到 scrapy.core.scheduler 中定义的 Scheduler 类来决定。现在就来看看 Scheduler 类中和过滤重复 url 有关的内容。在 Scheduler 类中,在调度时,采用了 me...原创 2018-09-19 19:46:38 · 2891 阅读 · 0 评论 -
Python-去除字符串中的空格
s = ' a s d 'print(s.strip(), "***") # a s d ***(去除字符串两端的空格)print(s.lstrip(), "++++") # a s d ++++(去除字符串左端的空格)print(s.rstrip(), "====") # a s d ====(去除字符串右端的空格)print(s.replace(" ",...原创 2018-12-14 15:54:22 · 806 阅读 · 0 评论