
python
丨风语者丨
专注于大数据
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
在python3中,关于redis读取数据带有‘b’的问题
在python3中,关于redis读取数据带有‘b’的问题# encoding=utf-8from redis import *# 读取数据d1=input("您输入的数据是:")# 连接r=StrictRedis(host='localhost',port=6379)# 写pipe=r.pipeline()pipe.set('r1','hello')pipe.set...转载 2018-12-10 20:57:35 · 2400 阅读 · 0 评论 -
scrapy的settings设置(一)
第一部分:基本配置1、项目名称,默认的USER_AGENT由它来构成,也作为日志记录的日志名BOT_NAME = 'Amazon'2、爬虫应用路径SPIDER_MODULES = ['Amazon.spiders']NEWSPIDER_MODULE = 'Amazon.spiders'3、客户端User-Agent请求头USER_AGENT = 'Amazon...转载 2019-02-17 20:43:55 · 3173 阅读 · 0 评论 -
scrapy的settings设置(二)
Scrapy设定(settings)提供了定制Scrapy组件的方法。你可以控制包括核心(core),插件(extension),pipeline及spider组件。设定为代码提供了提取以key-value映射的配置值的的全局命名空间(namespace)。Scrapy内置设置下面给出scrapy提供的常用内置设置列表,你可以在settings.py文件里面修改这些设置,以应用或者禁用这些...转载 2019-02-17 20:43:04 · 381 阅读 · 0 评论 -
scrapy 解决UserAgent池和IP代理池的三种方法(推介第三种)
一、UserAgent池1.1在settings配置文件中新增UserAgents池 USER_AGENTS = [ "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; AcooBrowser; .NET CLR 1.1.4322; .NET CLR 2.0.50727)", "Mozilla/4.0 (com...原创 2019-02-17 20:12:30 · 2483 阅读 · 1 评论 -
Python第三方库wordcloud(词云)
1、入门案例"""Minimal Example===============使用默认参数根据美国宪法生成方形的词云"""from os import pathfrom wordcloud import WordCloud# matplotlib的方式展示生成的词云图像import matplotlib.pyplot as pltd = path.dirname(__...转载 2019-02-16 12:05:16 · 2550 阅读 · 0 评论 -
scrapy爬取图片并保存
通过item中的url下载并保存图片from scrapy import Requestclass DownloadImagesPipeline(ImagesPipeline): def get_media_requests(self, item, info): # 下载图片 print(item) for image_url in item['...原创 2019-02-15 15:39:13 · 1463 阅读 · 0 评论 -
requests和xml的结合应用
import requestsr = requests.get("http://www.webxml.com.cn//webservices/qqOnlineWebService.asmx/qqCheckOnline?qqCode=1223995142")result = r.text# XML 模块from xml.etree import ElementTree as ET#解析x...转载 2019-02-14 16:53:43 · 936 阅读 · 0 评论 -
python解析xml
如果返回的是内容的格式python的基本数据类型,可以json将返回的字符串转为python的基本数据类型。但是大多数情况下,我们通过http协议请求一个url后,返回的却是?xml格式。基于这种常见的报文格式,python对其进行提供了相应模块,如下:一、xml模块XML是实现不同语言或程序之间进行数据交换的协议,XML文件格式如下:<data> <...转载 2019-02-14 16:51:26 · 2282 阅读 · 0 评论 -
python——时间与时间戳之间的转换
对于时间数据,如2016-05-05 20:28:54,有时需要与时间戳进行相互的运算,此时就需要对两种形式进行转换,在Python中,转换时需要用到time模块,具体的操作有如下的几种:将时间转换为时间戳 重新格式化时间 时间戳转换为时间 获取当前时间及将其转换成时间戳1、将时间转换成时间戳将如上的时间2016-05-05 20:28:54转换成时间戳,具体的操作过程为:利用...转载 2019-02-14 16:18:43 · 4444 阅读 · 0 评论 -
读取scrapy配置文件setting.py中的方法
from scrapy.utils.project import get_project_settingssettings = get_project_settings()user_agents = settings['USER_AGENTS']原创 2019-02-18 12:50:48 · 3116 阅读 · 0 评论