
随笔
文章平均质量分 54
拒绝者zzzz
这个作者很懒,什么都没留下…
展开
-
python自带队列queue使用生产者消费者多线程使用
生产者消费者代码示例:import timefrom queue import Queuefrom threading import Threadq = Queue(maxsize=3)def consumer(): print('消费者线程启动') while True: print('开始消费',q.get()) time.sleep(2) q.task_done()def size(): while not原创 2021-11-11 17:26:15 · 812 阅读 · 0 评论 -
使用Python包Vaex读入并分析100G数据
许多组织都在尝试收集和利用尽可能多的数据,以改善其经营方式,增加收入和提升影响力。因此,数据科学家面对50GB甚至500GB大小的数据集情况变得越来越普遍。不过,这类数据集使用起来不太容易。它们足够小,可以装入日常笔记本电脑的硬盘驱动器中,但同时大到无法装入RAM,导致它们已经很难打开和检查,更不用说探索或分析了。处理此类数据集时,通常采用3种策略。第一种是对数据进行二次采样,但缺点很明显:你可能因为忽视相关部分数据而错过关键洞察,甚至更糟的是,这会误解了数据所阐释的含义。第二种策略是使用分布式计算原创 2021-01-07 10:02:52 · 1311 阅读 · 0 评论 -
时间格式随心转换之 dateparser
特性主要特点支持几乎所有现有的日期格式:绝对日期、相对日期(“两周前”或“明天”)、时间戳等。支持200多种语言环境。语言自动检测通过设置可自定义的行为。支持非公历系统。支持带时区缩写或UTC偏移量的日期(“2015年8月14日东部时间”,“2013年7月21日10:15 pm+0500”…)在较长的文本中搜索日期轻松使用>>> import dateparser>>> dateparser.parse('Fri,原创 2020-11-03 13:49:30 · 1703 阅读 · 0 评论 -
普通爬虫request的请求和scrapy框架的部分区别
requsts库直接请求默认请求头{'host': '47.102.141.217:8000', 'user-agent': 'python-requests/2.23.0', 'accept-encoding': 'gzip, deflate', 'accept': '*/*', 'connection': 'keep-alive'}scrapy框架自带的请求头{'accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*原创 2020-10-30 15:37:20 · 703 阅读 · 0 评论