
Python
文章平均质量分 70
溪水人家
这个作者很懒,什么都没留下…
展开
-
Python多进程 struct.error: ‘i‘ format
当对多个文件进行同样的预处理时,为了加快处理速度会使用Python多进程。每个进程返回数据给父进程,做最后的合并处理。问题描述与分析代码在处理大文件时候会抛出如下错误,但当处理的文件较小时候,一切正常。concurrent.futures.process._RemoteTraceback:"""Traceback (most recent call last): File "/home/dxi/software/python3.7.9/lib/python3.7/concurrent/futu原创 2020-09-22 17:40:56 · 3565 阅读 · 0 评论 -
文本文件在MongoDB中的存储大小
前言项目中使用MongoDB存储文本数据,通过pymongo连接DB提供python查询接口。原始文件每天增长,项目需要评估MongoDB服务器使用什么规格的硬盘,那么当文本文件存入MongoDB后,相比原始文件,MongoDB磁盘占用多少,压缩率如何,怎么可以优化磁盘占用空间。本文尝试解答这些问题。测试步骤测试文件:csv文件,13,515,366行,22列文件大小: 4.6G(csv文件使用mongodb是因为不同的csv文件中列是不同的)测试方法:测试三种情况下,MongoDB中col原创 2020-09-21 18:43:29 · 2361 阅读 · 0 评论 -
Python多重继承
多重继承可以允许继承多个父类,实现多个父类的功能,具体可以参考这里那么若当多个父类有相同的方法时,调用这个方法会如何。答:会调用继承第一个类中的方法。这是按照Python方法解决顺序执行,参考如下代码。class A: def say_hello(self): print("Hi from A")class B: def say_hello(self):...原创 2019-04-12 18:44:24 · 285 阅读 · 0 评论 -
Python去除文本中非utf8字符
在处理文档相关项目中,经常会碰到utf8的非法字符,例如用户上传一个文件,系统根据用户文件产生相应结果返回。如果用户文件(utf编码的csv文件)中有utf8的非法字符,需要程序能自动去掉这些字符,因为这些字符也是无意义的。错误信息:处理方法:...原创 2019-09-04 17:01:49 · 7710 阅读 · 2 评论 -
uWSGI invalid request block size (max 4096)
问题描述:项目使用Nginx + uWSGI + Python Flaks 提供Restful API服务,用户反馈同一个服务,部分请求会出现502 Bad Gateway Error,部分请求正常返回。问题分析:检查uWSGI 日志,发现有如下错误日志uwsgi invalid request block size: 5922 (max 4096)...skip可见是因为r...原创 2018-10-12 10:14:42 · 1758 阅读 · 0 评论 -
Python Trie树实现最长前缀字符串提取
在文本解析项目中,经常会碰到提取品牌、商家名等需求。如给定一个手机型号字符串,要求从中提取出品牌。Trie可以很好满足此类需求。Tire,也叫前缀树字典树,是一种数据结构,可以用来快速检索字符串是否存在以及在字符串开始处抽取预定义的子字符串。搜索时间复杂度为O(M) M为字符串长度。Tire代码实现Python中无指针,使用Dict实现树结构。# -*- coding: ...原创 2018-11-16 17:32:45 · 1895 阅读 · 0 评论 -
Python JSON序列化
引言JSON(JavaScript Object Notation) 是一种轻量级的数据交换格式,独立于编程语言的文本格式。序列化(Serialization): 一种数据转换方法,将结构化数据转换为用于存储交换的格式,并且可以从新格式恢复原始的结构化数据。如二进制序列化。在微服务盛行的当下,不论是与其他APP共享数据还是提供REST API接口,JSON是重要的数据交换格式。那么在P...原创 2018-12-13 22:09:43 · 1257 阅读 · 0 评论 -
正则表达式速查表
在文本分析中,正则表达式是一个必不可少的工具,但每次使用时候去查找什么代表匹配一次,该用哪个方法等也是比较繁琐的。基于日常工作使用正则的积累,将最常用的知识点放到一张A4纸中,可以打印出来,非常方便使用。 下载链接:https://download.youkuaiyun.com/download/xdshust/10850487 ...原创 2018-12-14 14:54:14 · 335 阅读 · 0 评论 -
Union-Find 并查集算法详解
引言领导(笑呵呵的走过来):有个挑战性但很有意思的项目,你想不想试一下小溪子:(各个部位有点紧)好的,非常想干。领导:现在一个手机通常有几个名字,我们已经知道一些名字对代表相同手机,需要设计一个算法能够将一个手机的所有名字连接起来形成一个组,给定任一名字能够查找所属的组,并判断两个名字是否等效(相同手机)。小溪子:(恰巧看算法)这好像是动态连通性问题。动态连通性有...原创 2018-12-14 22:27:55 · 530 阅读 · 0 评论 -
Python * ** *args **kwargs用法与区别
*args: 允许函数接收多个参数,函数体内args类型为tuple*kwargs: 允许函数接收多个关键字参数,函数体内kwargs为字典原创 2019-01-16 11:55:03 · 828 阅读 · 1 评论 -
怎样让IE浏览器显示application/json数据而不是下载
在开发API接口时候,当API返回的header中Content-Type: application/json时候,IE默认会保存JSON数据,而不是像Chrome,Firefox中正常显示JSON数据。微软IE社区解释这个正常的IE行为,如果想展示JSON数据,需要将数据放在HTML <pre>或<code>中项目开发使用的是Flask-restplus,Flask-...原创 2019-01-22 21:04:58 · 2801 阅读 · 0 评论