python
S_H-A_N
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
python使用gensim进行文本相似度计算
前提知识:阮一峰:TF-IDF与余弦相似性的应用(一):自动提取关键词 TF-IDF与余弦相似性的应用(二):找出相似文章本文章根据 在路上吗 翻译官方教程,使用tfidf计算文本相似度翻译教程地址:http://blog.youkuaiyun.com/questionfish/article/category/5610303首先安装gensi原创 2017-06-12 22:35:12 · 18194 阅读 · 5 评论 -
elasticsearch bulk方法超时问题
批量插入数据的时候,出现了超时的问题,因为es默认时间为10s,批量插入的时候超过了这个时间,出现了超时异常批量插入语句: es_conn.bulk(data_list)异常:elasticsearch.exceptions.ConnectionTimeout: ConnectionTimeout caused by - ReadTimeoutError(HTTPConnectio原创 2018-01-24 22:03:19 · 19633 阅读 · 1 评论 -
python使用反射机制实例化对象
之前在做数据解析的时候,发现不同类别的数据解析的流程是一样的,只不过每次去查询获取数据的时候表不相同,为了代码能够简洁一些,想到了先创建一个父类A,每个数据类别对应一个A的子类,在子类中实现数据查询的方法,然后通过获取A的所有子类对象,用反射机制实例化对象,再调用数据查询的方法来完成所有类别的数据解析工作,这样如果再新增一个类别,只需要再添加一个A的子类对象即可。例子:项目结构如下:原创 2018-01-19 22:06:44 · 14057 阅读 · 3 评论 -
python获取文件的绝对路径
文件目录结构如下:第一种方法:os.path.abspath(__file__)假设app.py中想读取config.ini文件的内容,首先app.py需要知道config.ini的文件路径,从目录结构上可以看出,config.ini与app.py的父目录同级,也就是获取到app.py父目录(bin文件夹的路径)的父目录(config文件夹路径)的绝对路径再拼上config.ini文件名就能获取到...原创 2018-02-08 09:54:23 · 129778 阅读 · 6 评论 -
python从数据库获取全量数据的方法
数据库:postgresql(1)第一种方法:使用分页查询的方式,不推荐使用特别是在数据量大的时候 首先计算总数据量,然后根据每次查询的大小batch_size计算总共有多少页,再一页一页的去获取数据。 由于分页查询类似ES中的深度分页,页数越大效率越低,因此在数据量小的时候用用还凑合。import psycopg2.poolfrom datetime import da...原创 2018-03-09 22:53:27 · 12098 阅读 · 0 评论
分享