python
文章平均质量分 62
Macanv
脚踏实地,每天进步一点点
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Centos 7源码安装Python3
Centos 7源码安装Python3因为发先grpc 的多进程在anaconda环境下会出现内存溢出的bug,找了一圈没发现咋解决,后来源码安装Python问题不再出现,这里记录一下编译安装的过程。1. 下载安装包wgt https://www.python.org/ftp/python/3.7.10/Python-3.7.10.tar.xz2. 解压tar -xvf Python-3.7.10.tar.xz3. 修改ssh相关内容cd Python-3.7.10vim Modules原创 2021-12-28 11:36:43 · 1187 阅读 · 0 评论 -
conda 环境迁移
conda 环境迁移今天需要在内网进行python服务的部署,但是发现内网机器无法访问外部网络,无法进行相关依赖包的安装,于是诞生此文。本文使用conda-pack 进行conda 环境的迁移。1. 安装conda-pack pip install conda-pack2. 在本地打包好conda 环境conda pack -n my_env命令中的my_env是你conda中的环境名,替换成自己的就好执行完以后在当前目录下会生成my_env.tar.gz的压缩包3. 目的机器环境原创 2020-10-28 11:45:31 · 1740 阅读 · 0 评论 -
高维空间向量搜索---腾讯词向量相似检索实践
高维空间向量搜索—腾讯词向量相似检索实践最近工作上遇到一些语料OOV问题,想到可以使用同义词进行替换来弥补部分OOV带来的问题,于是就有了本篇博客的相关实验。最简单的可以使用gemsim在语料库上训练一个word2vec,然后使用gemsim自带的相似度API直接进行计算,这种方法是最简单的(不考虑内存消耗,计算时间的情况下)。但是自己的语料本身就有OOV问题,训练后,估计效果也不行,于是想到使用腾讯的语料,网上有一篇使用腾讯语料计算相似词的文章,但是只能使用公众号来请求,没有给出代码。本文记录一下使原创 2020-08-19 09:59:58 · 1448 阅读 · 1 评论 -
redis 亿级别的key-value 存储查询实践
redis 亿级别的key-value 存储查询实践1. 背景2. redis pipline 插入3.redis hash键值优化存储4.分桶存储海量数据5.数据定时删除6.其他7.参考1. 背景最近项目中有使用到redis,需要存储的数据是key-value类型的,为了优雅的使用redis,提高查询效率,学习了一下,这里记录使用到的redis相关知识,主要涉及:redis的pipline插入,redis hash键值优化存储分桶存储海量数据数据定时删除其他下面我将使用n-gram来原创 2020-08-12 16:51:18 · 2857 阅读 · 0 评论 -
python 使用uwsgi 开启多进程服务
通常,我们使用flask起好了一个服务后,希望使用多进程来更高效的使用我们的服务,是我们的服务能更大的处理并发,这里记录一个简单的使用。目录flask服务编写uwsgi配置文件uwsgi启动多进程关闭所有开启的多进程服务1.创建一个简单的flask服务这里我们模拟一个简单分词的HTTP服务,服务的输入输出如下:用户输入: 字符串的query服务输出: 分词结果服务的代码如下...原创 2020-04-04 18:41:56 · 6790 阅读 · 0 评论 -
清华大学THUCNews数据集处理方法
清华大学THUCNews数据集处理方法数据集下载地址:http://thuctc.thunlp.org/本文主要记录了清华的THUCNEWS数据集用于文本分类的数据预处理方法,比较简单直接上代码#! usr/bin/env python3# -*- coding:utf-8 -*-""" 清华大学的文本分类数据集的处理 @Author:MaCan @Time:2019/9/17 ...原创 2019-09-17 15:18:48 · 8225 阅读 · 1 评论 -
PySpark TF-IDF计算(2)
使用PySpark进行TF-IDF计算这篇博文将记录使用PySpark进行TF-IDF统计的过程,将提供多种计算方法。1. 准备数据为了简单,同时为了验证自己的程序有木有错误,我使用如下的测试数据:1 我来到北京清华大学2 他来到了网易杭研大厦3 我来到北京清华大学4 他来到了网易杭研大厦5 我来到北京清华大学,我来到北京清华大学一共五行,每行代表一篇文章,每行中得文章id和正...原创 2019-02-19 20:26:40 · 5483 阅读 · 8 评论 -
Windows下PySpark 环境搭建篇以及词频统计(1)
Windows下pyspark环境搭建以及使用结巴分词进行词频统计1. 环境搭建环境搭建的教程已经有很多人写了,我就不多写了, 大家自行百度(推荐在Windows下面安装2.3.1版本的pyspark也是这个版本,避免后面踩坑https://github.com/apache/spark/pull/23055)在这里下载spark的软件包放到任意目录,解压后路径避免空格,然后将bin路径加...原创 2019-02-18 11:34:45 · 925 阅读 · 0 评论 -
Spark中得groupBy,reduceByKey和 combineByKey区别于各自用法 (5)
Spark中得groupByKey,reduceByKey和 combineByKey区别于各自用法这篇博文记录Spark中经常使用到的shuffle操作groupByKey,reduceByKey和 combineByKey,其中前面两个分别还有不带Key,可以在RDD的trans过程中自定义key的用法,在前面的计算TF-IDF文章中有使用到。下面就一一的来介绍这三个API,使用词频统计的...原创 2019-02-21 21:48:12 · 5087 阅读 · 0 评论 -
PySpark TopK 问题(分组TopK)(4)
PySpark TopK 问题(分组TopK)记录几种利用PySpark计算TopK的方法,准备使用两个例子,其中第一个例子是计算不同院系,不同班,不同学科的成绩前K名的分数。第二个例子以文本数据为例,计算在不同文本类别下出现TopK 频率的单词。1.准备数据1,111,68,69,90,1班,经济系2,112,73,80,96,1班,经济系3,113,90,74,75,1班,经济系4...原创 2019-02-21 15:29:10 · 1683 阅读 · 0 评论 -
在分布式环境Spark中关闭jieba延时加载等优化方法 (3)
在分布式环境中关闭jieba延时加载的方法这篇博客是记录在使用spark+jieba的过程中,每个task调动jieba分词的时候需要进行延时加载或者从缓存中读取模型文件从而浪费时间问题:Building prefix dict from the default dictionary ...Loading model from cache C:\Users\C\AppData\Local\T...原创 2019-02-21 14:43:02 · 2521 阅读 · 4 评论 -
基于BERT预训练的中文命名实体识别TensorFlow实现
BERT-BiLSMT-CRF-NERTensorflow solution of NER task Using BiLSTM-CRF model with Google BERT Fine-tuning使用谷歌的BERT模型在BLSTM-CRF模型上进行预训练用于中文命名实体识别的Tensorflow代码’代码已经托管到GitHub 代码传送门 大家可以去clone 下来亲自体验一下!g...原创 2019-01-03 11:58:25 · 145517 阅读 · 467 评论 -
sklearn 中的Countvectorizer/TfidfVectorizer保留长度小于2的字符方法
在sklearn中的sklearn.feature_extraction.text.Countvectorizer()或者是sklearn.feature_extraction.text.TfidfVectorizer()中其在进行却分token的时候,会默认把长度<2的字符抛弃,例如下面的例子:x = ['i love you', 'i hate you', 'i']vect = CountVe原创 2017-11-13 19:54:38 · 2980 阅读 · 0 评论 -
windows下python安装scipy库的方法
在windows下使用pip install scipy 安装scipy 库的时候,或者使用pycharm安装的时候同样如此,找了很多资料,本文给出解决方法:1. 下载两个包这两个包在http://www.lfd.uci.edu/~gohlke/pythonlibs/ 中, 下载的两个包是numpy+mkl 和scipy。numpy-1.11.3+mkl-cp27-cp27m-win_amd64.w原创 2017-01-12 09:21:03 · 9870 阅读 · 2 评论
分享