技术
文章平均质量分 60
快乐的小凯
坚持改变一切
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
不再依赖hadoop/spark等工具就可以快速解决大规模中文分词统计频数问题
本文主要讲的是,我们如何在没有hadoop或者spark这些大数据统计工具的情况,如何对大规模的文章快速的获取分词并且统计词频的方法,尤其是百万级其以上的数据量效果明显。【特别说明】我是经过实测的,可能和自己的机器有关,所以耗时上可能有些差异。但是效果肯定是明显的。好的方法就是要分享给大家。1. 本文涉及到的工具、数据、命令工具:jieba_fast [1] 使用cpython重写了jieba分词库中计算DAG和HMM中的vitrebi函数,速度得到大幅提升。快速利用清华镜像安装jieba_原创 2022-05-27 23:31:24 · 471 阅读 · 2 评论 -
linux中crontab执行shell脚本或者python脚本需要使用activate切换环境
在执行定时任务中时, 发现一个问题, 在我的shell脚本中, 执行python脚本, 发现总是报错, 最后发现时因为 执行环境没有切换正确导致的.以下方式解决这种问题:假如shell脚本:run.sh中的内容如下:#!/usr/bin/env bashsh d1.sh > d1.log 2>&1 && \sh d2.sh > d2.log 2>&1 && \python e1.py > e1.log 2&g..原创 2020-11-20 18:17:40 · 1406 阅读 · 5 评论 -
请使用mysql连接池
在初次使用python的pymysql工具包连接mysql数据库的时候, 总是发生数据库连接失败的情况发生, 经过多方确认, 发现这种情况不是自己的连接方式错了, 而是mysql数据库服务器因为网络出现闪断, 导致在查询的时候发生连接出错的情况.这里介绍连接方式, 能够减少这种因为网络问题导致连接出错情况:使用mysql连接池:需要工具: pymysql、DBUtils工具包(有多种连接方式, 这里介绍PooledDB)import pymysqlfrom DBUtils.Po...原创 2020-09-18 17:10:54 · 207 阅读 · 0 评论 -
ubuntu系统python3.7环境安装CRF++0.58
1. 准备好CRF++0.58,并且解压文件;同时安装anaconda(个人建议)2. 解压完成之后,cd到文件夹下面,开始执行命令(个人建议sudo命令下执行)第一步执行:sudo ./configure第二步执行:sudo make第三不执行:sudo make install第四步执行:再次cd到python文件夹下面第五步执行:sudo pythonsetup.p...原创 2020-01-05 15:29:36 · 439 阅读 · 0 评论 -
ubuntu系统python3.7环境安装pyltp
1. 准备好pyltp源码安装https://github.com/HIT-SCIR/pyltp,并且解压文件;同时安装anaconda(个人建议)2. 解压完成之后,cd到文件夹下面,开始执行命令(个人建议sudo命令下执行)第一步执行:有时候ubuntu会报错缺少gcc编译,最好先安装sudo apt install python3-pip然后执行:python3setup....原创 2020-01-03 01:29:43 · 927 阅读 · 2 评论 -
开启CPU虚拟化功能
联想、宏碁等品牌的笔记本和台式机默认没有开启虚拟化功能,所以使用Vmware Workstation就不能安装64位的Linux,由于实验需要64位的Linux环境,所以我们要手动开启电脑的虚拟化功能,步骤如下:1. 重启电脑,按【F1】进入bios(其他品牌的电脑可能是F2或F8、F11等),界面如下:2. 按回车继续,按左右间选择【高级】,再按上下键选择【CPU菜单】,如下图:...原创 2019-12-15 23:05:49 · 8561 阅读 · 0 评论 -
hive命令读取json对象数据(下篇)
针对大数据量的朋友更希望可以更快的方法读取字段。1.创建hive表CREATE external TABLE 表名(data string comment 'json数据')ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t' LINES TERMINATED BY '\n';2.导入数据格式{"key1": "value1", "ke...原创 2019-12-12 20:34:45 · 354 阅读 · 0 评论 -
python将相类不同key的json对象转化为pandas的dataframe(上篇)
1.python添加package包 import json import pandas as pd2. json文件中保存的格式 {"key1": "value1", "key2": "value2", "key3": "value3"} {"key1": "value1", "key2": "value2", "key4": "value4"}3....原创 2019-12-11 17:43:10 · 384 阅读 · 0 评论 -
Fasttext小结
Fasttext经过升级之后发生一些变化, 具体的情况如下:1.数据格式变化:1.1 标签内容: __label__+标签; 标签位置: 旧版放在样本的最后, 新版放在样本的前后均可;1.2 样本内容:汉语词与词之前使用空格分开; 英文单词与单词之前空格分开;1.3 旧版: 样本和标签之间也用tab分开. 新版: 样本和标签之间用空格分开.2.训练方法变化:旧版: c...原创 2019-11-05 18:03:21 · 248 阅读 · 0 评论
分享