- 博客(11)
- 收藏
- 关注
原创 不再依赖hadoop/spark等工具就可以快速解决大规模中文分词统计频数问题
本文主要讲的是,我们如何在没有hadoop或者spark这些大数据统计工具的情况,如何对大规模的文章快速的获取分词并且统计词频的方法,尤其是百万级其以上的数据量效果明显。【特别说明】我是经过实测的,可能和自己的机器有关,所以耗时上可能有些差异。但是效果肯定是明显的。好的方法就是要分享给大家。1. 本文涉及到的工具、数据、命令工具:jieba_fast [1] 使用cpython重写了jieba分词库中计算DAG和HMM中的vitrebi函数,速度得到大幅提升。快速利用清华镜像安装jieba_
2022-05-27 23:31:24
402
2
原创 linux中crontab执行shell脚本或者python脚本需要使用activate切换环境
在执行定时任务中时, 发现一个问题, 在我的shell脚本中, 执行python脚本, 发现总是报错, 最后发现时因为 执行环境没有切换正确导致的.以下方式解决这种问题:假如shell脚本:run.sh中的内容如下:#!/usr/bin/env bashsh d1.sh > d1.log 2>&1 && \sh d2.sh > d2.log 2>&1 && \python e1.py > e1.log 2&g..
2020-11-20 18:17:40
1317
5
原创 请使用mysql连接池
在初次使用python的pymysql工具包连接mysql数据库的时候, 总是发生数据库连接失败的情况发生, 经过多方确认, 发现这种情况不是自己的连接方式错了, 而是mysql数据库服务器因为网络出现闪断, 导致在查询的时候发生连接出错的情况.这里介绍连接方式, 能够减少这种因为网络问题导致连接出错情况:使用mysql连接池:需要工具: pymysql、DBUtils工具包(有多种连接方式, 这里介绍PooledDB)import pymysqlfrom DBUtils.Po...
2020-09-18 17:10:54
172
原创 pandas巧用apply()和lambda方法
假设存在DataFrame存在两列数据col1和col2:df = pd.DataFrame()def function1(row): """ 公共函数 """ print(row.col1) print(row.col2) return row.col1+row.col21. 直接对series使用apply()方法def main1():...
2020-05-07 23:37:04
2782
原创 ubuntu系统python3.7环境安装CRF++0.58
1. 准备好CRF++0.58,并且解压文件;同时安装anaconda(个人建议)2. 解压完成之后,cd到文件夹下面,开始执行命令(个人建议sudo命令下执行)第一步执行:sudo ./configure第二步执行:sudo make第三不执行:sudo make install第四步执行:再次cd到python文件夹下面第五步执行:sudo pythonsetup.p...
2020-01-05 15:29:36
400
原创 ubuntu系统python3.7环境安装pyltp
1. 准备好pyltp源码安装https://github.com/HIT-SCIR/pyltp,并且解压文件;同时安装anaconda(个人建议)2. 解压完成之后,cd到文件夹下面,开始执行命令(个人建议sudo命令下执行)第一步执行:有时候ubuntu会报错缺少gcc编译,最好先安装sudo apt install python3-pip然后执行:python3setup....
2020-01-03 01:29:43
877
2
原创 开启CPU虚拟化功能
联想、宏碁等品牌的笔记本和台式机默认没有开启虚拟化功能,所以使用Vmware Workstation就不能安装64位的Linux,由于实验需要64位的Linux环境,所以我们要手动开启电脑的虚拟化功能,步骤如下:1. 重启电脑,按【F1】进入bios(其他品牌的电脑可能是F2或F8、F11等),界面如下:2. 按回车继续,按左右间选择【高级】,再按上下键选择【CPU菜单】,如下图:...
2019-12-15 23:05:49
8098
原创 hive命令读取json对象数据(下篇)
针对大数据量的朋友更希望可以更快的方法读取字段。1.创建hive表CREATE external TABLE 表名(data string comment 'json数据')ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t' LINES TERMINATED BY '\n';2.导入数据格式{"key1": "value1", "ke...
2019-12-12 20:34:45
317
原创 python将相类不同key的json对象转化为pandas的dataframe(上篇)
1.python添加package包 import json import pandas as pd2. json文件中保存的格式 {"key1": "value1", "key2": "value2", "key3": "value3"} {"key1": "value1", "key2": "value2", "key4": "value4"}3....
2019-12-11 17:43:10
347
原创 iphonex苹果手机Exchange邮箱设置同步的邮件天数
苹果手机Exchange邮件设置“同步的邮件天数”步骤:1. 找到手机“设置”;2. 找到“账户与密码”;3. 找到“Exchage”;4. 找到“要同步的邮件天数”;5. 选择要保留的天数....
2019-12-01 00:06:46
8696
原创 Fasttext小结
Fasttext经过升级之后发生一些变化, 具体的情况如下:1.数据格式变化:1.1 标签内容: __label__+标签; 标签位置: 旧版放在样本的最后, 新版放在样本的前后均可;1.2 样本内容:汉语词与词之前使用空格分开; 英文单词与单词之前空格分开;1.3 旧版: 样本和标签之间也用tab分开. 新版: 样本和标签之间用空格分开.2.训练方法变化:旧版: c...
2019-11-05 18:03:21
212
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人