
数据处理
文章平均质量分 61
花非花雾非雾子非鱼
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
【使用R语言两行语句将搜狗词库转为csv格式】
使用R语言两行搞定转搜狗词库为CSV格式,txt也可以据此继续转换scel是搜狗词库特有格式,从官网词库下载示例词库:医学部门名称.scelRwordseg包是NLP常用的R包#install.packages("Rwordseg")先下载Rwordseg,Rstudio右界面可install ,最好dependencies#getwd()获取工作路径#setwd("E:/test”)设定工作路径,把词库提前放在这个路径library(Rwordseg)#加载包#importSogouScel原创 2022-05-06 14:15:09 · 421 阅读 · 0 评论 -
Python向已有Excel工作表sheet写入数据框dataframe
使用Python向已有Excel工作表sheet写入数据框dataframe数据项目场景:通常使用SQL、Python处理完数据后会将需要导出的数据输出成CSV格式,然后必要时使用Excel模板进行格式上的调整(供业务人员查看),或者输入到Excel模板进一步计算,该步骤一般都是人工操作,对Python最后的输出操作优化可以提高一点工作效率。具体示例原有工作簿有两个工作表sheet1,sheet2,sheet1带有格式,需要从Python导出数据往里面写入,sheet2是对sheet1其中两列进行计原创 2021-02-23 16:40:08 · 14195 阅读 · 12 评论 -
使用SQL对变量进行分箱统计计算WOE与IV值
常用的评分卡模型中需要先对变量进行离散化处理,在大规模数据集中,可以使用数据库本身自带的分位数或者排序函数对变量进行分箱处理后,然后直接计算WOE、IV值。一、SQL分箱操作1、建立箱段表----model为建模数据表,存有用户userid、特征数据var,样本标签flag----quantile为teradata数据库自带分位数函数,trim为去除字符串空格函数,|| 为字符串拼接函数。...原创 2019-12-31 09:54:14 · 6885 阅读 · 0 评论 -
R语言中文文本处理建立DocumentTermMatrix后乱码问题
最近参加一个中文文本实体识别的比赛,于是重拾R语言文本处理的过程,一年前使用过的代码,突然发现现在重新运行一遍会有这个问题,上网搜索了一遍还是没解决,后来想想归根到底还是编码问题,可能19年对中文编码比较严格一点?过程如下:#0.加载各种包library(rJava);library(Rwordseg);library(NLP);library(tm);library(tmcn);libr...原创 2019-12-26 15:29:51 · 1272 阅读 · 0 评论 -
Teradata日期时间格式转换问题
Teradata日期时间格式转换问题 Teradata日期和时间型数据入库及处理的总结: 鉴于日期型数据DATE通常是用YYYY-MM-DD的格式进行存储查询,而时间型数注意到数据库是有TIME这个类型数据的,格式是HH:MM:SS,因此可以向着这两个格式进行整理。原创 2017-03-03 10:41:15 · 17022 阅读 · 0 评论