- 博客(7)
- 收藏
- 关注
原创 【使用R语言两行语句将搜狗词库转为csv格式】
使用R语言两行搞定转搜狗词库为CSV格式,txt也可以据此继续转换scel是搜狗词库特有格式,从官网词库下载示例词库:医学部门名称.scelRwordseg包是NLP常用的R包#install.packages("Rwordseg")先下载Rwordseg,Rstudio右界面可install ,最好dependencies#getwd()获取工作路径#setwd("E:/test”)设定工作路径,把词库提前放在这个路径library(Rwordseg)#加载包#importSogouScel
2022-05-06 14:15:09
396
原创 Python向已有Excel工作表sheet写入数据框dataframe
使用Python向已有Excel工作表sheet写入数据框dataframe数据项目场景:通常使用SQL、Python处理完数据后会将需要导出的数据输出成CSV格式,然后必要时使用Excel模板进行格式上的调整(供业务人员查看),或者输入到Excel模板进一步计算,该步骤一般都是人工操作,对Python最后的输出操作优化可以提高一点工作效率。具体示例原有工作簿有两个工作表sheet1,sheet2,sheet1带有格式,需要从Python导出数据往里面写入,sheet2是对sheet1其中两列进行计
2021-02-23 16:40:08
13803
12
原创 挖掘流程回顾&建模实战经验分享
CRISP-DM(CRoss-Industry Standard Process for Data Mining)即为”跨行业数据挖掘过程标准”一、业务理解其任务包括:确定商业目标、评析环境、确定数据挖掘目标、制定项目计划。实际工作:与需求方进行业务沟通,调研,理解并定义问题,撰写会议纪要与脑图,初步确定模型算法需要思考的问题/未来的坑能不能做?做什么(定义问题划定界限)?现有数...
2020-01-08 16:47:06
232
原创 使用SQL对变量进行分箱统计计算WOE与IV值
常用的评分卡模型中需要先对变量进行离散化处理,在大规模数据集中,可以使用数据库本身自带的分位数或者排序函数对变量进行分箱处理后,然后直接计算WOE、IV值。一、SQL分箱操作1、建立箱段表----model为建模数据表,存有用户userid、特征数据var,样本标签flag----quantile为teradata数据库自带分位数函数,trim为去除字符串空格函数,|| 为字符串拼接函数。...
2019-12-31 09:54:14
6649
原创 R语言中文文本处理建立DocumentTermMatrix后乱码问题
最近参加一个中文文本实体识别的比赛,于是重拾R语言文本处理的过程,一年前使用过的代码,突然发现现在重新运行一遍会有这个问题,上网搜索了一遍还是没解决,后来想想归根到底还是编码问题,可能19年对中文编码比较严格一点?过程如下:#0.加载各种包library(rJava);library(Rwordseg);library(NLP);library(tm);library(tmcn);libr...
2019-12-26 15:29:51
1252
原创 数据可视化—百度Echarts基础
前言16年的时候还是个在校学生,基于对数据可视化的兴趣,参加了天池的气象可视化大赛,磕磕碰碰没获奖,与其他合作伙伴最后也不欢而散,最后还是咬咬牙通宵一两个星期终于实现了也交了,这个比赛最后留给我的实质性的可能是简历上面的一行字和这篇文章,但其实还是给我带来了很多精神上的鼓励,相信自己能做到。三年前写的入门基础,Echarts都发展很迅速了,先搬上来,以后有时间再慢慢修改,可能有些链接已失效。...
2019-12-24 15:05:47
1283
1
原创 Teradata日期时间格式转换问题
Teradata日期时间格式转换问题 Teradata日期和时间型数据入库及处理的总结: 鉴于日期型数据DATE通常是用YYYY-MM-DD的格式进行存储查询,而时间型数注意到数据库是有TIME这个类型数据的,格式是HH:MM:SS,因此可以向着这两个格式进行整理。
2017-03-03 10:41:15
16961
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人