大数据
小白Lan
never ever forever say never...
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
炼丹记之solo四川诈骗电话识别复赛rank13分享
赛题地址:http://www.scdata.net.cn/kfds/urgent2/pages/index.html ,诈骗电话识别是算法对抗赛的赛题之一。attention:由于签了保密协议,本文不会提供代码涉及到的数据。参赛历程:初赛时,由于大佬开的baseline分数已经很高,于是本人只调了调baseline然后就弃赛了。然后初赛结束的时候竟然收到了进入复赛的短信,于是交保密协议,下载数据,算是复赛才开始正式参赛吧。本来给一个大佬的结果融合可以进入top4的,可惜没选中。本文参考的bl.原创 2020-08-27 10:26:33 · 2856 阅读 · 6 评论 -
ETL工具kettle与datax的对比测试案例之Oracle to Oracle
测试服务器硬件信息:[root@catdb ~]# cat /proc/cpuinfo| grep "physical id"| sort| uniq| wc -l 2 [root@catdb ~]# cat /proc...原创 2019-12-18 17:09:54 · 2301 阅读 · 3 评论 -
利用Python对Excel按列值筛选并拆分表格到多个文件
场景:集团中心下发本省数据时,并未按地市、业务拆分,现需要按地市、业务拆分并分发到地市。本文利用Python的pandas包实现了以上场景。原创 2019-11-04 09:52:05 · 6213 阅读 · 3 评论 -
win10+hadoop2.9.1+hive2.2.0测试环境部署
部署安装hadoop2.9.1后下载hive2.2.0解压到安装目录,本文为E:\post\hive\apache-hive-2.3.3-bin PS:经下载发现2.2.0以后没有win相关的cmd命令 PS:hadoop的配置相对简单,本文不再赘述环境变量 总共需要配置四处环境变量(系统变量,如果不配置此4处将无法运行hive,被这里坑了很久)HIVE_BIN...原创 2018-08-13 22:26:02 · 1812 阅读 · 2 评论
分享