
巫王勇者的升阶之路
南楚巫妖
且试新茶
展开
-
日常碎碎念 kaggle中NLP比赛的小经验
搞Kaggle比赛也有几个月了,虽然前前后后拖拖但是也是复现过不少比赛的。感觉思路可以总结一下。1.数据读取。一般数据格式都是以CSV格式的,但是也不排除TXT,JSON格式。所以熟悉pandas和numpy库就极为重要,最后得到预测结果也需要pandas库。2.数据处理。(1)使用pandas库等等对数据进行合理的预处理,增删改查属性,对于文本特征可以用sklearn.featuretion.text去创造。(2)同时使用sklearn库的preprocessing包进行处理3.建模原创 2020-05-20 16:06:01 · 467 阅读 · 0 评论 -
混合编程的经验
1.一定要加入os,sys第三方库,否则肯定会报错2.报错绝大多数问题是第三方包没法子导入。这里一般都是pyinstaller打包的第三方库里面的相关函数需要的文件,比如jieba分词需要IDF、DICT等等文件。snownlp需要stopword等等文件。也有pyinstaller自身的问题,建议卸载,使用一下pyinstaller 3.6.0版本。3.在进行编程前,可以先设定初...原创 2020-03-04 17:21:05 · 329 阅读 · 0 评论 -
混合编程NLP桌面项目
我自己写了一个基于NLP的混合编程项目。以C#为界面,python为脚本。本来打算加上关键词提取的,但因为pyintsaller对jieba的anaylse包不友好,所以就不能装了。啊好痛苦。下面是源码和功能。这里是github源码:功能一共分四个:(1)中文分词:输入文本:中文分词是文本处理的第一步。记得选择分词模式然后得到分词结果。(2...原创 2020-02-29 21:54:07 · 408 阅读 · 0 评论 -
替换python默认安装源
默认pip安装源下载国外文件实在是贼慢,我想下载个kaggle数据集都特别困难。所以我写了这个程序。选择对应的cell文件运行,就可以将pip默认源修改成阿里云/清华/中科大等国内镜像数据源。https://github.com/yingdajun/-pip-例如豆瓣的国内镜像是:import osini = """[global]index-url = https://...原创 2020-02-25 19:24:08 · 997 阅读 · 0 评论 -
自己写的一键生成小楼房的插件。
这是可以通过设置楼板、窗、门类型,然后识别闭合模型线,自动生成小别墅的插件。Github源码如下:https://github.com/yingdajun/JuMangDemo下图是功能:...原创 2020-02-24 19:02:38 · 760 阅读 · 0 评论 -
kaggle数字识别比赛
这是入门的三个比赛的最后一次比赛,站在巨人的肩膀上,感觉自己的能力在提升。。。这是自己复现的源码https://github.com/yingdajun/digit_recongition原创 2020-02-07 17:45:58 · 398 阅读 · 1 评论 -
kaggle房价预测比赛
这是第二次练习的比赛,通过看前辈的博客去复现的房价预测。下方是源码。。。https://github.com/yingdajun/github-战斗力提高+100,自信值+20原创 2020-02-07 09:18:31 · 426 阅读 · 0 评论 -
第一次打kaggle比赛
我打的第一次kaggle比赛,泰坦尼克存活率预测。虽然是用别人的代码去运转一波,但超越源自于模仿,我也算给自己开了一个好头。哈哈哈哈哈哈哈哈哈哈。这里是老夫的github地址:https://github.com/yingdajun/-kaggle-...原创 2020-02-06 21:07:00 · 663 阅读 · 0 评论