
项目小结
文章平均质量分 94
囚生CY
不如养生
展开
-
【项目小结】爬虫学习进阶:获取百度指数历史数据
写个爬虫玩玩原创 2020-07-31 15:32:57 · 21038 阅读 · 15 评论 -
【项目小结】GEC模型训练&评估TRICK——自定义损失函数&预校正模型(autocorrect包)
序言关于GEC问题的概况可以参考笔者之前的几篇博客:【项目小结】英语语法错误检测(GEC)开题论文阅读记录【论文阅读】D19-1435——GEC问题解决的一种方法:PIE架构【论文阅读】D18-1274——GEC模型优化的一种方法:使用质量评估模型【论文阅读】W19-4423——预训练与迁移学习在GEC的应用【项目小结】GEC模型中的难点:分词(Tokenizer)与回译(...原创 2020-04-28 17:49:46 · 12168 阅读 · 2 评论 -
【项目小结】GEC模型中的难点:分词(Tokenizer)与回译(Backtranslation)
前排提示本文涉及的数据集及外部文件在以下链接共享。包括 Lang-8 语料库,词形转换表(涉及79024组变换)与一些有用的pickle文件。链接:https://pan.baidu.com/s/1fW266ZSLoZeEaRCl2yVQCg 提取码:yfhm 序言GEC模型的概念及解决方案可以参考我之前写的一些论文提纲,但无论采用什么样的解决思路,都绕不开很多瓶颈性的问题。...原创 2020-03-19 01:30:28 · 12293 阅读 · 2 评论 -
【项目小结】英语语法错误检测(GEC)开题论文阅读记录
毕业论文准备尝试一下GEC,虽然没有过这方面的经验,但做老生常谈的课题实在是亏待宝贵的最后一年。其实最主要的原因是莫名奇妙被一个从来没上过课的教授加微信翻了牌子,我看了一下他给出的题目:英语句法分析、英语用词错误检测,文本摘要、文本阅读理解,还有一个乱入的野生动物识别,我自己觉得很有兴趣也非常具有挑战性,他让我自己选一个,我觉得后面三个思路相对单纯一些,可能就是seq2seq的模型和图片识别的问题...原创 2019-10-29 19:15:45 · 13944 阅读 · 2 评论 -
【项目记录】雪球网股票组合数据爬虫(包括雪球模拟登录代码)
室友上半年跟了一个做机器学习方向的导师做股票投资组合的项目,暑假来找我帮忙弄点股票组合的数据来测试算法。目前国内股票资讯网站大约只有雪球能够比较方便地获取大规模的股票组合数据,七月疲于双专生活不能自理,八月断断续续地弄了一阵子,碰了一鼻子灰总算有些摸透了雪球网的套路。这里分享一下我在爬取雪球网数据时遇到的问题,一方面是对自己项目的一个小结,另一方面给其他需要爬取雪球网数据的小伙伴们提供一些参考,也...原创 2018-09-20 15:44:35 · 29621 阅读 · 11 评论 -
【项目小结】大规模数据(含缺失值)在机器学习中的处理及训练小结(基于python)
最近跟另一个室友在忙某网贷融资平台发布的客户分类、信用评级、还款预测的实时排行竞赛。平台提供附带标签训练数据集与不带标签的验证集,参赛选手提交验证集的预测结果,平台返回模型评价指标值。其实就我们目前的烂水平来说做机器学习也没有我们太多事情,也就是安装好别人写好的函数库,导入数据,调好参数,剩下就是CPU跟GPU的事情了。然而很多问题都是尝试之后才会出现的,这半个月的瞎折腾也算是积累了一些经验,...原创 2018-11-02 16:41:30 · 11445 阅读 · 1 评论