
python
文章平均质量分 80
囚生CY
不如养生
展开
-
【趣题分享】赤壁之战每日演兵(原诸葛亮列传兵法题)求解算法
小摸两下(补充了思路解析与可视化)原创 2024-12-05 23:28:38 · 583 阅读 · 0 评论 -
【坑】金山文档批量下载技巧记录(Python+JS)
有思必有得原创 2022-06-27 19:53:19 · 16847 阅读 · 6 评论 -
【日常】Transformer要点记录及实现demo(PyTorch与Tensorflow)
序言目录序言原创 2021-01-16 00:37:48 · 12646 阅读 · 3 评论 -
【项目小结】爬虫学习进阶:获取百度指数历史数据
写个爬虫玩玩原创 2020-07-31 15:32:57 · 21038 阅读 · 15 评论 -
【日常】python脚本系列:拳皇13一键出招以及连段实现
20200726更新原创 2020-07-14 01:12:50 · 16852 阅读 · 10 评论 -
【日常】CCB网上银行“云宠物”喂食自动化脚本
目录序言问题缘起问题分析与解决ccb_hyperparameters.pyccb_utils.pyccb_kdxfocr.py结语(附链接)序言鸽了挺久,差不多有三周没有写博客了。本来计划七月开始学个立身保命的Linux,结果天天在Azure上跟spark斗智斗勇,零零散散地遇到很多坑也都设法解决了,没想特别为了spark再水几篇博客,就都简单记录在每日的POST博客里凑数了。在这么说起来MARS也挺抠门的,给自己的员工一人分配了一个96G + 12核的spark集.原创 2020-07-11 01:04:02 · 13853 阅读 · 25 评论 -
【日常】从批量合并 PDF 到 PyPDF2 的使用
序言临近卷铺走人因此有不少手续要办,提交文件遇到需要合并PDF文件的需求。恰好个人电脑还处于文件强制加密的状态,编辑文档保存会自动加密,出于某些原因不方便恢复到正常状态的备份,因此给合并PDF带来很多麻烦。这时候会考虑是否有捷径可以走,这时候笔者发现Python是有可以进行PDF文件编辑操作的开源包PyPDF2,简单pip安装即可????pip install pypdf2下面提供了一个非常便捷的用于批量合并PDF文件的函数,只需要传入需要合并的PDF文件所在目录,以及合并后的文件导出路径原创 2020-06-17 00:15:45 · 11117 阅读 · 1 评论 -
【Share & Backup】FreeCrawl
分享个一份临时写的代码,感兴趣的朋友可以自取,出于一些原因不多作解释,权当自娱。近期限于各种原因的制约暂时搁置,以后有条件再继续完善这个项目。代码文件结构如下所示????../ > FC_crawl.py > FC_hparams.py > FC_utils.py > ../FC_music/ > __init__.py > music_analysis.py > music_netease.py > music_qq.py原创 2020-06-03 14:58:43 · 11226 阅读 · 1 评论 -
【日常】PySpark包DataFrame相关处理小结
经过几日的不懈努力原创 2020-05-21 19:20:51 · 13304 阅读 · 1 评论 -
【项目总结】NewStart——PySpark学习笔记
大功告成原创 2020-05-13 23:59:00 · 11188 阅读 · 1 评论 -
【项目小结】训练BERT模型加入到深度学习网络层中——keras_bert库使用填坑指南
1 前言BERT模型的使用可以分为两种形式:第一种使用方法直接将语句序列输入BERT模型获取特征表示,BERT模型一共提供十二层不同的特征向量输出,随层数的递进,特征表示从专于词义表示到专于语义表示而有所区别,此时BERT模型相当于静态的word2vector模型,仅用于特征表示,关于如何获取BERT预训练模型及如何使用第一种方法,可以参考我的博客https://blog.youkuaiyun.com/C...原创 2020-04-21 11:32:55 · 16169 阅读 · 7 评论 -
【项目小结】GEC模型中的难点:分词(Tokenizer)与回译(Backtranslation)
前排提示本文涉及的数据集及外部文件在以下链接共享。包括 Lang-8 语料库,词形转换表(涉及79024组变换)与一些有用的pickle文件。链接:https://pan.baidu.com/s/1fW266ZSLoZeEaRCl2yVQCg 提取码:yfhm 序言GEC模型的概念及解决方案可以参考我之前写的一些论文提纲,但无论采用什么样的解决思路,都绕不开很多瓶颈性的问题。...原创 2020-03-19 01:30:28 · 12293 阅读 · 2 评论 -
【项目小结】近期pandas使用细节及技巧盘点
很少写知识点汇总的博客。主要近期实习基本上都在做这块事情,在与别人的交流中还是发现自身有相当不足,基础模块中还是有很多应当受到重视的,缺少系统的学习铺垫,很多方法就只能靠经验积累和文字记录了。1 pandas读取数据表时对类空值字段的预处理这种情况往往很常见,pandas在读取外部数据表文件时会对,这源于 pandas.read_table 函数的参数 na_filter , 该参数默认值...原创 2020-03-16 01:31:47 · 10987 阅读 · 1 评论 -
【日常】NaN
文章原标题:【日常】论如何在91flac上优雅地白嫖原文章没有过审,我觉得网站存在漏洞,就算我找不到,也有别人能找到,发现问题最终也是为了解决问题,如果只是一味的掩盖问题,不过是自欺欺人,千里之堤,溃于蚁穴罢了。既然如此,我就把原文章图片和代码放在这里,每张图片和代码都有标题,文字部分挂在GitHub上,大家想看的自取好了原文章文字链接或者可以移步https://blog.csdn...原创 2020-01-18 11:50:29 · 11830 阅读 · 1 评论 -
【问题解决】BERT模型使用及一个问题:NotFoundError: Key bert_1/embeddings/LayerNorm/beta not found in checkpoint
关于BERT模型的调用,这几天基本上是摸得比较清楚了。模型源码在https://github.com/google-research/bert,截至本文发布,该项目的Readme.md文件中提供了如下图所示的9个模型的下载链接。前两个是区分大小写的英文模型,第三个是中文模型,4589没有用过具体不太清楚,六七是不区分大小写的英文模型(根据Readme.md中的描述,如果对大小写不是很敏感的话用...原创 2020-01-15 11:44:39 · 17859 阅读 · 3 评论 -
【项目完结】笑靥如春三冬暖,嫣语似晴沉霾散。西子湖畔梦犹然,情起缘尽余心安。
极其罕见的与人谈崩,有点难受,不知道以后怎么再去面对对方。连着肝了两晚上,今晚基本赶完,写好说明文档,也不知再说些什么,如果有办法能抹去以前的一切就好了。这个东西算我欠你的,事已至此,我亦无力纠缠,这一个多月来就像一场梦。目之所及,心之所向,情之所往,皆为幻象。我也该醒醒认清自己了。RAEDME.md# NewsCrawl# 1 简介1. 这是一个基于新闻网站的新闻...原创 2019-12-28 23:58:49 · 12131 阅读 · 1 评论 -
【日常】python站长素材网免费模板下载(以PPT模板为例)
近期疲于论文和别人给我挖的坑,可能很长一段时间不会更新博客了。之前在寻找模板时发现了挺好的网站http://sc.chinaz.com/,上面有PPT,CSS,Bootstrap等许多种类的模板,并且有很多是可以免费获取。虽然免费的模板质量并不是很高,但是架不住数量多,仔细挑挑还是可以找到合适的模板的。一个个下载自然是很麻烦的了,当然是选择搞个小爬虫,挂一个晚上就完事咯。以PPT模板下...原创 2019-12-13 19:32:26 · 12616 阅读 · 1 评论 -
【项目小结】某B视频网站的爬虫实践
最近忽来兴致,准备做评论数据的NLP项目。选定了某B视频网站的评论数据,顺带准备把某B视频网站的数据爬虫也一起做了。关于登录验证的问题可以看我的博客https://blog.youkuaiyun.com/CY19980216/article/details/89074771,不过目前登录方式稍微有点不同,因为验证图片不太方便获取了,我尝试了后觉得只能通过截图的方式才能拿到,如此鲁棒性较差。而且由于也无法获取到...原创 2019-07-15 09:16:48 · 14425 阅读 · 1 评论 -
【项目总结】ACM Recsys2019
深度学习课程项目完结,挑了个吃力不讨好的ACM Recsys2019,需要做一个基于序列分析的推荐系统。数据集给了一个线上操作序列的数据,需要预测最后一次操作的对象是哪个item,具体情况可以访问比赛主页ACM RecSys challenge 2019 | Home 。评价指标是MRR,要求对最后一次操作的25个items进行排序,榜单前20已经做到0.66以上,几乎是精确的预测到了下一次的it...原创 2019-06-25 14:36:42 · 12796 阅读 · 1 评论 -
【项目记录】雪球网股票组合数据爬虫(包括雪球模拟登录代码)
室友上半年跟了一个做机器学习方向的导师做股票投资组合的项目,暑假来找我帮忙弄点股票组合的数据来测试算法。目前国内股票资讯网站大约只有雪球能够比较方便地获取大规模的股票组合数据,七月疲于双专生活不能自理,八月断断续续地弄了一阵子,碰了一鼻子灰总算有些摸透了雪球网的套路。这里分享一下我在爬取雪球网数据时遇到的问题,一方面是对自己项目的一个小结,另一方面给其他需要爬取雪球网数据的小伙伴们提供一些参考,也...原创 2018-09-20 15:44:35 · 29621 阅读 · 11 评论 -
【项目总结】2018年全国大学生数学建模大赛B题简要分析(附代码)
笔者的置顶声明文链接:https://blog.youkuaiyun.com/CY19980216/article/details/90452962今天早上跟学姐室友去复旦把论文答辩做掉了,虽然整个项目基本上是我承担了主要的思路与代码部分,但是今天答辩我跟室友竟然连一句有用的话都没说出来,全场都靠学姐开场流畅地引入,临场随机应变,从而得以与答辩教授欢聚喜散。主要原因是教授竟然准确地问到了我代码里一个细节却...原创 2018-10-09 15:57:27 · 38753 阅读 · 40 评论 -
【安装教程】python3.6安装Tensorflow-GPU路上的那些坑(WIN10)
最近A股动荡难料,笔者在最近的两周里证券账户里的资金缩水了10%,成功地完成了一个合格中国韭菜的本分工作——我买就跌停,我卖就疯涨。三个月的炒股经历成功交了一大笔学费,昨天周五对股市彻底丧失信心,灰溜溜地清了波仓,准备潜心研究一手股票数据再重振旗鼓卷土归来。恰逢文本挖掘的小崔老师向我们推荐了python功能包Tensorflow,这个模块似乎在做自然语言处理方面有很大的优势。其实前几个月还在暑...原创 2018-10-20 15:06:41 · 16000 阅读 · 3 评论 -
【项目小结】大规模数据(含缺失值)在机器学习中的处理及训练小结(基于python)
最近跟另一个室友在忙某网贷融资平台发布的客户分类、信用评级、还款预测的实时排行竞赛。平台提供附带标签训练数据集与不带标签的验证集,参赛选手提交验证集的预测结果,平台返回模型评价指标值。其实就我们目前的烂水平来说做机器学习也没有我们太多事情,也就是安装好别人写好的函数库,导入数据,调好参数,剩下就是CPU跟GPU的事情了。然而很多问题都是尝试之后才会出现的,这半个月的瞎折腾也算是积累了一些经验,...原创 2018-11-02 16:41:30 · 11445 阅读 · 1 评论 -
【日常】利用python保持WLAN持续连接(实时监测,即断即连)
被校园网恶心了好一阵子了,每天晚上睡觉前把把爬虫运行放那儿,早上起床就发现网已经断了,爬虫自然也报销。维持网络状态保持稳定的连接状态对于大多数普通人都是有极大意义的,于是我打算用知识创造一些柴火,权当日常消遣。程序简短不多做解释,思想即每隔alternate时间访问一次百度,如果成功访问则表示网络连接正常,否则大概率是网络断了,这时候再每隔timeout时间去重新联网,直到能够连接成功为止↓↓...原创 2018-11-11 10:56:10 · 12742 阅读 · 1 评论 -
【日常】利用代理IP伪装进行多进程爬虫
最近有些饱暖思淫欲了,对之前爬虫的速度很不满意了。主要是在爬虫速度上的需求问题,如果追求速度就很容易被网站封锁IP;如果追求稳定地爬取只能通过两次访问之间间隔一个随机时间来避免网站对爬虫的封锁,然而这样爬虫就很没有效率,拿爬取雪球网组合调仓记录https://blog.youkuaiyun.com/CY19980216/article/details/82770410为例,每个组合的调仓记录最多可以有50页,...原创 2018-11-20 10:24:43 · 11747 阅读 · 1 评论 -
【自定义模块】从西刺免费代理获取IP列表
这类代码很多人都已经写过了。主要用于给另一篇博客参考。这里笔者整合出一个类,方便使用。import reimport randomimport requestsfrom bs4 import BeautifulSoupclass IP(): def __init__(self,headers="Mozilla/5.0 (Windows NT 10.0; Win64; x64;...原创 2018-12-07 18:00:56 · 13558 阅读 · 1 评论 -
【项目总结】雪球爬虫完结(附Snowball模块代码)
作为https://blog.youkuaiyun.com/CY19980216/article/details/82770410的一个完结。暂时先把代码搬上来,注释已经写的很详细了。顺带做一个备份。目前除了调仓记录的获取外其他都已经可以用多进程进行,由于采用了多进程,速度有明显提升。目前测试结果为1500000只组合数据爬取需要200分钟,获取10000只优质组合的净值数据需要不到300分钟。问...原创 2018-12-07 18:03:14 · 15361 阅读 · 10 评论 -
【日常】自然语言处理小结
最近疲于找实习,今天总算有着落了,找了家小私募学学投资策略。主要不想去那些打杂混水的咸鱼岗混个实习证明,这份确实是一个很有压力的工作,希望自己能够胜任并能学到点东西。整理一下最近的自然语言处理的东西,也算是给期末project写report打个草稿了。kaggle比赛链接https://www.kaggle.com/c/quora-insincere-questions-classific...原创 2018-12-22 22:10:02 · 11868 阅读 · 5 评论 -
【问题解决】关于爬虫被封的处理方法(同花顺数据获取问题)
最近试图从财经网站上积累数据,选中了同花顺财经的数据中心的数据。插一句话,个人认为同花顺可能是目前财经领域掌握着最先进的机器学习技巧与人工智能算法的网站了。我自己最近也在做金融领域的问答与对话系统,偶然发现了同花顺i问财https://www.iwencai.com/这个网站,这种智能化的金融问答以及其叙述性的策略回测系统全网恐怕只此一家,确实是让人感到很惊艳。言归正传,掌握了如此技术的同...原创 2019-01-27 18:38:47 · 25375 阅读 · 10 评论 -
【日常】某B视频网站模拟登录尝试
2019.04.07 更新清明把手头事情大致也办得差不多了,接下来就要开始忙课程上的项目了。本来打算今晚开始把tensorflow跟pytorch捡起来赶紧复习一下的了,可惜有时候人就是贱骨头,还是想要做一些自己“更感兴趣”的事情。选择了某B视频网站的登录尝试模拟登录。为什么会选择去对付某B视频网站,主要想试试看能不能解决掉滑动验证码这个一直想尝试的问题。考虑到现在登录验证的方式往往更新得...原创 2019-04-07 20:54:50 · 55834 阅读 · 2 评论 -
【项目总结】近期爬虫详解(MBA智库百科词条爬虫&同花顺财经数据爬虫)
确实鸽了好一阵子了。上学期初心血来潮想要写写博客,写完第一篇博客我才发现写一篇充实的博客是多么费时费力,但是我还是坚持每周一篇博客地写了两个多月,毕竟期初事情也不是很多。直到期中过后我才发现每周余出一篇博客的时间是多么奢侈——我能坚持每天写千字日记,也做不到每周出一篇有质量的博客。实然有些心灰意冷,也许以后工作了再也没有年轻时的热情了。世事难有始有终,世俗聒噪,初心难追。最近这几个月确实是项目...原创 2019-04-03 10:06:24 · 12068 阅读 · 5 评论 -
【日常】手写三层反向传播神经网络(损失函数交叉熵+正则项+反向求导)
课程的一次作业,虽然没什么用,但是手写一遍dense确实能加深对神经网络的理解,尤其是反向传播求导这一块。资源已经上传,不过最近优快云犯病不能改资源积分了。留个BDY链接了原创 2019-04-29 08:38:08 · 11913 阅读 · 1 评论 -
【日常】手写卷积神经网络(conv+relu+maxpooling+linear+relu+linear+softmax+交叉熵损失+正则)
第二次课程作业,手写CNN进行手写数字识别。据说还要手写一次RNN(这酸爽还有谁)。作业坑点在于Assignment给定的这个架构与默认参数效果非常差,结果怎么调都调不好,一开始一直是以为写错了,但是检查了很久都发现不了哪里写错了。后来用keras实现了同样的架构,发现确实效果差得惊人(跟瞎猜没有区别),然后随便改了改(加一个卷积层或者加一个dense层,甚至只要修改一下优化函数,SGD的效果...原创 2019-05-13 08:57:09 · 13655 阅读 · 3 评论 -
【日常】Google翻译接口编写
最近有批量翻译的需求,看了一下有python接口的翻译效果都不行,最终还是自己写了一个调用google翻译的类。因为现在google翻译反爬虫的手段很强势,普通requests很难突破,这里给出基于selenium的代码(Firefox)from requests import Sessionfrom bs4 import BeautifulSoupfrom selenium impor...原创 2019-05-31 11:38:28 · 11453 阅读 · 1 评论 -
【日常】写给妈妈的微信机器人(用于知网论文下载)
最近妈妈工作需求突然要写论文,我长这么大第一次听说就她还能写论文。可惜我不是学医的,这方面跨得太大基本上无能为力,最多给她润色一下。她那边下论文又不方便,我当天连夜赶了一份微信机器人出来,供她下载论文。实现逻辑非常简单,微信端用itchat,调用之前就编写好的类CNKI,稍加修改就可以满足妈妈在微信上与我交互,我这边可以自动向她展示知网搜索结果,翻页,查看简介,及下载论文再通过微信发送给她。...原创 2019-05-31 12:38:25 · 10830 阅读 · 1 评论 -
【问题解决】Selenium——NoSuchWindowException: Browsing context has been discarded
昨天上服务器检查了一下小程序后端运行是否良好,发现与selenium有关的模块的进程全挂了。惊慌失措之下重试了爬虫模块的代码,发现本机上正常运行的代码,在ubuntu上运行时出现报错:NoSuchWindowException: Browsing context has been discarded百度了很久也没有得到确切的解释,有说是Firefox浏览器版本与驱动不兼容之类的,但是之前...原创 2019-06-05 20:24:39 · 20349 阅读 · 2 评论 -
【补档】
最近刚刚进村写博客,精心创作却苦于无人阅览。于是耍了点小聪明准备写个小爬虫给自己的博客刷刷访问量。以下代码是对《【项目记录】雪球网股票组合数据爬虫(包括雪球模拟登录代码)》这篇博客(博客链接:https://blog.youkuaiyun.com/CY19980216/article/details/82770410)进行的不断访问以提高访问量,由于代码非常浅显易懂,我就不多加赘述,大家觉得有用就拿去用。...原创 2020-08-20 00:51:10 · 13342 阅读 · 13 评论