
爬虫
文章平均质量分 88
囚生CY
不如养生
展开
-
【原创百篇纪念】2048蒙特卡洛法与强化学习测试+B站视频爬取与Cookie攻击测试
回归原创 2021-09-14 00:12:50 · 27524 阅读 · 1 评论 -
【日常】关于爬虫中iframe节点处理小结(以超星课件下载为例)
随便写点东西原创 2020-10-12 21:15:13 · 12763 阅读 · 3 评论 -
【日常】爬虫技巧进阶:textarea的value修改与提交问题(以智谱清言为例)
Everything's okay, and so are you, sxy原创 2023-11-17 23:22:07 · 1712 阅读 · 1 评论 -
【坑】金山文档批量下载技巧记录(Python+JS)
有思必有得原创 2022-06-27 19:53:19 · 16847 阅读 · 6 评论 -
【日常】爬虫进阶技巧:selenium加载扩展插件(extension)与配置用户数据(user-data)
才学满溢,有恃无恐原创 2021-10-17 16:10:53 · 27719 阅读 · 3 评论 -
【日常】《中国统计年鉴》与《中国金融年鉴》数据表爬虫(附1985-2020所有Excel资源)
想要打个招呼真难原创 2021-06-07 21:05:14 · 17017 阅读 · 25 评论 -
【项目小结】爬虫学习进阶:获取百度指数历史数据
写个爬虫玩玩原创 2020-07-31 15:32:57 · 21038 阅读 · 15 评论 -
【Share & Backup】FreeCrawl
分享个一份临时写的代码,感兴趣的朋友可以自取,出于一些原因不多作解释,权当自娱。近期限于各种原因的制约暂时搁置,以后有条件再继续完善这个项目。代码文件结构如下所示????../ > FC_crawl.py > FC_hparams.py > FC_utils.py > ../FC_music/ > __init__.py > music_analysis.py > music_netease.py > music_qq.py原创 2020-06-03 14:58:43 · 11226 阅读 · 1 评论 -
【项目完结】笑靥如春三冬暖,嫣语似晴沉霾散。西子湖畔梦犹然,情起缘尽余心安。
极其罕见的与人谈崩,有点难受,不知道以后怎么再去面对对方。连着肝了两晚上,今晚基本赶完,写好说明文档,也不知再说些什么,如果有办法能抹去以前的一切就好了。这个东西算我欠你的,事已至此,我亦无力纠缠,这一个多月来就像一场梦。目之所及,心之所向,情之所往,皆为幻象。我也该醒醒认清自己了。RAEDME.md# NewsCrawl# 1 简介1. 这是一个基于新闻网站的新闻...原创 2019-12-28 23:58:49 · 12131 阅读 · 1 评论 -
【日常】python站长素材网免费模板下载(以PPT模板为例)
近期疲于论文和别人给我挖的坑,可能很长一段时间不会更新博客了。之前在寻找模板时发现了挺好的网站http://sc.chinaz.com/,上面有PPT,CSS,Bootstrap等许多种类的模板,并且有很多是可以免费获取。虽然免费的模板质量并不是很高,但是架不住数量多,仔细挑挑还是可以找到合适的模板的。一个个下载自然是很麻烦的了,当然是选择搞个小爬虫,挂一个晚上就完事咯。以PPT模板下...原创 2019-12-13 19:32:26 · 12616 阅读 · 1 评论 -
【日常】Geetest滑动验证码(三代canvas版)处理小结(以B站登录验证为例)
问题描述这个问题确实让我困扰了太长时间,今天花了半天时间,并没有找到非常完满的解决方案,只是在解决问题的过程中学会了一些其他知识,我最后还是要通过人工来判断大致的移动距离,然后根据误差做微调。大致做个总结了,并且认为网站如果真心愿意反爬虫,完全可以处理到让爬虫无懈可击。今年四月份时B站的Geetest验证码大致情况可以通过https://blog.youkuaiyun.com/CY19980216/a...原创 2019-12-01 21:28:51 · 12683 阅读 · 1 评论 -
【日常&问题解决】如何处理部分带有十六进制(以UTF-8编码为例)的文本转化处理
日前出游余杭,闲暇偶得此文。幸遇习缘君,方知此生不枉,欲与君同。问题发现这个问题起源于我用于刷访问量的博客https://blog.youkuaiyun.com/CY19980216/article/details/82825833,当然这个刷访问量的小爬虫之前也因为优快云自身更新出过一些小问题,不过最近它出了一个很恶心的问题。如下图所示????可能截图并不是看得那么清楚,我简要说明一下问题吧,如...原创 2019-11-18 19:20:12 · 12301 阅读 · 1 评论 -
【日常】利用python保持WLAN持续连接(实时监测,即断即连)
被校园网恶心了好一阵子了,每天晚上睡觉前把把爬虫运行放那儿,早上起床就发现网已经断了,爬虫自然也报销。维持网络状态保持稳定的连接状态对于大多数普通人都是有极大意义的,于是我打算用知识创造一些柴火,权当日常消遣。程序简短不多做解释,思想即每隔alternate时间访问一次百度,如果成功访问则表示网络连接正常,否则大概率是网络断了,这时候再每隔timeout时间去重新联网,直到能够连接成功为止↓↓...原创 2018-11-11 10:56:10 · 12742 阅读 · 1 评论 -
【日常】利用代理IP伪装进行多进程爬虫
最近有些饱暖思淫欲了,对之前爬虫的速度很不满意了。主要是在爬虫速度上的需求问题,如果追求速度就很容易被网站封锁IP;如果追求稳定地爬取只能通过两次访问之间间隔一个随机时间来避免网站对爬虫的封锁,然而这样爬虫就很没有效率,拿爬取雪球网组合调仓记录https://blog.youkuaiyun.com/CY19980216/article/details/82770410为例,每个组合的调仓记录最多可以有50页,...原创 2018-11-20 10:24:43 · 11747 阅读 · 1 评论 -
【自定义模块】从西刺免费代理获取IP列表
这类代码很多人都已经写过了。主要用于给另一篇博客参考。这里笔者整合出一个类,方便使用。import reimport randomimport requestsfrom bs4 import BeautifulSoupclass IP(): def __init__(self,headers="Mozilla/5.0 (Windows NT 10.0; Win64; x64;...原创 2018-12-07 18:00:56 · 13558 阅读 · 1 评论 -
【问题解决】关于爬虫被封的处理方法(同花顺数据获取问题)
最近试图从财经网站上积累数据,选中了同花顺财经的数据中心的数据。插一句话,个人认为同花顺可能是目前财经领域掌握着最先进的机器学习技巧与人工智能算法的网站了。我自己最近也在做金融领域的问答与对话系统,偶然发现了同花顺i问财https://www.iwencai.com/这个网站,这种智能化的金融问答以及其叙述性的策略回测系统全网恐怕只此一家,确实是让人感到很惊艳。言归正传,掌握了如此技术的同...原创 2019-01-27 18:38:47 · 25375 阅读 · 10 评论 -
【日常】某B视频网站模拟登录尝试
2019.04.07 更新清明把手头事情大致也办得差不多了,接下来就要开始忙课程上的项目了。本来打算今晚开始把tensorflow跟pytorch捡起来赶紧复习一下的了,可惜有时候人就是贱骨头,还是想要做一些自己“更感兴趣”的事情。选择了某B视频网站的登录尝试模拟登录。为什么会选择去对付某B视频网站,主要想试试看能不能解决掉滑动验证码这个一直想尝试的问题。考虑到现在登录验证的方式往往更新得...原创 2019-04-07 20:54:50 · 55835 阅读 · 2 评论 -
【项目总结】近期爬虫详解(MBA智库百科词条爬虫&同花顺财经数据爬虫)
确实鸽了好一阵子了。上学期初心血来潮想要写写博客,写完第一篇博客我才发现写一篇充实的博客是多么费时费力,但是我还是坚持每周一篇博客地写了两个多月,毕竟期初事情也不是很多。直到期中过后我才发现每周余出一篇博客的时间是多么奢侈——我能坚持每天写千字日记,也做不到每周出一篇有质量的博客。实然有些心灰意冷,也许以后工作了再也没有年轻时的热情了。世事难有始有终,世俗聒噪,初心难追。最近这几个月确实是项目...原创 2019-04-03 10:06:24 · 12068 阅读 · 5 评论 -
【日常】Google翻译接口编写
最近有批量翻译的需求,看了一下有python接口的翻译效果都不行,最终还是自己写了一个调用google翻译的类。因为现在google翻译反爬虫的手段很强势,普通requests很难突破,这里给出基于selenium的代码(Firefox)from requests import Sessionfrom bs4 import BeautifulSoupfrom selenium impor...原创 2019-05-31 11:38:28 · 11453 阅读 · 1 评论 -
【日常】写给妈妈的微信机器人(用于知网论文下载)
最近妈妈工作需求突然要写论文,我长这么大第一次听说就她还能写论文。可惜我不是学医的,这方面跨得太大基本上无能为力,最多给她润色一下。她那边下论文又不方便,我当天连夜赶了一份微信机器人出来,供她下载论文。实现逻辑非常简单,微信端用itchat,调用之前就编写好的类CNKI,稍加修改就可以满足妈妈在微信上与我交互,我这边可以自动向她展示知网搜索结果,翻页,查看简介,及下载论文再通过微信发送给她。...原创 2019-05-31 12:38:25 · 10830 阅读 · 1 评论 -
【问题解决】Selenium——NoSuchWindowException: Browsing context has been discarded
昨天上服务器检查了一下小程序后端运行是否良好,发现与selenium有关的模块的进程全挂了。惊慌失措之下重试了爬虫模块的代码,发现本机上正常运行的代码,在ubuntu上运行时出现报错:NoSuchWindowException: Browsing context has been discarded百度了很久也没有得到确切的解释,有说是Firefox浏览器版本与驱动不兼容之类的,但是之前...原创 2019-06-05 20:24:39 · 20349 阅读 · 2 评论 -
【项目小结】某B视频网站的爬虫实践
最近忽来兴致,准备做评论数据的NLP项目。选定了某B视频网站的评论数据,顺带准备把某B视频网站的数据爬虫也一起做了。关于登录验证的问题可以看我的博客https://blog.youkuaiyun.com/CY19980216/article/details/89074771,不过目前登录方式稍微有点不同,因为验证图片不太方便获取了,我尝试了后觉得只能通过截图的方式才能拿到,如此鲁棒性较差。而且由于也无法获取到...原创 2019-07-15 09:16:48 · 14425 阅读 · 1 评论 -
【项目记录】雪球网股票组合数据爬虫(包括雪球模拟登录代码)
室友上半年跟了一个做机器学习方向的导师做股票投资组合的项目,暑假来找我帮忙弄点股票组合的数据来测试算法。目前国内股票资讯网站大约只有雪球能够比较方便地获取大规模的股票组合数据,七月疲于双专生活不能自理,八月断断续续地弄了一阵子,碰了一鼻子灰总算有些摸透了雪球网的套路。这里分享一下我在爬取雪球网数据时遇到的问题,一方面是对自己项目的一个小结,另一方面给其他需要爬取雪球网数据的小伙伴们提供一些参考,也...原创 2018-09-20 15:44:35 · 29621 阅读 · 11 评论