
spider
一条死在减速带的大鱼
qq 3392955216
展开
-
网络爬虫的合法性讨论
摘要:随着大数据时代的到来,数据已经渗透导生活和工作的各个领域,“网络爬虫”在大数据时代是一种不可或缺的高效获取海量数据的重要工具。 爬虫作为一种计算机技术就决定了它的中立性,因此爬虫本身在法律上是不被禁止的,但是利用爬虫技术获取数据这一行为是具有违法甚至犯罪的风险的。1.网络爬虫和相关基本概念1.1网络爬虫的概念网络爬虫(又称为网页蜘蛛,网络机器人)是一种按照一定的规则,自动的抓取万维网信...原创 2020-03-15 13:05:43 · 1465 阅读 · 0 评论 -
类vgg网络实现端到端识别验证码
#项目起因大二在做weibo爬虫帮学长用于情感分析抓取语料时遇到了模拟登陆的问题,其中关键的一环就是验证码识别。由于当时专业知识有限选择了对接打码平台来解决这个痛点,在时间不充分情况下这是效率最高的方法但这也在我心中埋下了一个小小的种子。大二暑假在校听了邹老师的课程后,抱着学习的态度我把weibo验证码识别做为了我的软件工程课设题目同时也是我的第一个深度学习实战项目。#为什么采用端到端的方式...原创 2020-03-07 17:44:13 · 497 阅读 · 0 评论 -
爬虫抓包模拟登陆新浪微博获取cookies
模拟登陆就是获取新浪服务器返回的登陆参数(cookies等),然后添加到爬虫的post请求中来伪装用户提交给新浪访客系统首先感谢 Bgods(https://blog.youkuaiyun.com/songzhilian22/article/details/48396545)敲代码的耗子(http://www.cnblogs.com/mouse-coder/archive/2013/03/03/294...原创 2019-02-15 17:16:44 · 3944 阅读 · 0 评论 -
天涯论坛搜索爬虫
需求:获取天涯论坛上某关键字搜索出来的所有页面里面的每个帖子的楼主id和评论id获取id间的对应关系,用于粒子群算法。(实际上已匹配出用户id,评论内容,用户名等信息,需要的话自己改一下return 就行了)分析:天涯论坛所有界面都是静态页面,没有发现反爬机制。 没有速度限制,但是还是请合理采集不要过度占用网站资源(我爬的时候,速度快了服务器会反应不过来。。多试几次就行了)...原创 2019-03-02 00:02:43 · 1294 阅读 · 0 评论