
爬虫
梦无痕123
开朗活泼,乐于助人,愿意多结交技术朋友,从事互联网事业
展开
-
selenium 网页元素定位方法学习笔记
selenium 基于模拟浏览器的方式 基本任何网页都可以抓取selenium一般有八种定位方法 By.id() 通过id定位 By.name() 通过name 定位 By.xpath() 通过xpath定位 By.className() 通过className定位 By.cssSelector() 通过CSS 定位 By.linkText() 通过linkText By.t原创 2016-12-11 00:01:47 · 432 阅读 · 0 评论 -
爬虫可以做哪些有趣的事情,欢迎讨论
目前 楼主做了一个基于微信订阅号的聊天机器人, 爬取很多笑话,段子,天气预报网站,部分科技新闻等,机器人可以讲笑话,讲段子,预报天气,简单聊天等。结合聊天机器人,爬虫还可以做哪些有趣的事情,目前想法接下来爬股票,爬美女图片,爬部分问答网站以及百科知识等,欢迎大家讨论给出建议原创 2016-12-13 23:04:57 · 2907 阅读 · 0 评论 -
网络爬虫防止被封的策略和反反爬策略简单总结
今天不想工作,比较累,遇到一个网站反爬比较严重,不说具体哪个名字了,简单总结下爬虫防封策略1,伪装http 头 chrome 开发者模式,firebug等抓包工具,查看http 进行模拟User-Agent,有的需要加上Referer,可以多加入几个http user2,代理ip,对于限制ip 或者ip被封的采用代理ip 代理ip 可以抓取,本人每天监控十多个网站,原创 2016-12-16 19:11:12 · 7086 阅读 · 0 评论 -
反爬虫策略加上一句骂人话
不想说具体哪个公司了,作为技术人员反爬没事,但是加上一句骂人话,就好了,哎原创 2017-01-21 11:43:49 · 707 阅读 · 0 评论 -
薪资调查研究爬取
计划接下来几个月,利用业余时间做一个薪资调研app,包括公司的薪资水平,行业薪资水平 和岗位薪资水平原创 2017-02-10 12:58:51 · 590 阅读 · 0 评论 -
webmagic 0.70学习
最近计划两周时间内看完webmagic最新版WebMagic-0.7.0 的源代码,看了下最新版增加了很多功能WebMagic 0.7.0 版本发布了,此次更新重写了HttpClientDownloader,完善了POST等其他Http Method的支持,并重写了代理API,更加简单和便于扩展。POST支持新的POST API,支持各种RequestBody #513原创 2017-06-02 22:46:00 · 1769 阅读 · 0 评论 -
爬虫敏感性分析
目前爬虫分为新闻类,舆情类和信息类新闻类主要关注各个网站新闻,舆情类主要关注新闻,论坛 微博自媒体之类信息类:个人信息,公司信息,政策 法律信息,感觉除了信息类,其余基本没有敏感性的问题 还好,但是感觉爬虫敏感性的分析有点问题 不知道怎么界定算对。原创 2017-06-13 16:18:22 · 560 阅读 · 0 评论 -
PhantomJS 抓取头条搜索
public static void main(String[] args) { // TODO Auto-generated method stub String url ="http://www.toutiao.com/search/?keyword=道德经"; //Document document1 = HttpUtil.getPa原创 2018-01-25 19:07:45 · 464 阅读 · 0 评论