- 博客(4)
- 资源 (1)
- 收藏
- 关注
转载 文章转载---教会你怎么样防止网站内容被采集
最近因为某网站对ip访问次数限制的问题,导致自己做出来的程序没能完成预期目标。这是找到的点资料,总结的不错。虽说是告诉你怎么防采集,却也指明了如何破解的方法。目前看来只能通过降低采集效率的方式来完成任务了。-----------------------------------------------------------------------------以下为拷贝-----------
2012-08-07 23:16:35
2537
原创 网友提问---一个稍微用点技巧的内容采集方法
网友的提问地址:http://bbs.locoy.com/spider-75585-1-1.html网友问题概述:该网友要采集内容的源代码如下:第1张.......<a href='4586_9.html' ...........第9张第10张看该源码,可以了解到该网页大概是一个图片的列表。该网友要采集的是图片列表中的最后那张图片的标记文字,在这个例子中是这个数字“10”。
2012-05-18 23:28:59
432
原创 网友问题回答---新浪博客怎么采集
这个采集的目标网址暂定为新浪旅游:http://travel.sina.com.cn/109/blog/chn/list.html点击这个博客列表下面的分页,可以发现浏览器上地址栏内的url地址未发生任何变化。由此可以判定,网页中博客列表的显示可能用ajax等技术实现的动态显示,采集会有难度。不过,还是先看看网页源码再说。如图:可以发现所有500条博客网址的地址是在JS代码中保
2012-05-17 23:47:06
1322
原创 网友问题回答_百度知道的搜索结果采集
火车头论坛5-14日一个问题的解答:http://bbs.locoy.com/spider-75505-1-1.htmlQ:http://zhidao.baidu.com/q?word=%CB%BC%D4%B4%D1%A7%D4%BA&lm=0&fr=search&ct=17&pn=0&tn=ikaslist&rn=10 此网址采集规则如何写?A:1、该百度知道的网址规则很容易分析,网
2012-05-15 19:53:48
1031
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人