
爬虫学习
sky荒唐的记忆
这个作者很懒,什么都没留下…
展开
-
User Agent与代理IP
原文https://blog.youkuaiyun.com/c406495762/article/details/60137956,原文更详细1、使用User Agent与代理IP都是为了防止程序被网站识别为爬虫。2、User Agent存放于Headers中,常见的Agent1.AndroidMozilla/5.0 (Linux; Android 4.1.1; Nexus 7 Build/...原创 2018-08-27 11:50:40 · 623 阅读 · 0 评论 -
python3爬虫实现翻译
参考 https://blog.youkuaiyun.com/c406495762/article/details/59095864 1、获得有道翻译的请求,实际请求那个_o要删除。2、要提交的表单数据3、拿到翻译的结果实际的代码如下,有些表单数据可以不提交,提交和得到的响应记得都要转码为utf-8:def youdaoTranslte(content): Reque...原创 2018-08-27 10:11:22 · 2325 阅读 · 0 评论 -
python3网页抓取与下载文件
参考https://blog.youkuaiyun.com/c406495762/article/details/587168861、下载整个网页#!/usr/bin/python#get html page from selected urlfrom urllib import requestif __name__ == "__main__": response = reques...原创 2018-08-27 10:14:54 · 15651 阅读 · 3 评论 -
win10下的scrapy安装
我用的pycharm安装,安装过程报什么缺C++14.0库,而且twisted缺这个库,那就直接安装twisted二进制文件得了,python3官方不支持,那就安装非官方得了https://www.lfd.uci.edu/~gohlke/pythonlibs/#twisted 电脑64位装的是python3.6,跳到文件下打开cmd,输入命令python3 -m pip install T...原创 2018-08-27 19:33:07 · 246 阅读 · 0 评论 -
使用cookie模拟登录
参考:https://blog.youkuaiyun.com/c406495762/article/details/698174901、有些网站需要登录后才能访问某个页面,在登录之前,你想抓取某个页面内容,登陆前与登陆后是不同的,或者不允许的。 使用Cookie和使用代理IP一样,也需要创建一个自己的opener。在HTTP包中,提供了cookiejar模块,用于提供对Cookie的支持。2 将C...原创 2018-08-28 15:37:36 · 3331 阅读 · 0 评论