
数据爬取
nwj_03
码农一枚,努力修炼中
展开
-
python爬虫爬取数据
目标:爬取猫眼top100电影的名称,主演,上映时间1.观察所要爬取的内容的页面[地址(https://maoyan.com/board/4?offset=0),并找到其规律,从中观察到其URL中只有offset=?在变动2.按F12观察页面中的名称,主演,上映时间的URL地址用正则进行匹配3.创建主函数来定义爬取的页面,创建函数来获取页面,创建函数来分析页面,创建函数来保存解析的数据,并将...原创 2019-08-07 22:46:23 · 308 阅读 · 0 评论 -
JSON
一.什么是jsonJSON:JavaScript Object NotationJS O对象 N表示方式按照JS对象的格式描述出来的字符串.二.JSON表现01.JSON 表示单个对象1.使用{}表示单个对象2.在{}使用key:value的形式来表示属性(数据)3.key必须使用“”引起来4.value如果是字符串的话,也必须使用“”5....原创 2019-08-11 20:52:06 · 129 阅读 · 0 评论 -
scrapy框架设置多个User-Agent方法
1.在scrapy文件中创建一个py文件示例如下user_agents.pyuser_agents = [ 'User-Agent,Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; Trident/5.0', 'User-Agent,Mozilla/5.0 (Macintosh; U; Intel Mac OS X 10_6_...原创 2019-08-11 15:58:04 · 1048 阅读 · 0 评论 -
Windows版本的python中安装PIL的方法(亲测有效)
python中PIL的安装方法:电脑版本64位pillow的下载路径可参考:https://www.lfd.uci.edu/~gohlke/pythonlibs/#pillow注意下载符合自己Python的pillow。下载完成后,将文件放入C:\python36\Scripts(此为自己电脑的python存放地址),进入终端,切换到你的Python里pip.exe所在的目录,比如我的就是...原创 2019-08-15 10:34:35 · 1530 阅读 · 0 评论 -
Python中urlencode()使用
urlencode()传入参数类型:字典功能:将存入的字典参数编码为URL查询字符串,即转换成以key1=value1&key2=value2的形式导入:from urllib.parse import urlencode例如:from urllib.parse import urlencodebaseurl = 'http://image.so.com/zj?'param...原创 2019-08-15 10:22:06 · 792 阅读 · 0 评论 -
爬虫中常见的反反爬措施
python中反反爬措施小结:1.使用用户代理(User-Agent)User-Agent即用户代理,它使得服务器能够识别客户使用的操作系统及版本、CPU 类型、浏览器及版本等信息。对于一些网站来说,它会检查我们发送的请求中所携带的UserAgent字段,如果非浏览器,就会被识别为爬虫,一旦被识别出来, 我们的爬虫也就无法正常爬取数据了。常用的用户代理可以百度用户代理大全2.使用代理可变IP...原创 2019-08-08 22:40:31 · 1088 阅读 · 0 评论 -
正则表达式匹配中贪婪模式和非贪婪模式
贪婪模式::正则表达式一般趋向于最大长度匹配,总是尝试匹配尽可能多的字符,也就是所谓的贪婪匹配。贪婪模式,就是在整个表达式匹配成功的前提下,尽可能多的匹配。量词包括:{m, n}{m, }?*+非贪婪模式:非贪婪匹配就是匹配到结果就好,总是尝试匹配尽可能少的字符。从应用角度分析,非贪婪模式,就是在整个表达式匹配成功的前提下,尽可能少的匹配。{m, n}?{m, }???*?+...原创 2019-08-13 16:47:52 · 277 阅读 · 0 评论 -
python面试题01
1.python 爬虫有哪些常用技术?Scrapy,Beautiful Soup, urllib,urllib2,requests2.简单说一下你对 scrapy 的了解?scrapy 是一个快速(fast)、高层次(high-level)的基于 python 的 web 爬虫构架。用来下载、并解析 web 页面, 其 parse->yield item->pipeline 流...原创 2019-08-07 23:47:07 · 217 阅读 · 0 评论 -
scrapy框架爬虫xpath的extract()和extract_first()之区别
使用scrapy爬虫时,我们会使用xpath来获取html标签,通常有两种数据提取的方法,分别是:extract():返回的是一个数组list,里面包含了多个string,若只有一个string,则返回[‘ABC’]这中格式。extract_first():返回的是一个string字符串,是list数组里面的第一个字符串...原创 2019-08-12 23:01:01 · 1175 阅读 · 0 评论