
爬虫
世纪末的霖さん
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Selenium和爬虫学习
这里也是初学,参考买的书,反正再重复一遍,摘录的比较简略,后面再学到的时候再完善…… 如何将网页元素告诉Selenium,并让他自动操控网页及读取数据 通过HTML标签类型和属性class实现定位 以豆瓣电影为例 from selenium import webdriver url = 'https://movie.douban.com/' path = 'C:\\Users\\Admin\\A...原创 2019-10-21 16:28:34 · 310 阅读 · 0 评论 -
爬虫之content/text
requests对象的get和post方法都会返回一个Response对象,这个对象里面存的是服务器返回的所有信息,包括响应头,响应状态码等。其中返回的网页部分会存在.content和.text两个对象中。 .content中间存的是字节码 .text存的是.content编码后的字符串 一般来说 .text直接用比较方便 返回的是字符串 但是有时候会解析不正常导致 返回的是一堆乱码这时用.con...转载 2019-09-20 14:43:39 · 624 阅读 · 0 评论 -
爬虫之UnicodeEncodeError: 'latin-1' codec
今天在爬虫的时候碰到了这样的问题,应该是头文件里面出现了汉字, 由于不懂具体原因,我就把它删去了,如果有小伙伴懂的话,请告诉我一下。 UnicodeEncodeError: 'latin-1' codec can't encode characters in position 0-6: ordinal not in range(256) 对应的头文件如下: headers = { "A...原创 2019-09-20 17:16:40 · 1923 阅读 · 0 评论 -
小白初学爬虫开发基础
本博客内容来自所看图书《实战python网络爬虫(黄永祥著)》,摘取原因主要是方便自己理解。 爬虫开发基础 HTTP与HTTPS HTTP(Hyper Text Transfer Protocol,超文本传输协议)是一个客户端和服务器端请求和应答的标准(TCP)。客户端是终端用户,服务器端是网站。通过使用Web浏览器、网络爬虫或者其他工具,客户端发起一个到服务器上指定端口(默认端口为80)的HTT...原创 2019-09-25 14:46:41 · 261 阅读 · 0 评论 -
爬虫库Urllib
urllib.request.urlopen response = urllib.request.urlopen("https://movie.douban.com/",None,2) html = response.read().decode("utf-8") # decode:从byte到str。 encode:从str到byte # print(html) with open("ht...原创 2019-09-25 17:49:43 · 275 阅读 · 1 评论 -
Requests-HTML爬虫简单了解
Requests-HTML是在Requests的基础上进一步封装,两者都是由同一个开发者开发。Requests-HTML除了包含Requests的所有功能外,还新增了数据清洗和Ajax数据动态渲染。 数据清洗时是由lxml和PyQuery提供的。 数据清洗 from requests_html import HTMLSession session = HTMLSession() url = "h...原创 2019-09-27 17:28:54 · 270 阅读 · 0 评论