
爬虫
来一块提拉米苏
加油
展开
-
爬虫(二)
原本打算练习一下正则表达式,结果看的教程所爬的网站有点老,就是自己写了一个。# coding=utf-8import requestsimport refrom HTMLParser import HTMLParserclass PoemParser(HTMLParser): def __init__(self): HTMLParser.__init__(s原创 2017-09-18 21:57:49 · 446 阅读 · 0 评论 -
爬虫:BeautifulSoup(6)--select
Beautiful Soup中的selectBeautiful Soup中的select也是过滤器的一种,个人认为要比find_all()好用一点find_all()的返回方式是列表,以优快云的主页为例,探究一下select# coding=utf-8from bs4 import BeautifulSoupimport requestsurl = 'https://w...原创 2018-09-03 20:41:08 · 480 阅读 · 0 评论 -
爬虫 requests.post
爬虫 requests.post可以模拟网页向服务器发送消息,获取想要的内容1.无返回值打开并登陆豆瓣 模拟豆瓣登陆import requestspostUrl = 'https://www.douban.com/accounts/login'id = '******' #账户passwd = '*****' #密码headers = { 'Re...原创 2018-09-08 11:41:49 · 2885 阅读 · 0 评论 -
统计csdn博客的访问量+评论数
两周前,ip被封了,所以爬虫有风险,访问需谨慎,还好有代理IP# coding=utf-8import requestsfrom bs4 import BeautifulSoup#总的访问量+评论数sum = 0#20是页数,自己设for i in range(20): print("第",i+1,"页") url = "https://blog.youkuaiyun.com/...原创 2018-08-29 21:30:29 · 857 阅读 · 1 评论 -
爬虫:BeautifulSoup(5)--find_all
过滤器find_allfind_all(name, css, recursive , text , keyword )find_all是Beautiful Soup中比较重要的过滤器,主要的作用是对HTML进行解析,提取关键的标签,关键的属性,关键的文字,name和 css又是find_all中相对重要的两个参数,掌握了这两个参数find_all使用也就手到擒来了。from b...原创 2018-08-31 19:56:57 · 1524 阅读 · 0 评论 -
爬虫:BeautifulSoup(四)
遍历文档树从今天开始,不止是展示样例,也象征性的爬取网站的信息,边学边练子节点html_doc = """<html><head><title>The Dormouse's story</title></head><p class="title"><b&原创 2018-08-16 11:33:30 · 224 阅读 · 0 评论 -
http协议学习系列(请求头---Request Headers)
HTTP最常见的请求头如下:l Accept:浏览器可接受的MIME类型;l Accept-Charset:浏览器可接受的字符集;l Accept-Encoding:浏览器能够进行解码的数据编码方式,比如gzip。Servlet能够向支持gzip的浏览器返回经gzip编码的HTML页面。许多情形下这可以减少5到10倍的下载时间;l ...转载 2018-08-18 10:36:56 · 7857 阅读 · 0 评论 -
爬虫:BeautifulSoup(三)
今天在和大佬聊天的时候,大佬们谈论到最近在知乎上一篇数据分析的文章,关于女性文胸的统计和分析,“用Python抓取某东购买记录并统计MM的bra大小”,虽然没有使用到BeautifulSoup,不过也需要学习一下,嘻嘻。 知乎网站:https://zhuanlan.zhihu.com/p/40487715这里主要是tag修饰的字符串和注释部分提取# coding=utf-8impor...原创 2018-08-11 21:08:01 · 226 阅读 · 0 评论 -
爬虫:BeautifulSoup(二)
大佬们时不时的在一些网址上爬取一些自己需要的数据,简单的爬取西次的代理IP,困难点的在网易云上爬取收费的歌曲,还有不道德的爬取访问量,满满的羡慕啊,还是自己多学点知识,会点数据分享不会爬虫,那和咸鱼有什么区别。import requestsfrom bs4 import BeautifulSoup#对象的种类soup = BeautifulSoup('&lt;b class="bold...原创 2018-08-11 20:49:09 · 250 阅读 · 0 评论 -
爬虫:BeautifulSoup(一)
早就开始学爬虫了,一开始并没有系统的去学太多东西,在和朋友讨论爬虫的时候,他们使用BeautifulSoup节省了大量的时间,于是,就打算从头开始学它。Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库.它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式.Beautiful Soup会帮你节省数小时甚至数天的工作时间.import req...原创 2018-08-11 20:44:42 · 230 阅读 · 0 评论 -
下载音乐 python
最近看了一些比较流氓,无节操,无下限的技术,比如接下来要介绍的urlretrieve(),用于下载视频、音频文件;还有在知乎上被称为黑科技的you-get等等。无节操的下载版权的文件,不过各个网站的反爬虫技术也在不断的更新,反url下载的花样也越来越多。 在《大鱼海棠》电影中,陈奕迅唱了一首歌是在”这个世界相遇”,在各大音乐平台下载都是付费的,于是就可以。。。 代码量比较少,以火狐浏览器为例,...原创 2018-08-14 21:35:40 · 1536 阅读 · 1 评论 -
爬虫(一)
提供链接爬虫2(欢迎查看) 豆瓣热映电影信息 电影列表在li里边,爬取li里边的数据就可以 # coding=utf-8import urllib2from HTMLParser import HTMLParser'''编写解析器'''class MovieParser(HTMLParser): def __init__(self): HTMLParser.__in原创 2017-09-05 16:29:24 · 3998 阅读 · 0 评论 -
爬虫 代理IP
爬虫 获取代理IP之前说过,因为某些原因,IP被封了,所以回过头排查了一下关于代理IP的问题。代理IP的作用代理IP简单的来说,就是代替你访问网站的IP,每台电脑都有自己的IP,在从事爬虫的时候,如果你直接使用自己的IP,被爬的网站检测到,会很快的封掉你的IP,从事违法工作的,甚至定位到你的位置。那么我们在使用爬虫的时候,怎么能不使用自己的IP呢,那么就用代理的IP。这里用的代...原创 2018-09-12 20:28:08 · 556 阅读 · 0 评论