
Python爬虫
the best messi
大学生初级程序员记录和分享自己的学习历程,希望和大家一起进步!
展开
-
python爬虫爬取使用Ajax请求的网站数据解析——以梅老板微博为例(m.weibo.cn)
前言前面学习了使用正则表达式和利用python第三方的解析库实现对目标网页源代码的爬取,可见即可爬,但很多时候往往并没有那么友好,网页源代码中可能没有我们需要的东西。还有当我们使用requesets抓取页面的时候,得到的结果可能和我们在浏览器中看到的结果不太一样,在浏览器中能看到正常的页面数据,但是使用requests爬取到的页面信息却不一样。这是因为requests获取到的是原始的HTML文本,而浏览器中的页面是经过JavaScript处理数据之后生成的结果。这种数据处理的方式有很多,可能是通过Ajax原创 2020-08-21 14:41:14 · 2214 阅读 · 4 评论 -
python爬虫主流解析库的使用方法——XPath、BuautifulSoup、pyquery
前面学习到了使用正则表达式来实现一个基本的爬虫进行数据的爬取,但是这个正则表达式使用起来还是比较的繁琐,毕竟要写符号啊啥的都太多了,一不留神就容易搞错了,然后导致匹配失败,然后怼着那一坨找半天也不知道到底哪错了,就很烦!由于我们在使用爬虫的时候大多数都是用来爬取网页源代码中的信息,而对于一个HTML网页来说,他其中的逻辑结构还是比较明确的,每一个标签,每一个属性都有其自有的层次关系,我们就可以通过这种关系来获取到我们想要的文本或者属性信息。基于这样一种思想,我们python中提供了功能强大的解析库给我们使用原创 2020-08-18 16:53:20 · 1549 阅读 · 0 评论 -
爬虫入门实例——使用正则表达式爬取猫眼100电影排行
中间差不多有四个月没有写博客文章了,一方面是因为那时候基本上已经开学了,虽说是上网课,但是也不想学了这忘了那,所以也不太有充足的时间来自学一些东西了,好在我有一个完整的暑假,没有工作、不需要搞社会实践,所以就能静下心来好好学一学我心心念念的爬虫了。四个月的时间又没怎么接触python了,感觉再看到他的时候有一种熟悉但陌生的感觉,对于一个学生程序员来说,四个月不再接触一个东西是很容易遗忘的,毕竟我们学的东西太多了,不可能总在你脑子里占据着,再加上没有项目啥的给你练手,所以必要的复习是非常重要的,这也就是原创 2020-08-13 18:39:17 · 2553 阅读 · 3 评论 -
应用于python爬虫的正则表达式基础用法详解
依稀记得刚开始接触正则表达式应该是在《编译原理》这门课程中吧,我们学的时候说是叫正规表达式(简称正规式),他有一个贼拉长、不好理解的一个定义,我在这挂一下:他这算是一种比较规范的定义了,从文法的角度解释了正则表达式的产生。不理解也没关系,毕竟我们不是要去被这些条条框框的东西,我们只需要知道应该怎么用就行了。到底什么是正则表达式简单来说,正则表达式是由一群有特定含义的字符或字符串组成,他含有自己的逻辑规则,这类有规则的字符表达式用来对其他字符的过滤或者说匹配操作。举个例子哈,现在有一个字符串是这原创 2020-08-13 17:05:54 · 509 阅读 · 0 评论 -
Ubuntu 18.04安装Scrapy步骤及各种报错总结
文章目录前言Scrapy安装步骤报错总结1.raise ReadTimeoutError(self._pool, None, 'Read timed out.')2.Could not find a version that satisfies the requirement setuptools后记前言难道就我一个人总是安装一个库要整一天的嘛?还是学习崔老师的《python网络爬虫开发实战》这本书,今天安装的是目前非常流行的爬虫框架:Scrapy。还是一如既往的按照老师的安排运行各种命令,前面都还好,原创 2020-08-07 17:02:55 · 1076 阅读 · 0 评论 -
Ubuntu 18.04安装pyspider步骤及各种报错总结
文章目录前言pyspider安装步骤pyspider报错总结1.Command"python setup.py egg_info"failed with error code 1 in .................pycurl2.error: command 'x86_64-linux-gnu-gcc' failed with exit status 13.ValueError: Invalid configuration: - Deprecated option 'domaincontroller'原创 2020-08-06 20:16:15 · 836 阅读 · 0 评论 -
解决Pycharm运行chromedriver时出现“‘chromedriver‘ executable needs to be in PATH”报错的问题
问题描述最近在学python爬虫方面的知识,学的时候是按照崔庆才老师写的《python3网络爬虫开发实战》这本书来的。开始学的第一天就是安装各种库啊,环境啥的,其中在安装chromedriver的时候就遇到了一个这样的问题:前面在终端里面检查运行都没有问题,但是在pycharm中测试如下代码的时候:from selenium import webdriverbrowser = webdriver.Chrome()却出现了像“’chromedriver’ executable needs to be原创 2020-07-19 13:30:30 · 1358 阅读 · 0 评论