python网络爬虫与信息提取
mind_programmonkey
好久没上线了~,有问题私信哈,每周末尽量抽时间回答问题哈
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Python语言开发工具
常用的Python IDE工具分为文本工具类IDE 集成工具类IDEIDLE PyCharmNotepad++ WingSublim原创 2017-07-31 08:16:43 · 842 阅读 · 0 评论 -
Python实战之网络与爬虫篇-----如何查看用户Star了哪些库
Python实战之网络与爬虫篇-----如何查看用户Star了哪些库1.问题求解试着用前面所学的知识查看用户Codingchaozhang 都Starred了哪些库,并且自动在游览器中打开这些库的地址。2.背景知识github接口网址: https://api.github.com/从中找了starred_url的网址{ "current_user_url": "...原创 2019-01-19 20:08:46 · 598 阅读 · 0 评论 -
Python实战之网络与爬虫篇-----如何监测github项目更新
如何监测GitHub项目更新并自动打开网页1.问题求解拆解问题:如何获取网页资源如何监测网页的数据变化(每次下载Requests库;对比变化,持续运行)如何自动打开网页(使用内置模块来实现webbrower)2.前期知识(1)编程工具 pycharm(2)requests库、webbrower在Python爬虫开发中最为常用的库就是使用requests实现...原创 2019-01-19 17:28:43 · 1680 阅读 · 0 评论 -
Scrapy爬虫框架
Scrapy爬虫框架1.Scrapy的安装 pip install scrapy 但是在安装过程中存在了一些问题,于是就打算采取下载anaconda来借助安装scrapy库。(1)Anaconda是python科学计算的集成。下载Anaconda,下载地址:http://continuum.io/downloads。(2)根据自己的系统选择相应版本进行下载(下载速度可能会原创 2017-08-06 10:54:58 · 673 阅读 · 0 评论 -
Re库的match对象
原创 2017-08-03 11:44:42 · 636 阅读 · 0 评论 -
Python的Re库(正则表达式)基本用法
1.RE库介绍Re库是Python的标准库,主要用于字符串匹配调用方式:import re 2.正则表达式的表示类型(1)raw string类型(原生字符串类型)re库采用raw string类型表示正则表达式,表示为:r’text’例如:r’[1-9]\d{5}’raw string 是不包含转义符的字符串(2)string类型,更繁琐 3.Re库的原创 2017-08-03 10:34:30 · 1824 阅读 · 0 评论 -
正则表达式的基本用法
正则表达式1.正则表达式的概念regular expression regex RE正则表达式是用来简介表达一组字符串的表达式,通用的字符串表达框架,判断某字符串的特征归属。 2.正则表达式的作用表达文本类型的特征(病毒、入侵等);同时查找或替换一组字符串;匹配字符串全部或部分区域。 3.正则表达式的使用编译:将符合正则表达式语法的字符串转换成正则原创 2017-08-03 09:21:05 · 590 阅读 · 0 评论 -
信息标记与信息提取
1.信息标记的三种形式标记后的信息可形成信息组织结构增加了信息维度标记后的信息可用于通信、存储或展示标记的结构与信息一样具有重要价值标记后的信息更利于程序理解和运用 三种形式:XML、JSON、YAML 2.HTML的信息标记H:hyperT:textM:markupL:language 3.三种信息标记形式的比较XML:最早的通用信息标原创 2017-08-02 15:58:09 · 1663 阅读 · 0 评论 -
基于bs4的HTML内容遍历方法
1.HTML基本格式 2.标签树的下行遍历 属性 说明.contents 子节点的列表,将所有儿子节点存入列表.children 子节点的迭代类型,与.content类似,用于循环遍历儿子节点.descendants 子孙节点的迭代类型,包含所有子孙节点,用于循环遍历 遍历儿子节点原创 2017-08-02 10:05:18 · 2634 阅读 · 0 评论 -
BeautifulSoup库的安装及基本元素
一、BeautifulSoup的安装1.安装beautifu soup以管理员权限执行cmd,然后执行pip install beautifulsoup4 命令 2.Beautiful Soup库的安装小测演示HTML页面地址http://python123.io/ws/demo.html 3.BeautifulSoup库解析HTML库from bs4原创 2017-08-02 09:59:41 · 830 阅读 · 0 评论 -
Python网络爬虫的网站实例
1.通过爬取网页源代码import requestsdef getHTMLText(url): try: r=requests.get(url,timeout=30) r.raise_for_status() r.encoding=r.apparent_encoding return r.text except:原创 2017-08-01 10:42:08 · 1107 阅读 · 0 评论 -
Robots协议
Robots Exclusion Standard 网络爬虫排除标准 作用:网站告知网络爬虫哪些页面可以抓取,哪些不行形式:在网站根目录下的robots.txt文件 如:https://www.jd.com/robots.txt网络爬虫:自动或人工识别robots.txt,再进行内容爬取约束性:Robots协议是建议但非约束性,网络爬虫可以不遵守,但存在法律风险原创 2017-08-01 07:49:31 · 828 阅读 · 0 评论 -
Requests库的入门
1.cmd(管理员权限)--->pip install requests 2.Requests库的7个方法requests.request() 构造一个请求,支撑以下各方法的基础方法requests.get() 获取HTML网页的主要方法,对应于HTTP的GETrequests.head() 获取HTML网页头信息的方法,对应于HTTP的HEADrequest原创 2017-07-31 11:22:50 · 758 阅读 · 0 评论 -
Python实战之网络与爬虫篇-----如何对比多个库,看哪个更靠谱
Python实战之网络与爬虫篇-----如何对比多个库,看哪个更靠谱1.问题拆解如何对比多个库,看哪个最靠谱?用哪些参考数值?(生态值、Star数、Fork数)如何获取数据?(Srar、Fork数)如何查询需要的数据?(requests库)2.背景知识a.开发者网址https://developer.github.com/v3/search/在里面了解参数情况...原创 2019-01-20 12:24:47 · 873 阅读 · 0 评论
分享