
Python爬虫篇
不怨天,不尤人
键盘上的手艺人
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Python—正则表达式
关于网络数据爬取的学习来自博主Eastmount的博客https://me.youkuaiyun.com/eastmount以及博主的书籍《Python网络数据爬取及分析从入门到精通(爬取篇)》正则表达式(Regular Expression ,Regex或RE)又称为 正规表示法或常见表示法,常用来检索、替换那些符合某个模式的文本。他首先设定好一些特殊的字符及文字组合,然后通过组合的‘规定字符串’来对表...原创 2019-02-01 19:02:30 · 197 阅读 · 0 评论 -
Python—urllib模块
urllib模块提供的上层接口使用户能够像读取本地文件一样读取WWW或FTP上的数据,使用起来比C++、C#等编程语言更加方便。常用的方法如下:1、urlopenurlopen(url , data = None ,proxies = Nonne)该方法用于创建一个远程URL的类文件对象,然后像本地文件一样操作这个类文件对象来获取远程数据。参数url表示远程数据的路径,一般是网址;...原创 2019-02-02 11:25:24 · 1463 阅读 · 0 评论 -
Python—urlparse模块
urlparse模块主要对url进行分析,其主要的操作是拆分和合并url各个部件。它可以将url拆分为6个部分,并返回元组,也可以把拆分后的部分再组合成一个url。1、urlparse函数urllib.parse.urlparse( urlstring[ , scheme[ , allow_fragments]])该函数将urlstring值解析为6个部分,从urlstring中获取U...原创 2019-02-11 15:55:52 · 2790 阅读 · 0 评论