
数据检索与网络爬虫
Jaichg
这个作者很懒,什么都没留下…
展开
-
Python3 网络爬虫(一) urllib模块
通过urllib内置模块直接获取页面html数据,利用程序执行HTTP请求。 Urllib分为四个模块 urllib.request 请求模块 urllib.error 异常处理模块 比如404 urllib.parse url 解析模块 urllib.robotparser robots.txt解析模块写一个简单的例子:from urllib impo...原创 2018-08-14 18:21:51 · 484 阅读 · 0 评论 -
Python3 网络爬虫(二) 正则表达式 re模块
Python3 网络爬虫(一) urllib模块 正则表达式能检查一个字符串与特定模式是否匹配。python3中re模块具有正则表达式的全部功能。re模块函数 re.match(pattern,string,flags=0) 从字符串起始位置匹配模式 re.search(pattern,string,flags=0) 扫描整个字符串并返回第一个成功的匹配 re...原创 2018-08-15 18:19:58 · 496 阅读 · 0 评论 -
Python3 网络爬虫(三) 页面解析 BeautifulSoup模块
Python3 网络爬虫(一) urllib模块 Python3 网络爬虫(二) 正则表达式 re模块 安装pip install beautifulsoup4解析器常用的解析器:”html.parser” “lxml” [“lxml”, “xml”](能够解析XML) “html5lib”soup = BeautifulSoup(html, "html.p...原创 2018-08-16 20:04:03 · 871 阅读 · 0 评论