
Network Crawler
步步星愿
狭路相逢勇者胜
展开
-
Python解析库(一):使用XPath
XPath最初是用来搜寻XML文档的,但是同样可以用来解析HTML文档 1、XPah的常用规则: 表达式 描述 nodename 选取此节点的所有子节点 / 从当前节点选取直接子节点 ...原创 2018-07-29 13:40:38 · 1271 阅读 · 0 评论 -
爬虫实战(一)利用python爬取猫眼电影Top前100
代码详解 1#爬虫库 2import requests 3#json数据格式库 4import json 5#requests异常 6from requests.exceptions import RequestException 7#正则表达式 8import re 9#延迟函数 10import time 11 12#定义一个读取一个url并返回相应信息的函数 13...原创 2018-07-26 16:55:11 · 5545 阅读 · 1 评论 -
爬虫实战(二):爬取糗事百科段子
源代码为: from urllib.request import Request, urlopen import requests import re import time def getHtml(url): headers = { 'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_3) Apple...原创 2018-07-27 09:35:47 · 276 阅读 · 0 评论