学习和练习使用,简单爬取信息内容。
经过对taobao url链接的分析,比如:
我们搜索“耳机”就会看到这样的url:
https://s.taobao.com/search?q=%E8%80%B3%E6%9C%BA&imgfile=&commend=all&ssid=s5-e&search_type=item&sourceId=tb.index&spm=a21bo.2017.201856-taobao-item.1&ie=utf8&initiative_id=tbindexz_20170306
斜体加粗部分是我们检索的商品名字。
再看看第2页,会发现url最后面以‘&s=44’结束,第三页则是‘&s=88’......依次类推,每一页显示44个商品。
下来给出总体代码:
代码依旧是3大块,老步骤。
import requests
import re
def getHTMLText(url):
try:
r = requests.get(url, timeout = 30)
r.raise_for_status()
r.encoding = r.apparent_encoding
return r.text
except:
return ""
def parsePage(ul