先上脚本:
#!/usr/bin/env python
# -*- coding:utf-8 -*-
import requests
from fake_useragent import UserAgent
ua = UserAgent()
def getHTMLText(url):
try:
headers = {
'User-Agent' : ua.random,
}
print(headers)
r = requests.get(url, headers=headers, timeout=20)
r.raise_for_status()
r.encoding = r.apparent_encoding
return r.text
except:
return "产生异常"
url = "https://www.taobao.com"
if __name__ == '__main__':
while True:
text = getHTMLText(url)
print(text)

算是爬虫的副作用了……
反爬大队们,任务任重而道远啊……
始终觉得,语言只是为了实现某些目的的工具。
关键在于如何运用,比如最近很火的答题直播app之类的~~~恍惚记得很久之前就有“菲利宾视频赌博”之类的玩法了……
所以说,怎么玩,很重要。
比如上面的脚本
现在只是在家跑……(跪键盘)
要是在网吧跑呢……(一顿胖揍)
要是挂上了Cookie跑呢……(喂,幺幺零嘛)
老板……不要不要啊……
然后,突然想到,还有手机流量啊……
呃,,,,
也不知道伪造个“淘宝最值商品”之类的页面,挂个js,行不行得通……

本文介绍了一个简单的Python爬虫脚本,用于抓取淘宝网站的内容。该脚本利用requests库发起请求,并通过fake_useragent库随机生成User-Agent以避免被目标网站识别为爬虫行为。此外,还讨论了在不同环境下运行爬虫可能遇到的问题。
658

被折叠的 条评论
为什么被折叠?



