python爬虫
dawen1937
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
python爬虫(1.find和findAll函数提取文本)
from urllib.request import urlopen from bs4 import BeautifulSoup html = urlopen("http://www.pythonscraping.com/pages/warandpeace.html") bsObj = BeautifulSoup(html) #根据css样式表查找 nameList = bsObj.findAll(翻译 2016-12-29 16:11:45 · 28443 阅读 · 1 评论 -
python爬虫(2.获取网页外链与内链)
from urllib.request import urlopen from urllib.parse import urlparse from bs4 import BeautifulSoup import re import datetime import random pages = set() random.seed(datetime.datetime.now()) #获取页面内链原创 2016-12-29 16:17:49 · 1865 阅读 · 0 评论 -
python爬虫(3.下载文件)
从网站下载图片,右键审查元素,找到 from urllib.request import urlopen from urllib.request import urlretrieve from bs4 import BeautifulSoup html = urlopen("http://www.pythonscraping.com") bsObj=BeautifulSoup(html) ur原创 2017-06-13 21:18:09 · 475 阅读 · 0 评论
分享