
Python爬虫
文章平均质量分 57
Allennnn_
一个初学者的艰难旅程
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
python爬虫(爬游民星空图片)_beautifulsoup爬虫模版
import requests,urllibfrom bs4 import BeautifulSoupans = 0for page in range(1,17): if page==1: url='http://www.gamersky.com/ent/201602/713895.shtml' else: url = 'htt原创 2016-04-01 00:52:18 · 2342 阅读 · 0 评论 -
python爬虫(爬取糗事百科段子)_get_text() , 文件写入
__author__ = 'AllenMinD'import requests,codecsfrom bs4 import BeautifulSoupurl = 'http://www.qiushibaike.com/textnew/page/3/?s=4865261'header={'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) Ap原创 2016-04-03 16:32:50 · 12256 阅读 · 0 评论 -
python爬虫(爬游民星空壁纸)_图片损坏问题
__author__ = 'AllenMinD'import requests,urllibfrom bs4 import BeautifulSoupans = 1for page in range(1,12): if page==1: url = 'http://www.gamersky.com/ent/201603/730123.shtml' els原创 2016-04-04 16:15:20 · 3135 阅读 · 0 评论 -
python爬虫(爬取蜂鸟网图片)_创建文件夹
import requests,urllib,osfrom bs4 import BeautifulSoupans = 1for page in range(58,69): url = 'http://bbs.fengniao.com/forum/pic/slide_101_6478020_768937' + str(page) + '.html' header = {'原创 2016-04-07 00:36:19 · 2621 阅读 · 0 评论 -
python爬虫(爬取蜂鸟网高像素图片)_空网页,错误处理
__author__ = 'AllenMinD'import requests,urllib,osfrom bs4 import BeautifulSoupans = 1 #countingfor page in range(0,43): flag = 1 #web exists or not if page<10: url = 'http://bbs原创 2016-04-08 20:55:20 · 1235 阅读 · 0 评论 -
常用正则表达式
原创 2016-04-10 01:05:03 · 421 阅读 · 0 评论 -
python解决SNIMissingWarning和InsecurePlatformWarning警告
在爬取knewone.com和豆瓣等动态网站时,pycharm在运行时会提出SNIMissingWarning和InsecurePlatformWarning警告详细警告内容如下: D:\Python2.7.6\lib\site-packages\requests\packages\urllib3\util\ssl_.py:315: SNIMissingWarning: An HTTP原创 2016-04-13 20:48:02 · 19277 阅读 · 4 评论 -
python爬虫(爬取豆瓣电影)_动态网页,json解释,中文编码
from bs4 import BeautifulSoupimport requestsimport jsonimport sysimport codecsreload(sys)sys.setdefaultencoding( "utf-8" )rank = 0every_film = ''for start in range(0,80,20): url = 'h原创 2016-04-18 21:53:29 · 5889 阅读 · 0 评论 -
python环境搭建大致步骤
1.安装python2.安装setuptools3.安装pip 或 easy_install4.利用pip或easy_install来安装其他第三方库5.添加环境变量原创 2016-06-12 14:50:52 · 509 阅读 · 0 评论