网络爬虫学习一

网页爬虫基础

最新推荐文章于 2025-07-16 14:44:43 发布

原创最新推荐文章于 2025-07-16 14:44:43 发布 · 300 阅读

·

0

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文介绍了一个简单的Python网页爬虫程序，包括如何通过URL获取页面源码、从抓取的网页中下载图片，以及如何模拟登录过程。代码示例清晰地展示了使用Python标准库进行网页爬取的方法。

一. 根据url抓取页面源码：

import re
import urllib

def getHtml(url):
    agent=''
    page=urllib.urlopen(url)
    html = page.read()
    return html

try:
    html = getHtml(url='https://www.zhihu.com/question/20899988')
    #html.encoding = 'utf-8'
except Exception:
    print 'getHtml fail'

print html

二. 从抓取的网页中下载图片

def getImg(html):
    reg = r'src="(.+?\.jpg)"'
    #reg=r'src'
    pat = re.compile(reg)
    imgList = re.findall(pat,html)
    x=1
    for imgurl in imgList:
        urllib.urlretrieve(imgurl,'%s.jpg' % x)
        x+=1

三. 抓取前模拟登陆

相关知识：

http消息头：理解HTTP消息头

博客等级

码龄12年

136
原创

37
点赞

110
收藏

26
粉丝

关注

私信

热门文章

分类专栏

hdu 21篇
poj 31篇
HLOJ 6篇
CF 3篇
卡特兰数 2篇
数位统计 2篇
greedy 1篇
线段树 10篇
反素数 1篇
搜索 1篇
二分图 3篇
扩展欧几里德 2篇
最短路径 1篇
树状数组 2篇
划分树 2篇
字典树 4篇
后缀数组 7篇
数论
LCA 1篇
QT 2篇
KMP
爬虫 4篇
python
hadoop 1篇
设计模式 8篇
leetcode 1篇
Linux 1篇
spark 2篇
spring
cp -r ~/Library/local/spark-2.2.0-bin-hadoop2.7/python

展开全部收起

上一篇：: 初识HTTP消息头

下一篇：: 理解HTTP消息头（二）

最新评论

cf 448D
佩玉归羽: 我也想问
hdu 1401 (双广)
hjzero1: #include<cstdio> #include<cstring> #include<iostream> #include<algorithm> #include<cmath> #include<map> #include<queue> using namespace std; const int N = 10; int dx[4] = {0,0,1,-1}; int dy[4] = {1,-1,0,0}; map<int,int> m;//记录不同棋子状态的访问情况 struct node{ int x,y; bool check(){//判断是否在棋盘内 if(x >= 0&&x < 8&&y >= 0&&y < 8) return true; else return false; } }; typedef struct State{ node pos[4]; int step; }state; bool cmp(node a,node b){//按从上到下从左到右排序 return a.x != b.x?a.x<b.x:a.y<b.y; } int set_hash(node *a){//生成一个唯一的整数表示，用于表示四个块的位置状态。 int t = 0; sort(a,a+4,cmp);//将不同顺序的排列合为一个 for(int i = 0;i < 4; i++){ t |= (a[i].x << (6*i)); t |= (a[i].y << (6*i+3)); } return t; } bool judge(int x,int y,node *a,int v){//判断[x,y]这个位置是否有棋子占据 for(int k = 0;k < 4; k++){ if(k != v){ if(a[k].x == x&&a[k].y == y) return false; } } return true; } bool bfs(int
poj 1281(简单模拟题)
料理码王: 我都没看懂这道题到底什么意思
Mac下hadoop2.7 伪分布式安装
freshcoolman: 你好，输入jps后，博主没注意到yarn没运行吗
vundle: vim插件管理安装之错误总结
量子代码回复 zhuyidan2407090128: 请问解决了吗

大家在看

最新文章

目录

展开全部

收起

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。