第一个网络爬虫程序

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
import re
import requests    #启动两个模块,pycharm5.0.1里貌似不用特别启动os模块,也可以open#
html=requests.get("http://tu.xiaopi.com/tuku/3823.html")
AAA=html.text     #从目标网站上捕获源代码#
body=re.findall('<img src="(.*?)" alt=',AAA,re.S)
#此时你肯定要先看一眼源代码,找到你需要找的东西,然后开始“夹逼定理”,还是那句话“夹”最重要,夹的准,基本你的爬虫就差不多了。#
i=0
for each in body:
  print("正在打印"+str(i)+"照片")    #这只是告诉你正在正常保存图片,起到进程计数作用#
  pic=requests.get(each)      
#用requests.get是正式捕获每一个图片的url网址#
  fp=open("e:/pythonaaa/b/study & test/"+str(i)+".jpg","wb")
#将捕获下来的图片保存住,注意文件的/,这是一个很重要的细节!#
  fp.write(pic.content)
  i=i+1
  fp.close()

======================================分割线=========================================

本人尚且没有做太多的爬虫实验,而且目前的水平也仅仅是抓点图片和漫画看看,还没到数据库那么高大上的级别,但是本人目前有一个心得:就是很多同学偷懒,在“夹逼”的时候,喜欢用<body>和</body>“大锤敲缝”,可是往往敲出来的都不对。这是因为不少网页的body有好几个。而且排列方式是<body1号><body2号></body这就不知道几号了></body依旧不知道记号>,所以往往会混乱,“夹逼”的时候还是抓明显的要素。



 本文转自 苏幕遮618 51CTO博客,原文链接:http://blog.51cto.com/chenx1242/1729817




评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值