第一个网络爬虫程序

最新推荐文章于 2025-08-10 21:30:56 发布

转载最新推荐文章于 2025-08-10 21:30:56 发布 · 76 阅读

0 ·

CC 4.0 BY-SA版权

原文链接：https://yq.aliyun.com/articles/491116

文章标签：

#爬虫 #数据库 #开发工具

import re

import requests    #启动两个模块，pycharm5.0.1里貌似不用特别启动os模块，也可以open#

html=requests.get("http://tu.xiaopi.com/tuku/3823.html")

AAA=html.text     #从目标网站上捕获源代码#

body=re.findall('<img src="(.*?)" alt=',AAA,re.S)
#此时你肯定要先看一眼源代码，找到你需要找的东西，然后开始“夹逼定理”，还是那句话“夹”最重要，夹的准，基本你的爬虫就差不多了。#

i=0

for each in body:

  print("正在打印"+str(i)+"照片")    #这只是告诉你正在正常保存图片，起到进程计数作用#

  pic=requests.get(each)      
#用requests.get是正式捕获每一个图片的url网址#

  fp=open("e:/pythonaaa/b/study & test/"+str(i)+".jpg","wb")
#将捕获下来的图片保存住，注意文件的/，这是一个很重要的细节！#

  fp.write(pic.content)

  i=i+1

  fp.close()

======================================分割线=========================================

本人尚且没有做太多的爬虫实验，而且目前的水平也仅仅是抓点图片和漫画看看，还没到数据库那么高大上的级别，但是本人目前有一个心得：就是很多同学偷懒，在“夹逼”的时候，喜欢用<body>和</body>“大锤敲缝”，可是往往敲出来的都不对。这是因为不少网页的body有好几个。而且排列方式是<body1号><body2号></body这就不知道几号了></body依旧不知道记号>，所以往往会混乱，“夹逼”的时候还是抓明显的要素。

本文转自苏幕遮618 51CTO博客，原文链接:http://blog.51cto.com/chenx1242/1729817