有关python爬虫学习笔记(一)

学习目标:

在短时间内编写一个可以爬取我们需要资源的简单爬虫脚本


需要准备的环境与资源:

1、 搭建 python 开发环境(本人的环境是PyCharm Community Edition 2020.2.3 x64此软件免费且方便,可以满足大部分python开发需求,这不还有很多第三方库吗?)
2、 掌握 一定的python基本语法
在这里插入图片描述


等不了了,tmd还不快上车?!:

所谓python爬虫从入门到入狱,首先我们第一步要了解爬虫是不是都合法呢?放心!咱层次还很浅,大鱼们犯不着跑到浅水吃咱,不过倒是有很多案例,同学们可以在网上搜索一下。总的来说还是安全上网吧。在这里插入图片描述


学习离不开实践咱们就以最基础的开始吧:

想要抓取网页,我们得让“爬虫”知道这个网页到底在哪里,下面我们将使用urllib下载URL

import urllib.request
reponse = urllib.request.urlopen('http://ww.baidu.com')
print(reponse.read().decode('utf-8'))

这是一个简单网页获取程序的代码
在这里插入图片描述
你们会看到这样的结果,家人们可以先敲着练练手
有的同学一个会遇见一些困难其中之一便是urllib库的无定义,这怎么解决呢。你可以下载Anaconda3这是一个python的第三方库软件,里面附带了很多的科学计算的第三方库,但很多同学不会下载在此我附带了链接各各位家人Anaconda3密码:1135
其次是编写错误这在下就没有办法了,您耗子喂汁吧!!!!不会多打几遍吗?在这里插入图片描述
这只是基础你们还有很多要学,明白吗?
我们的目标是做大做强,共创辉煌。在这里插入图片描述
好了我们今天其实已经完成任务了,但是你就不能多学一点吗?
别走!!!!你要学的我这还有

import bs4 import BeautifulSoup
# 网页解析
import re
# 正则表达式,进行文字的匹配
import urllib.request, urllib.error
# 指定url,获取网页数据
import xlwt
# 进行excel操作
import sqlite3
# 进行sqlite数据库操作

这是我们做大做强需要引用的库

import bs4
# 网页解析
import re
# 正则表达式,进行文字的匹配
import urllib.request, urllib.error
# 指定url,获取网页数据
import xlwt
# 进行excel操作
import sqlite3
# 进行sqlite数据库操作

def main():
    baseurl = "http://movie.douban.com/top250?start="
    #1.爬取网页
    datalist = getData(baseurl)
    savepath = ".\\豆瓣电影top250.xls"
    #保存数据
    saveData(savepath)




#爬取网页
def getData(baseurl):
    datalist= []
    # 2.逐一解析数据
    return datalist


def saveData(savepath):
    print(',....')

if __name__ == '__main__':
 main()

好了好了今天就到这

评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

aolihui

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值