Python爬虫初探

以下功能均在jupyter notebook上实现。

python及相应爬虫工具安装请参考博客:https://blog.youkuaiyun.com/sinat_40471574/article/details/91354263

一、 爬虫介绍:

1.  非结构化数据(没有固定格式):如网页资料,必须通过ETL(Extract(抽取) Transformation(转换) Loading(组成))工具将数 据转化为结构化数据才能取用。

     Raw Data(原始数据) --> ELT Script(ETL脚本) --> Tidy Data(结构化数据)
 

 

3. 爬虫工具:

Chrome控制台:检查 --> Network --> (js,css,img,doc)(刷新)

通过pip安装套件:pip install requests

                              pip install BeautifulSoup4

infoLite

二、 基础功能介绍:

 

三.  爬虫实例:获取用户当前位置信息,并获取附近学校、医院、商场最近一年的新闻。

import requests,json
import string
import datetime
from bs4 import BeautifulSoup

dateNow = datetime.datetime.now().strftime('%Y-%m-%d')
dateNow = int(dateNow[0:4])*12 + int(dateNow[5:7])


#利用用户当前的IP进行定位1- - 
def getIpAddress():
    res = requests.get('https://apis.map.qq.com/ws/location/v1/ip?key=E3YBZ-XBBKU-XPSVV-BXTQF-X26AS-7LFDD')
    res.encoding = 'utf-8'
    ipJson = json.loads(res.text)
    ipGet = ipJson['result']['ip']
    latGet = ipJson['result']['location']['lat']
    lngGet = ipJson['result']['location']['lng']
    locationGet = ipJson['result']['ad_info']['nation'] + ipJson['result']['ad_info']['province'] + ipJson['result']['ad_info']['city']
    print('所在地:',locationGet)
    print('经度:',latGet,'纬度:',lngGet,'\n')
    if len(ipJson['result']['ad_info']['city']) > 0:
        locationGet = ipJson['result']['ad_info']['city']
    elif len(ipJson['result']['ad_info']['province']) > 0:
        locationGet = ipJson['result']['ad_info']['province']
    else:
        locationGet = '中国'
    return locationGet
#利用用户当前的IP进行定位- -1


#获取新闻的标题、链接、发布者、时间2- -
def getNews(searchContent,page):
    
    #P1 获取网页源码
    page = page*10
    page='%d' %page
    url = 'http://www.baidu.com/s?tn=news&rtt=4&bsst=1&cl=2&wd=' + searchContent + '&pn='+ page
    res = requests.get(url)
    res.encoding = 'utf-8'
    soup = BeautifulSoup(res.text,'html.parser')
    
    #P2 获取新闻列表
    for news in soup.select('.result'):
        title = news.select('a')[0].text.strip()
        link = news.select('a')[0]['href']
        timeMedia = news.select('p')[0].text
        timeMedia = timeMedia.replace('\n',' ').replace('\n',' ').strip().replace(' ','').replace('\t','')
        time = timeMedia[-16:]
        media = timeMedia[:-17]
        print(title,'\n',link,'\n')
    #P3 判断文章是否到底,时间是否超限
    switchPages = soup.select('#page')
    lastPage = switchPages[0].select('a')[-1].text.replace('>','')
    dateArticle = int(time[0:4])*12 + int(time[5:7])
    dateInterval = dateNow - dateArticle
    if lastPage != '下一页' or dateInterval>=12:
        return -1
    else:
        return 0     
#获取新闻的标题、链接、发布者、时间- -2


#查询用户所在地附近的商场,学校,医院3- -
def getOrg(keyword,page):
    address = getIpAddress()
    page='%d' %page
    url = 'https://apis.map.qq.com/ws/place/v1/search?boundary=region('+ address + ',0)&keyword='+ keyword + '&page_size=20&page_index='+ page + '&orderby=_distance&key=E3YBZ-XBBKU-XPSVV-BXTQF-X26AS-7LFDD'
    res = requests.get(url)
    orgJson = json.loads(res.text)
    for item in orgJson['data']:
        print(item['title'],'\n经度:',item['location']['lat'],'\t纬度:',item['location']['lng'],'\n')
#查询用户所在地的商场,学校,医院- -3





#1.获取实体的位置信息:

#address = getIpAddress()


#2. 获取附近的医院、学校、商场的信息
#getOrg('医院',1)


#3. 获取最近一年的新闻

#isEnd = getNews('哈尔滨购物',0)
#if(isEnd == -1):
#    print('已加载全部新闻')
#else:
#    print('\n准备加载下一页...')

 

好的,下面是一份可能的大作业实践方案,可以供您参考: ## 1. 爬虫部分 ### 1.1 需求分析 根据题目要求,需要编写一个爬虫程序,爬取指定网站的数据。在爬取数据的过程中,需要做到: - 发送请求,获取网页内容 - 解析网页内容,提取所需数据 - 存储数据,方便后续的数据分析和可视化操作 ### 1.2 技术选型 根据需求分析,可以发现,需要使用 Python 编写爬虫程序。Python 有很多第三方库可以用来编写爬虫,比如 BeautifulSoup、Scrapy、urllib、requests 等等。这里我们选择使用 urllib 和 re 两个标准库来编写爬虫程序。 ### 1.3 实现步骤 首先,需要确定爬取的目标网站和要爬取的数据。这里我们选择爬取豆瓣电影 Top250 的电影名称、评分和简介等信息。 其次,需要发送请求,获取网页内容。可以使用 urllib 发送请求,并设置请求头模拟浏览器访问。 ```python import urllib.request # 设置请求头,模拟浏览器访问 headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3' } # 豆瓣电影 Top250 的 url url = 'https://movie.douban.com/top250' # 发送请求,获取网页内容 try: request = urllib.request.Request(url, headers=headers) response = urllib.request.urlopen(request) content = response.read().decode('utf-8') except Exception as e: print(e) ``` 接着,需要解析网页内容,提取所需数据。可以使用 re 正则表达式来解析网页内容,提取电影名称、评分和简介等信息。 ```python import re # 解析网页内容,获取电影信息 pattern = re.compile(r'<span class="title">(.*?)</span>.*?<span class="rating_num" property="v:average">(.*?)</span>.*?<span class="inq">(.*?)</span>', re.S) movies = re.findall(pattern, content) ``` 然后,需要存储数据,方便后续的数据分析和可视化操作。可以将数据存储到文本文件中,或者使用数据库存储数据。 ```python # 将电影信息保存到文件 with open('movies.txt', 'w', encoding='utf-8') as f: for movie in movies: f.write('电影名称:' + movie[0] + '\n') f.write('评分:' + movie[1] + '\n') f.write('简介:' + movie[2] + '\n\n') ``` ## 2. 数据分析部分 ### 2.1 需求分析 在完成爬虫程序之后,需要对爬取到的数据进行分析。在数据分析的过程中,需要做到: - 统计电影的评分分布情况 - 统计电影的类型分布情况 - 统计电影的上映年份分布情况 ### 2.2 技术选型 根据需求分析,需要使用 Python 对数据进行统计和分析。Python 中有很多第三方库可以用来进行数据分析,比如 pandas、numpy、matplotlib 等等。这里我们选择使用 pandas 和 matplotlib 两个库来进行数据分析和可视化。 ### 2.3 实现步骤 首先,需要读取爬取到的数据。可以使用 pandas 库读取文本文件中的数据。 ```python import pandas as pd # 读取数据 data = pd.read_csv('movies.txt', delimiter=':', header=None, names=['类别', '内容']) ``` 接着,需要将电影评分转换为数字类型,并统计电影的评分分布情况。可以使用 pandas 库的 describe() 方法和 matplotlib 库的 hist() 方法来实现。 ```python import matplotlib.pyplot as plt # 将电影评分转换为数字类型 data['内容'] = pd.to_numeric(data['内容']) # 统计电影的评分分布情况 print(data['内容'].describe()) # 可视化电影的评分分布情况 plt.hist(data['内容'], bins=10, color='steelblue', edgecolor='black') plt.xlabel('评分') plt.ylabel('电影数量') plt.title('电影评分分布情况') plt.show() ``` 然后,需要统计电影的类型分布情况。可以使用 pandas 库的 str.contains() 方法和 value_counts() 方法来实现。 ```python # 统计电影的类型分布情况 types = ['剧情', '喜剧', '动作', '爱情', '科幻', '动画', '悬疑', '惊悚', '恐怖', '纪录片', '短片', '情色', '同性', '音乐', '歌舞', '家庭', '儿童', '传记', '历史', '战争', '犯罪', '西部', '奇幻', '冒险', '灾难', '武侠', '古装', '运动', '黑色电影'] for t in types: print(t + '电影数量:' + str(data[data['类别'].str.contains(t)]['类别'].count())) # 可视化电影的类型分布情况 data[data['类别'].str.contains('|'.join(types))]['类别'].value_counts().plot(kind='bar') plt.xlabel('电影类型') plt.ylabel('电影数量') plt.title('电影类型分布情况') plt.show() ``` 最后,需要统计电影的上映年份分布情况。可以使用 pandas 库的 str.extract() 方法和 value_counts() 方法来实现。 ```python # 统计电影的上映年份分布情况 data['上映年份'] = data['类别'].str.extract('(\d{4})') print(data['上映年份'].value_counts()) # 可视化电影的上映年份分布情况 data['上映年份'].value_counts().sort_index().plot(kind='bar') plt.xlabel('上映年份') plt.ylabel('电影数量') plt.title('电影上映年份分布情况') plt.show() ``` 到此为止,整个数据分析和可视化流程就完成了。将以上代码整合到一个 Python 文件中,并执行该文件,就可以得到统计结果和可视化图表。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值