大数据Python爬取B站电影排行榜—数据清洗

最新推荐文章于 2023-08-02 19:43:24 发布

JJU~

最新推荐文章于 2023-08-02 19:43:24 发布

阅读量1.1k

点赞数

CC 4.0 BY-SA版权

分类专栏：大数据Python 文章标签： python 大数据

本文链接：https://blog.youkuaiyun.com/weixin_51509194/article/details/121507443

本文介绍了数据清洗的概念，包括检查数据一致性和处理缺失值。接着展示了使用Python对从B站爬取的电影排行榜数据进行清洗的代码过程，包括引入所需包、读取数据以及进行数据清洗的步骤。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

文章目录

前言
一、数据清洗是什么？
二、我的代码呈现
总结

前言

接上一篇数据爬取的信息进行数据清洗。

一、数据清洗是什么？

数据清洗是指发现并纠正数据文件中可识别的错误的最后一道程序，包括检查数据一致性，处理无效值和缺失值等。与问卷审核不同，录入后的数据清理一般是由计算机而不是人工完成。数据清洗 (Data cleaning)– 对数据进行重新审查和校验的过程，目的在于删除重复信息、纠正存在的错误，并提供数据一致性。

二、我的代码呈现

1.引入包

代码如下（示例）：

import pandas as pd
import numpy as np
import os

2.读入数据

代码如下（示例）：

df=pd.read_excel('C:/python/b站电影排行榜前100.xls')
#查看数据
df.info()
df.head(100)

3.数据清洗

#自定义函数
def fun(x):
    if '$' in str(x):
        x=str(x).strip('$')
        x=str(x).replace(',','')
    else:
        x=str(x).replace(',','')
    return str(x)

最低0.47元/天解锁文章

200万优质内容无限畅学

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

JJU~

关注关注

0
点赞
踩
13

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

Python爬虫实战：爬取Bilibili视频排行榜（动态接口解析与反爬破解）

2201_76125261的博客

06-01

1398

Bilibili（简称B站）作为中国领先的弹幕视频分享网站，其视频排行榜反映了当前最受欢迎的视频动态，涵盖动画、娱乐、科技、游戏等多个分类。爬取这些排行数据，可用于内容分析、趋势预测、推荐系统开发等应用场景。

python 数据清洗 豆瓣电影_python 数据清洗篇

weixin_34476159的博客

01-28

770

前面我们用pandas做了一些基本的操作，接下来进一步了解数据的操作，数据清洗一直是数据分析中极为重要的一个环节。本篇主要演示：python 数据清洗的数据合并、转换、过滤、排序.数据合并在pandas中可以通过merge对数据进行合并操作。import numpy as npimport pandas as pddata1 = pd.DataFrame({'level':['a','b','c'...

参与评论您还未登录，请先登录后发表或查看评论

python基础-(正则表达式爬取电影排行榜)

weixin_55435895的博客

08-13

700

电影样题的数据清洗

浅汐

10-08

856

# -*- coding: utf-8 -*- #coding:utf-8 import numpy as np import pandas as pd import string df20105 = pd.read_csv('fbr_d_n_b.csv', delimiter = ',' , names = ['date','film','BoxOfficeReturn

python数据清洗例子_python－－数据清洗

weixin_39859220的博客

11-21

567

1.数据错误：错误类型– 脏数据或错误数据• 比如, Age = -2003– 数据不正确• ‘0’ 代表真实的0，还是代表缺失– 数据不一致• 比如收入单位是万元，利润单位是元，或者一个单位是美元，一个是人民币– 数据重复2.缺失值处理：处理原则–缺失值少于20%•连续变量使用均值或中位数填补•分类变量不需要填补，单算一类即可，或者用众数填补–缺失值在20%-80%•填补方法同上•另外每个有缺失...

python爬虫猫眼电影票房_python爬取猫眼电影top100排行榜

weixin_39989443的博客

12-08

2724

爬取猫眼电影TOP100(http://maoyan.com/board/4?offset=90)1). 爬取内容: 电影名称，主演，上映时间，图片url地址保存到mariadb数据库中;2). 所有的图片保存到本地/mnt/maoyan/电影名.png代码：import reimport pymysql as mysqlfrom urllib import requestfrom urllib...

大数据Python爬取B站电影排行榜——数据可视化

weixin_51509194的博客

11-24

2934

文章目录前言一、数据可视化是什么？二、使用步骤1.引入库、包2.折线图3. 条形图4. 饼图总结前言通过爬取数据—>数据清洗, 最后把数据可视化，呈现数据的可视化效果，该文章主要是制作了简单的数据可视化：折线图、条形图和饼图。除此以外一般的数据可视化还可以包括：词云图、一、数据可视化是什么？顾名思义：可视化就是可以通过视觉进行传达的。再专业一点就可以解释为可视化（Visualization）是利用计算机图形学和图像处理技术，将数据转换成图形或图像在屏幕上显示出来，再进行交互处理的理论、方法

python爬取电影Top250数据并进行可视化分析.zip

01-06

在这个“python爬取电影Top250数据并进行可视化分析.zip”的项目中，我们主要探讨的是如何使用Python语言来获取互联网上的电影Top250排行榜数据，并对这些数据进行有效的处理和可视化展示。这个项目适合那些正在学习...

python医疗大数据清洗_使用Python爬取、清洗并分析前程无忧的大数据职位

weixin_39797780的博客

12-15

459

1 #-*- coding: utf-8 -*-2 """3 Created on Wed Nov 1 20:15:56 201945 @author: loo6 """78 importmatplotlib.pyplot as plt9 importcsv10 importnumpy as np11 importre12 from wordcloud importWordCloud,STOPW...

电影票房之数据清洗（MapReduce）

m0_58245389的博客

05-22

2079

电影票房之数据清洗（MapReduce）第1关：数据清洗 任务描述基于EduCoder平台提供的初始数据集（数据集存放在 /data/workspace/myshixun/data/movies.csv 中），按照下面的要求，完成电影票房数据的清洗工作。编程要求去掉字段“上映天数”中带有“零点场”、“点映”、“展映”和“重映”的电影数据；以字段“上映天数”和“当前日期”为依据，在尾列添加一个“上映日期”（releaseDate）的字段，该字段值为“当前日期”减去“上映天数”+1

python 电影排名爬取（详细注解）

weixin_52506979的博客

11-06

466

爬取豆瓣电影Top250的电影的排名、名字和评分爬取网站: https://movie.douban.com/top250 代码如下：` #引入requests库 import requests #从BeautifulSoup中引入bs4 库 from bs4 import BeautifulSoup 定义函数功能：爬取网页 def reptile( url ): # 以追加的方式打开文档，若文档不存在，则自动生成 f = open("films.txt",mode="a",encoding="utf

python爬虫(电影排行榜)

li_ITboy的博客

05-08

912

import json import re from multiprocessing.dummy import Pool import requests from requests.exceptions import RequestException headers = {'User-Agent': 'Mozilla/5.0 '} def get_one_page(url): tr...

python爬虫（电影排行榜）

2301_76842366的博客

08-02

919

print(data.sort_values(by='AvgAudienceCount', ascending=False)[['年份', 'MovieName', 'AvgAudienceCount']].head(10))csvwriter.writerow(('排名', '电影名称', '上映时间', '总票房(万)', '平均票价', '平均场次'))data['年份'] = data['ReleaseTime'].apply(lambda x: x.split('-')[0])

python使用numpy清洗爬取后的数据

weixin_41098099的博客

09-12

951

对于刚爬取的数据，数据一般不会全部按照你的格式，整整齐齐的排列，比如：这时候，需要我们对数据进行清洗。 1.读取数据出来 data = [] with open("51job.csv",encoding='gbk') as csvfile: csv_reader = csv.reader(csvfile) # 使用csv.reader读取csvfile中的文件 data_header = next(csv_reader) # 读取第一行每一列的标题 ['职位', '薪资', '公司'

5分钟使用Python爬取豆瓣TOP250电影榜

weixin_44976611的博客

07-15

817

使用BeautifulSoup实现数据解析。借助pandas将数据写出到Excel。使用requests爬取网页。

urllib2模块学习--异常检测

weixin_34041003的博客

04-21

105

当urlopen请求出现问题时会出现URLError,HTTPError是URLError的子类。URLError包含一个"reason"属性,是一条出错信息。HTTPError:包含这些属性：url, code, msg, hdrs, fp。当判断是URLError还是HTTPError异常时，只要判断是否有reason或者code属性就行。下面是检测异常的代码,hasat...

python爬取百部电影数据，我分析出了一个残酷的真相