Coursera课程属性与评论情感分析

文章对Coursera平台的课程数据进行了深入分析,包括课程评分分布、难度级别与学生注册情况。数据显示,课程平均评分较高,中级课程评分可能因学习者期望严格而稍低。此外,还探讨了课程难度、评分和证书类型之间的关系,以及课程提供者的评价排名。

介绍

Coursera

Coursera是全球最大的在线教育平台,拥有超过4000万注册用户,Coursera由美国斯坦福大学两名计算机科学教授达芙妮科勒 (Daphne Koller) 和吴恩达 (Andrew Ng) 于2012年在美国加利福尼亚州创办,其愿景是为世界各地的学习者提供变革性的学习体验。
Coursera上的所有课程都是由知名大学和顶尖公司或者其他学术机构提供的,认可度高。提供了世界上一些呗级大学的学位,例如耶鲁大学,伦敦帝国理工学院和 日内瓦大学。用户可以像完成普通大学一样,修卖完整的学士或硕士学位并获得认证。Coursera通过领先机构的高度合作关系,实现了在线教育领域变革性改变。迄今 为止,Cousera已经吸引了7.6亿亿多名学习者,100多家世界500强公司,包括以及6,400多家学校,企业和政府加入到Coursera。

数据集

Course dataset scrapped from Coursera website. This dataset contains mainly 6 columns and 890 course data. The detailed description:

course_title : Contains the course title.
course_organization : It tells which organization is conducting the courses.
courseCertificatetype : It has details about what are the different certifications available in courses.
course_rating : It has the ratings associated with each course.
course_difficulty : It tells about how difficult or what is the level of the course.
course_students_enrolled : It has the number of students that are enrolled in the course.

课程属性分析

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import scipy.stats as sps
import os
import seaborn as sns
from scipy import stats
import warnings

import os
warnings.filterwarnings('ignore')
df=pd.read_csv("/kaggle/input/coursera-course-dataset/coursea_data.csv")
df=df.drop("Unnamed: 0",axis=1) 
df.describe(include=['object']).T
count unique top freq
course_title 891 888 Developing Your Musicianship 2
course_organization 891 154 University of Pennsylvania 59
course_Certificate_type 891 3 COURSE 582
course_difficulty 891 4 Beginner 487
course_students_enrolled 891 205 120k 22

课程平均分为4.68,课程质量较高,最小值3.3,最大值5.
————————————————–——————————
评分分布

sns.set(rc={
   
   'figure.figsize':(10,10)})
ax = sns.boxenplot( y="course_rating", data=df,
                   showfliers=False,color='orange')
ax = sns.stripplot( y="course_rating", data=df,
                   size=4, color="maroon",alpha=0.2)
ax.axes.set_title("\ncourse Rating Distribution\n",fontsize=30)

在这里插入图片描述

sns.set(rc={
   
   'figure.figsize':(10,5)})
p=sns.distplot(df['course_rating'],color='darkcyan',fit_kws={
   
   "color":"red"},fit=stats.gamma, label="label 1")
p.axes.set_title("\ncourse Rating Distribution\n",fontsize=30)

在这里插入图片描述
难度-评分 联合分布

sns.set(rc={
   
   'figure.figsize':(20,10)})
ax = sns.countplot(hue="course_rating", x="course_difficulty", data=df,palette="mako")
ax.axes.set_title("\nFrequency Distribution based on difficulty\n",fontsize=20)

在这里插入图片描述
高级课程由于数量较少评分起伏不大;初级课程的评分分布与总的评分分布相接近;中级课程的评分峰值不是很高,可能由于学习者积累了一定知识,评分时更加严格。
评分-类型 联合分布

sns.set(rc={
   
   'figure.figsize':(20,10)})
ax = sns.countplot(hue="course_rating", x="course_Certificate_type", data=df,palette="ch:s=-.2,r=.6")
ax.axes.set_title("\nRating distribution per course type\n",fontsize=20)

在这里插入图片描述
评分-类型-难度 联合分布

sns.set(rc={
   
   'figure.figsize':(10,5)})
ax = sns.countplot(hue="course_difficulty", x="course_Certificate_type", data=df,palette="rocket_r")
ax.axes.set_title("\nRating distribution per course type : Combined\n",fontsize=20)

在这里插入图片描述
混合难度的课程分布不稳定,其余分布均比较稳定
证书分布

sns.set(rc={
   
   'figure.figsize':(10,5)})
ax = sns.countplot( x="course_difficulty"
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值