介绍
Coursera
Coursera是全球最大的在线教育平台,拥有超过4000万注册用户,Coursera由美国斯坦福大学两名计算机科学教授达芙妮科勒 (Daphne Koller) 和吴恩达 (Andrew Ng) 于2012年在美国加利福尼亚州创办,其愿景是为世界各地的学习者提供变革性的学习体验。
Coursera上的所有课程都是由知名大学和顶尖公司或者其他学术机构提供的,认可度高。提供了世界上一些呗级大学的学位,例如耶鲁大学,伦敦帝国理工学院和 日内瓦大学。用户可以像完成普通大学一样,修卖完整的学士或硕士学位并获得认证。Coursera通过领先机构的高度合作关系,实现了在线教育领域变革性改变。迄今 为止,Cousera已经吸引了7.6亿亿多名学习者,100多家世界500强公司,包括以及6,400多家学校,企业和政府加入到Coursera。
数据集
Course dataset scrapped from Coursera website. This dataset contains mainly 6 columns and 890 course data. The detailed description:
course_title : Contains the course title.
course_organization : It tells which organization is conducting the courses.
courseCertificatetype : It has details about what are the different certifications available in courses.
course_rating : It has the ratings associated with each course.
course_difficulty : It tells about how difficult or what is the level of the course.
course_students_enrolled : It has the number of students that are enrolled in the course.
课程属性分析
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import scipy.stats as sps
import os
import seaborn as sns
from scipy import stats
import warnings
import os
warnings.filterwarnings('ignore')
df=pd.read_csv("/kaggle/input/coursera-course-dataset/coursea_data.csv")
df=df.drop("Unnamed: 0",axis=1)
df.describe(include=['object']).T
| count | unique | top | freq | |
|---|---|---|---|---|
| course_title | 891 | 888 | Developing Your Musicianship | 2 |
| course_organization | 891 | 154 | University of Pennsylvania | 59 |
| course_Certificate_type | 891 | 3 | COURSE | 582 |
| course_difficulty | 891 | 4 | Beginner | 487 |
| course_students_enrolled | 891 | 205 | 120k | 22 |
课程平均分为4.68,课程质量较高,最小值3.3,最大值5.
————————————————–——————————
评分分布
sns.set(rc={
'figure.figsize':(10,10)})
ax = sns.boxenplot( y="course_rating", data=df,
showfliers=False,color='orange')
ax = sns.stripplot( y="course_rating", data=df,
size=4, color="maroon",alpha=0.2)
ax.axes.set_title("\ncourse Rating Distribution\n",fontsize=30)

sns.set(rc={
'figure.figsize':(10,5)})
p=sns.distplot(df['course_rating'],color='darkcyan',fit_kws={
"color":"red"},fit=stats.gamma, label="label 1")
p.axes.set_title("\ncourse Rating Distribution\n",fontsize=30)

难度-评分 联合分布
sns.set(rc={
'figure.figsize':(20,10)})
ax = sns.countplot(hue="course_rating", x="course_difficulty", data=df,palette="mako")
ax.axes.set_title("\nFrequency Distribution based on difficulty\n",fontsize=20)

高级课程由于数量较少评分起伏不大;初级课程的评分分布与总的评分分布相接近;中级课程的评分峰值不是很高,可能由于学习者积累了一定知识,评分时更加严格。
评分-类型 联合分布
sns.set(rc={
'figure.figsize':(20,10)})
ax = sns.countplot(hue="course_rating", x="course_Certificate_type", data=df,palette="ch:s=-.2,r=.6")
ax.axes.set_title("\nRating distribution per course type\n",fontsize=20)

评分-类型-难度 联合分布
sns.set(rc={
'figure.figsize':(10,5)})
ax = sns.countplot(hue="course_difficulty", x="course_Certificate_type", data=df,palette="rocket_r")
ax.axes.set_title("\nRating distribution per course type : Combined\n",fontsize=20)

混合难度的课程分布不稳定,其余分布均比较稳定
证书分布
sns.set(rc={
'figure.figsize':(10,5)})
ax = sns.countplot( x="course_difficulty"

文章对Coursera平台的课程数据进行了深入分析,包括课程评分分布、难度级别与学生注册情况。数据显示,课程平均评分较高,中级课程评分可能因学习者期望严格而稍低。此外,还探讨了课程难度、评分和证书类型之间的关系,以及课程提供者的评价排名。
最低0.47元/天 解锁文章
4698

被折叠的 条评论
为什么被折叠?



