学生成绩影响因素数据集,学生学业成就与生活方式数据集,145 名学生、33 个属性,整合了个人背景、家庭环境、学习习惯、社交参与及生活方式等33项特征,学业成就背后的复杂动因提供实证基础
旨在全面探究影响学生学业表现的多维度因素。它不仅涵盖学术成绩指标,还整合了个人背景、家庭环境、学习习惯、社交参与及生活方式等33项特征,为理解学业成就背后的复杂动因提供实证基础。
样本数量:145 名学生(每条记录代表一名独立学生)
特征数量:33 个属性(包括分类变量与连续变量)
数据用途:适用于探索性数据分析(EDA)、可视化、预测建模、教育数据挖掘及学生支持系统开发
研究目标:揭示环境、行为与个人因素如何共同作用于学业差异
核心变量类别
1. 人口统计学信息
年龄(Age)
性别(Gender)
高中毕业类型(如普通高中、职业高中等)
奖学金类型(无奖学金、部分资助、全额资助等)
2. 家庭背景
父母教育水平(如高中、本科、研究生等)
父母职业/就业状况(如公务员、私营企业、失业等)
家庭经济支持情况(可隐含在奖学金或父母职业中)
3. 学习行为与习惯
每周学习时长(Weekly study hours)
阅读频率(Reading frequency:从“从不”到“每天”)
是否做笔记(Note-taking habits)
出勤率(Attendance rate 或分类变量)
是否参与翻转课堂(Flipped classroom participation)
是否参加学术研讨会或会议(Seminar/conference attendance)
4. 课外与社交参与
是否参与辩论活动
社团或俱乐部参与情况
志愿服务经历(若包含)
5. 学业成果指标
各科课程成绩(Course grades)
当前累计 GPA(Cumulative GPA,通常 0–4 或 0–100 制)
预测毕业 GPA(Expected GPA at graduation)
学生表现与参与度数据集,包含 300 名学生的学术表现、出勤情况及课程参与指标,适用于聚类分析、探索性数据分析(EDA)和教育技术应用开发
支持教育数据分析、无监督学习和学生行为模式探索。数据集包含 300 名学生的学术表现、出勤情况及课程参与指标,适用于聚类分析、探索性数据分析(EDA)和教育技术应用开发。
文件名:student_performance.csv
格式:CSV(逗号分隔值)
行数:300 行(每行代表一名学生)
列数:16 个特征字段 + 可选标识列
许可协议:CC BY 4.0(可自由使用、分享和改编,需注明来源)
适用场景:无监督学习、教育数据挖掘、教学演示
不适用场景:大规模监督学习模型训练(因样本量较小)
字段说明
列名 类型 描述
student_id int64 学生唯一ID(可用于主键)
name object 学生姓名(建议匿名化处理以保护隐私)
age int64 年龄(岁)
gender object 性别(如 "Male", "Female" 等)
quiz1_marks float64 第一次小测成绩(0–10 分)
quiz2_marks float64 第二次小测成绩(0–10 分)
quiz3_marks float64 第三次小测成绩(0–10 分)
total_assignments int64 布置的作业总数
assignments_submitted float64 已提交的作业数量(当前存在缺失值 NaN)
midterm_marks float64 期中考试成绩(0–30 分)
final_marks float64 期末考试成绩(0–50 分)
previous_gpa float64 上学期GPA(0–4 分制)
total_lectures int64 计划总课时数
lectures_attended int64 实际出席课时数
total_lab_sessions int64 计划实验/实践课次数
labs_attend
全球电动汽车充电站数据集说明,电车充电桩数据集,全球超过 50,000个电动汽车(EV)充电站的详细信息,适用于地理空间分析、基础设施规划、电动车导航应用开发、可用性预测建模以及可持续交通研究
该数据集提供了截至 2025年11月 全球超过 50,000个电动汽车(EV)充电站 的详细信息,数据通过 OpenChargeMap 公共 API 抓取,适用于地理空间分析、基础设施规划、电动车导航应用开发、可用性预测建模以及可持续交通研究。
数据概览
记录总数:约 50,000 条
地理覆盖:全球范围,重点覆盖:
欧洲:法国(FR)、西班牙(ES)、意大利(IT)、比利时(BE)、荷兰(NL)等
北美:美国(US)、加拿大(CA)
新兴市场:阿塞拜疆(AZ)、突尼斯(TN)、塞尔维亚(RS)、亚美尼亚(AM)等
时间基准:所有站点为截至 2025年11月 已添加或更新的数据
数据来源:OpenChargeMap.org(社区贡献、众包数据)
许可协议:CC0(公共领域) — 可自由使用、分享和修改,无法律限制;建议在学术或商业用途中注明数据来源以示尊重。
文件格式:CSV(逗号分隔值)
数据字段说明
字段名 类型/描述
id 充电站唯一标识符(整数)
title 充电站名称(如 "Electra - Wambrechies")
address 街道地址
town 所在城市或镇
state 州/省(部分国家可能为空)
postcode 邮政编码
country 国家代码(ISO 3166-1 alpha-2,如 FR=法国,US=美国)
lat, lon GPS 坐标(WGS84 标准,十进制度)
operator 运营商/充电网络(如 Tesla、Electra、Ionity 等)
status 运营状态(如 "Operational"、"Not Operational"、"Planned" 等)
num_connectors 充电接口数量(整数)
connector_types 支持的插头类型(以竖线 `
date_added 该站点被录入 OpenCh
期货市场趋势跟踪 vs 长期持有策略对比数据集说明,期货市场1999年至2019年的实证研究数据,比较长期买入并持有和趋势跟踪的差异,适用于机器学习,数据分析,量化金融
(长期持有与趋势跟踪策略对比),基于中国期货市场1999年至2019年的实证研究数据,系统比较了“长期买入并持有”(Buy-and-Hold)与“趋势跟踪”(Trend Following)两类投资策略的表现差异。该数据集不仅包含策略收益序列,还整合了市场状态、风险指标和绩效评估参数,适用于量化金融、资产配置和风险管理领域的分析与建模。
核心发现概述
通过对20年期中国期货市场的回测分析,研究得出以下关键结论:
趋势跟踪策略表现优异:采用多时间尺度(multi-scale)融合的趋势跟踪策略实现了16.24%的年化收益率,夏普比率(Sharpe Ratio)达到0.88,显著优于传统的长期持有策略。
长期持有策略局限性明显:在震荡或无趋势市场中,长期持有可能持续亏损或收益低迷,缺乏动态风险控制机制。
趋势跟踪具备抗危机能力:在市场剧烈波动或系统性风险事件期间(如金融危机、政策突变),趋势跟踪策略往往能捕捉到方向性行情,实现正向回报,具备“危机阿尔法”(Crisis Alpha)特征。
策略构成与数据内容
Long Only(长期持有)策略数据
每日/月度持仓回报
累计净值曲线
最大回撤、波动率、年化收益等风险收益指标
基于单一资产或等权组合的被动投资表现
Trend Following(趋势跟踪)策略数据
多时间尺度信号(短期、中期、长期移动平均线交叉)
动态仓位调整记录
进入/退出交易信号时间点
风险平价或波动率控制机制下的杠杆使用情况
净值曲线与回撤周期
市场环境变量
市场趋势强度指标(如ADX)
资产间相关性变化
波动率水平(如GARCH估计)
宏观经济状态(可选)
绩效评估指标
年化收益率
夏普比率、索提诺比率
最大回撤、回撤持续时间
胜率、盈亏比
挑战与局限性
尽管趋势跟踪整体表现优越,但数据也揭示其面临的主要挑战:
阶段性表现不佳:在高相关性、低波动
学生成绩数据集,社会经济因素与学术成就的关系,学生学业表现数据集的基本情况,涵盖的1000名学生的详细信息及其在标准化考试中的成绩,包含如性别、种族/民族、家长教育水平等,适用于数据分析、机器学习
学生学业表现数据集
探索社会经济因素与学术成就的关系
章节一:数据集概述与背景介绍
• 数据集描述:介绍学生学业表现数据集的基本情况,包括涵盖的1000名学生的详细信息及其在标准化考试中的成绩。
• 社会经济背景:讨论数据集中包含的社会经济变量,如性别、种族/民族、家长教育水平等,并解释它们如何可能影响学生的学术表现。
章节二:数据特征分析
• 数值型特征:
数学成绩(Math Score):从0到100的分数,平均约为66分。
阅读成绩(Reading Score):从0到100的分数,平均约为69分。
写作成绩(Writing Score):从0到100的分数,平均约为68分。 • 分类型特征:
性别(Gender):几乎平衡的分布,518名女生和482名男生。
种族/民族(Race/Ethnicity):最大的群体是Group C,其次是Groups B和D。
家长教育水平(Parental Level of Education):多数家长完成了“部分大学”课程。
午餐类型(Lunch Type):大多数学生享有标准午餐。
是否完成备考课程(Test Preparation Course):大部分学生未参加备考课程。
章节三:数据分析与可视化
• 成绩对比分析:通过图表展示不同科目成绩之间的差异,以及与社会经济因素的相关性。
• 相关性研究:探讨性别、种族/民族、家长教育水平等因素与学术表现之间的关系。
• 成绩分布:分析各科成绩的分布情况,识别高分段和低分段的学生比例。
章节四:预测模型构建
• 模型选择:根据数据特性选择合适的预测模型,如线性回归、决策树或随机森林,用于预测学生的学术表现。
• 特征工程:处理分类变量,创建虚拟变量或进行标签编码,以适应模型输入要求。
• 模型评估:使用交叉验证等方法评估模型性能,确保模型具有良好的泛化能力。
• 结果解释:基
健身追踪数据集,贴近真实用户行为的健身活动数据集,共包含200条模拟记录 数据模拟了个人使用智能手环或健身应用时常见的健康与运动指标,适用于数据分析、可视化和机器学习建模
该数据集名为“Fitness Tracker Dataset”,合成生成的、贴近真实用户行为的健身活动数据集,共包含200条模拟记录。数据模拟了个人使用智能手环或健身应用时常见的健康与运动指标,适用于数据分析、可视化和机器学习建模。
数据内容概述
每条记录代表一次健身活动或日常健康监测,涵盖多种常见的运动类型:
步行(Walking)
跑步(Running)
瑜伽(Yoga)
骑行(Cycling)
力量训练(Strength Training)
主要字段说明
User ID:用户唯一标识符,用于区分不同用户的活动记录。
Date:活动发生的日期(格式:YYYY-MM-DD)。
Activity Type:活动类型,分类变量,如 Walking、Running 等。
Duration (minutes):单次活动持续时间,单位为分钟。
Calories Burned:本次活动中消耗的卡路里数(单位:千卡),是核心健康指标之一。
Heart Rate (bpm):平均心率(单位:每分钟心跳次数),反映运动强度。
Steps:步数,主要针对步行和跑步活动。
Sleep Hours:前一晚的睡眠时长(单位:小时),用于分析恢复状态与运动表现的关系。
Weight (kg):记录时的体重(单位:千克),可用于长期健康趋势分析。
Age 和 Gender:用户的人口统计学信息,支持个性化分析。
数据特点
数据为合成生成,但遵循真实人体生理规律(如高强度运动对应更高心率和卡路里消耗)。
包含连续型与分类型变量,适合多维度分析。
无缺失值,结构清晰,可直接用于建模。
时间跨度合理,可用于趋势分析(如体重变化与运动频率的关系)。
F1未完赛(DNF)分类数据集,整合了七十余年的一级方程式历史赛事数据,包括每场比赛中每位车手的最终状态(完成、DNF、DSQ等)、排名、完赛圈数等,适用于数据分析、机器学习
深入分析一级方程式(Formula 1)赛车运动中“未完赛”(Did Not Finish, DNF)现象。虽然公众通常关注冠军归属,但研究为何车手未能完成比赛对于理解赛车可靠性、性能稳定性以及赛事风险因素至关重要。
什么是DNF?
在F1比赛中,“DNF”指车手因故未能完成比赛。常见原因包括:
机械故障(如引擎失效、变速箱问题)
赛道事故(碰撞、失控冲出赛道)
天气或安全原因导致的退赛
车队策略或技术违规被取消资格(Disqualification)
驾驶员身体不适或其他外部因素
数据内容概述
本数据集整合了跨越七十余年的一级方程式历史赛事数据,经过专门整理和结构化处理,适用于构建预测模型以判断某次参赛是否会导致DNF。主要包含以下维度的信息:
比赛结果数据
包括每场比赛中每位车手的最终状态(完成、DNF、DSQ等)、排名、完赛圈数等。
车手表现指标
如车手年龄、职业生涯参赛次数、历史完赛率、排位赛成绩、最快圈速记录等。
车队(Constructor)可靠性数据
不同制造商的历史故障率、技术稳定性评分、动力单元类型与使用周期等。
赛道特征
赛道名称、国家、长度、弯道数量、平均速度、天气条件(干地/雨地)、是否为街道赛道等。
赛事环境变量
比赛年份、赛季阶段(早期/中期/末期)、安全车出动次数、红旗中断情况等。
退赛原因编码(Status字段)
对原始文本状态(如“Engine failure”, “Collision”, “Accident”)进行标准化分类,便于建模分析。
目标变量(Target Variable)
dnf:二元分类标签,表示该次参赛是否以DNF告终。
0:成功完赛(Finished)
1:未完赛(DNF)
可口可乐公司股票数据集,包含日期、股票代码、公司名称、开盘价、最高价、最低价、收盘价和成交量,适用于数据分析、机器学习
可口可乐公司股票数据集
数据字典
Date(日期):交易日的日期,格式为YYYY-MM-DD。
ticker(股票代码):可口可乐公司在纽约证券交易所(NYSE)的标准股票代码:'KO'。
name(公司名称):公司全称:'The Coca-Cola Company'(可口可乐公司)。
Open(开盘价):交易日开始时的股票价格(美元)。
High(最高价):交易日内达到的最高价格(美元)。
Low(最低价):交易日内记录的最低价格(美元)。
Close(收盘价):交易日收盘时的最终股票价格(美元)。
Volume(成交量):当天交易的股票总数量。
鸢尾花生长与结构数据集,共包含150个样本,每个样本代表一朵鸢尾花的观测记录,适用于数据分析、机器学习
“鸢尾花生长与结构数据集”(Iris Growth and Structure Dataset),是数据科学和机器学习领域中最经典和广泛使用的公开数据集之一。它由统计学家和生物学家罗纳德·费舍尔(Ronald Fisher)于1936年首次引入,用于展示线性判别分析方法。
数据内容概述
该数据集共包含150个样本,每个样本代表一朵鸢尾花的观测记录,均匀分布于三个不同的物种:
Iris setosa(山鸢尾)
Iris versicolor(杂色鸢尾)
Iris virginica(维吉尼亚鸢尾)
每个样本通过四个数值型特征进行描述,这些特征反映了花朵的物理尺寸,单位均为厘米(cm):
Sepal Length (cm):萼片长度,即花瓣外层保护结构的长度。
Sepal Width (cm):萼片宽度,即萼片最宽处的测量值。
Petal Length (cm):花瓣长度,从花瓣基部到顶端的距离。
Petal Width (cm):花瓣宽度,即花瓣最宽部分的测量值。
此外,每条记录还包含一个分类标签:
Species:鸢尾花的具体种类,为三类之一:setosa、versicolor 或 virginica。
数据特点
样本数量:150条(每类50条)
特征数量:4个连续型数值特征
分类任务类型:多类别分类(三分类)
数据完整性:无缺失值,结构清晰
云服务碳排放数据集,包含云资源使用情况与相应碳排放之间的关系,适用于数据分析,机器学习
本数据集包含多个相互关联的表,共同构成一个多维分析模型:
projects
包含项目或团队的元数据信息。
字段示例:project_id、project_name、team、department、region(部署区域)等。
用途:用于按组织单元划分资源使用和排放责任。
services
定义云服务类型的元数据。
字段示例:service_id、service_name(如 Compute Engine、Cloud Storage、AI Platform)、category(计算、存储、网络、AI/ML)等。
用途:支持按服务类型进行资源消耗分析。
emission_factors
记录不同地区电网的碳排放强度。
字段示例:region、grid_carbon_intensity_gco2_per_kwh(每千瓦时产生的二氧化碳克数)。
说明:该表反映各地能源结构差异,例如煤炭为主的地区排放因子高,可再生能源丰富的地区排放因子低。
service_energy_coefficients
定义各类云服务单位使用量对应的能耗转换系数。
字段示例:service_id、unit_type(如 vCPU-hour、GB-month)、energy_per_unit_kwh(每单位使用量消耗的电量)。
用途:将原始使用量转换为实际能耗(kWh)。
daily_usage
核心事实表之一,记录每日各项目在各服务和区域的资源使用量。
字段包括:date、project_id、service_id、region、usage_quantity(使用量)、unit_type。
时间范围:模拟多年日粒度数据,包含季节性模式(如周末下降、节假日上升、季度末增长)。
daily_emissions
谷歌搜索趋势数据集,搜索引擎每日搜索趋势数据集,包含搜索时间,搜索量增长率,主题类别,关键词
数据内容
每条记录代表一个在特定日期成为趋势的搜索主题,主要字段包括:
active 布尔值(Boolean) 表示该趋势是否当前仍处于活跃状态。True 表示仍在上升或维持热度;False 表示已过期或不再流行。
# search_vol... 整数(Integer) 搜索量估计值,表示该主题在指定时间范围内的相对搜索频率。数值越大,代表关注度越高。例如:500 表示中等偏高的搜索兴趣。
# increase_p... 整数(Integer) 搜索量增长率百分比,表示与前一周期相比的增长幅度。例如:75 表示搜索量增加了75%。用于衡量趋势的上升速度。
categories 字符串(String) 该趋势所属的主题类别,如 Politics(政治)、Entertainment(娱乐)、Technology(科技)等。帮助对趋势进行分类分析。
trend_break... 字符串(String) 关键词或事件标签,表示触发该趋势的主要原因或相关事件。例如:aol_login 可能指向某个登录问题或服务故障相关的搜索高峰。
数据特点
时间跨度:从2025年9月19日至今,每日更新
地理范围:美国(United States)
数据频率:每日
数据格式:CSV
数据状态:保留原始特征,可能存在文本不一致、缺失描述或格式差异等问题
应用场景
该数据集适用于多种分析和研究目的:
内容创作者可识别当前公众关注的话题,用于选题策划或内容优化。
数据分析师可构建时间序列图表,观察搜索兴趣的演变趋势。
学生和学习者可用于练习SQL查询、数据清洗、可视化仪表板构建和预测建模。
研究人员可分析社会事件、文化现象、政治动态或公共卫生议题在公众搜索行为中的体现。
可结合外部事件数据(如新闻、体育赛事、节日)进行相关性分析。
心理健康与社交媒体平衡数据集,研究社交媒体使用习惯与个体心理状态之间的关联,包含多个与个人日常行为及心理健康相关的变量,适用于回归分析、相关性研究以及心理健康状态的预测建模
“心理健康与社交媒体平衡数据集”(Mental Health & Social Media Balance Dataset),旨在研究社交媒体使用习惯与个体心理状态之间的关联。通过采集多项行为与健康指标,该数据集可用于分析数字生活方式对情绪、压力和整体幸福感的影响。
数据内容概述
本数据集包含多个与个人日常行为及心理健康相关的变量,适用于回归分析、相关性研究以及心理健康状态的预测建模。
主要字段说明
Screen Time (hours/day):每日在社交媒体平台上的屏幕使用时间(单位:小时)。反映用户的线上活跃程度,是分析数字过载的核心变量。
Stress Level (1–10):自我评估的压力水平,采用1至10的评分量表,1表示无压力,10表示极度压力。用于衡量心理负担程度。
Sleep Quality (1–10):睡眠质量评分,1表示极差,10表示极佳。低分可能与晚间使用设备或焦虑有关。
Digital Detox Days (per month):每月进行“数字排毒”的天数,即主动不使用社交媒体或电子设备的天数。体现用户对数字生活的自我调节能力。
Happiness Index (1–100):幸福感指数,范围为1到100,数值越高表示主观幸福感越强。作为心理健康的重要正向指标。
Age:参与者年龄,用于分析不同年龄段对社交媒体依赖及心理反应的差异。
Gender:性别信息(如男、女、其他),可用于分组比较分析。
Physical Activity (days/week):每周进行中等强度以上体育锻炼的天数,已知与心理健康呈正相关。
Social Interactions (in-person, per week):每周面对面社交互动的次数,用于对比线上与线下社交对心理的影响。
Online Harassment (Yes/No or Frequenc
全球地震-海啸风险评估数据集,海啸风险预测数据,包含各种与海啸相关的属性,782次显著地震事件,2001至2022年,适用于数据分析、机器学习
记录总数:782次显著地震事件
时间范围:2001年1月1日至2022年12月31日(共22年)
地理覆盖:全球范围
纬度:-61.85° 至 71.63°
经度:-179.97° 至 179.66°
文件格式:CSV
文件大小:约41KB
缺失值:无(数据完整率为100%)
目标变量:海啸发生潜力(二分类标签)
海啸事件分布
非海啸事件:478条记录(占61.1%)
具有海啸潜力的事件:304条记录(占38.9%)
数据集类别分布相对均衡,适用于二分类模型训练与评估。
地震震级分布
震级范围:6.5至9.1级(里氏震级)
平均震级:6.94
8.0级及以上强震:28次,包括2004年印度洋9.1级地震和2011年日本东北9.1级地震等重大事件。
字段说明
字段名 类型 描述 取值范围 与海啸的相关性
magnitude 浮点数 地震震级(里氏震级) 6.5 - 9.1 高 — 震级是海啸发生的主要预测因子
cdi 整数 社区震感强度指数(Community Decimal Intensity) 0 - 9 中 — 反映人口密集区的震感程度
mmi 整数 修正麦加利地震烈度(Modified Mercalli Intensity) 1 - 9 中 — 表示结构破坏程度
sig 整数 地震事件显著性评分 650 - 2910 高 — 综合灾害评估指标
nst 整数 参与记录的地震监测站数量 0 - 934 低 — 反映数据采集质量
dmin 浮点数 到最近地震台站的距离(角度单位) 0.0 - 17.7 低 — 影响震中定位精度
gap 浮点数 台站间的方位角间隙(用于定位可靠性) 0.0 - 239.0 低 — 数值越小,定位越可靠
depth 浮点数 震源深度(单位:公里) 2.7 - 670.8 高 — 浅源地震更易引发海啸
latitude 浮点数 震中纬度(W
医院床位管理数据集,包含医院的日常运营情况,记录住院患者的基本信息和就诊情况,适用于医院资源优化、运营效率分析、床位管理策略研究
一家中等规模医院的日常运营情况,重点关注人员配置、患者收治和床位分配等核心管理环节。数据设计贴近真实医疗环境,适用于医院资源优化、运营效率分析、床位管理策略研究及医疗信息系统开发。
数据集由四个独立的CSV文件组成,各文件内容如下:
hospital_staff.csv
包含医院全体工作人员的基本信息,用于人员管理与资源配置分析。
字段包括:
Staff ID:员工唯一标识符
Name:姓名
Role:职务或岗位(如医生、护士、护工、行政人员等)
Department:所属科室(如内科、外科、急诊科、重症监护室等)
Shift:轮班类型(如早班、中班、夜班)
Experience Level:工作经验等级
Contact Information:联系方式(可选)
hospital_patients.csv
记录住院患者的基本信息和就诊情况,支持患者流量与服务需求分析。
字段包括:
Patient ID:患者唯一标识符
Name:姓名
Age:年龄
Gender:性别
Admission Date:入院日期
Discharge Date:出院日期(若为空表示仍在住院)
Diagnosis:主要诊断或疾病类别
Assigned Bed:分配的床位编号
Ward:所在病区
Attending Doctor:主管医生
Status:当前状态(如住院、已出院、转科等)
hospital_service_weekly.csv
按周汇总各科室的服务运营数据,用于分析服务级别绩效与资源使用情况。
字段包括:
Week:统计周(如2024年第1周)
Department:科室名称
Total Admissions:当周收治患者总数
Total Discharges:当周出院患者总数
Average Length of Stay:平均住院天数
Bed Occupancy Rate (%):
健康生活方式数据集,包含个人健康、健身、饮食和身体特征等多个维度,适用于数据分析、健康与生活方式关系研究、机器学习
一、人口统计与身体特征
Age:参与者年龄,单位为岁。
Gender:生物性别,取值为 Male 或 Female。
Weight (kg):体重,单位为千克。
Height (m):身高,单位为米。
BMI:身体质量指数,计算公式为体重(kg)除以身高(m)的平方,用于评估体重是否在健康范围内。
Fat_Percentage:体脂百分比,反映身体脂肪含量。
二、健身与运动表现
Workout_Type:锻炼类型,如力量训练(Strength)、高强度间歇训练(HIIT)、有氧运动(Cardio)等。
Max_BPM:锻炼期间记录的最高心率。
Avg_BPM:锻炼期间的平均心率。
Resting_BPM:锻炼前的静息心率。
Session_Duration (hours):单次锻炼持续时间,单位为小时。
Calories_Burned:本次锻炼消耗的总热量。
Experience_Level:健身经验水平,1=初学者,2=中级,3=高级。
Workout_Frequency (days/week):每周锻炼天数。
Physical exercise:描述个体的体力活动类型或频率。
Name of Exercise:具体运动名称,如深蹲、卧推等。
Sets:完成的组数。
Reps:每组的重复次数。
Burns Calories (per 30 min):该运动每30分钟预估消耗的热量。
Target Muscle Group:主要锻炼的肌肉群。
Equipment Needed:所需器材,如哑铃、杠铃、自重等。
Difficulty Level:运动难度等级,分为初学者、中级、高级。
Body Part:主要涉及的身体部位,如手臂、腿部、胸部等。
Type of Muscle:肌肉类型,如上肢、核心、握力等。
Benefit:该运动对身体的益处,如增强力量、提高耐力等。
2024年世界各国的人口统计信息,包含国家、青年、老年占比、人口密度、总人口,适用于人口研究、政策制定、社会经济分析、以及数据可视化项目
字段:
Country:国家或地区名称,作为主键标识每个记录。
Population Aged 0 to 14 (%):0至14岁人口占总人口的百分比。该指标反映国家的年轻人口比例,通常与生育率和教育需求密切相关。比例较高的国家多为发展中国家,人口结构较年轻。
Population Aged 60 and Over (%):60岁及以上人口占总人口的百分比。该指标用于衡量人口老龄化程度。比例较高的国家(如日本、意大利)面临养老、医疗和劳动力短缺等社会挑战。
Population density:人口密度,单位为每平方公里的人数。计算方式为总人口除以陆地面积。该指标反映人口的空间分布密集程度,可用于分析资源压力、城市化水平和生态环境影响。
Population (in millions):总人口,以百万为单位。例如,1380表示13.8亿人。该数值为估算或统计值,反映国家的总体人口规模。
Female Population (in millions):女性人口数量,以百万为单位。结合总人口可计算女性占比,用于性别结构分析。
Male Population (in millions):男性人口数量,以百万为单位。与女性人口共同构成总人口,用于分析性别分布。
Sex ratio (males per 100 females):性别比,定义为每100名女性对应的男性数量。比值为100表示男女均衡;高于100表示男性多于女性,可能受出生性别比、移民或寿命差异影响;低于100则表示女性多于男性,常见于老龄化社会。
印度铁路网络数据集,包含火车名称、路线、运行日、车站、到达时间、行驶公里,适用于数据分析、机器学习
数据结构详解
顶层字段(每列火车一条记录)
trainNumber:唯一5位数字编号,例如12002。
trainName:列车官方名称,例如Shatabdi Express。
route:路线摘要,例如New Delhi → Mumbai Central。
runningDays:每周运行日,以布尔值字典形式表示,包含周一至周日的运行状态。
核心:trainRoute 数组(每站一个对象)
trainRoute 是数据集的核心,详细记录列车沿途每个停靠站的信息。
stationName:车站全名及车站代码,例如New Delhi (NDLS)。
arrives:到达时间,采用24小时制(HH:MM),始发站通常为“--”。
departs:发车时间,采用24小时制(HH:MM),终点站通常为“--”。
distance:从始发站起累计行驶距离,单位为公里。
day:行程第几天,例如 day: 1 表示第一天,day: 2 表示次日。
核心价值与应用场景
铁路网络可视化地图
利用 stationName 和 distance 字段,可构建覆盖全印度的铁路线路图。结合地理编码工具,可在地图上绘制站点位置与连接路径,展示线路密度与覆盖范围。
性能与效率分析
通过计算相邻站点间的距离与时间差,可分析列车的平均运行速度。同时,可统计各站点的停靠时长(departs - arrives),识别运行瓶颈或调度优化空间。
识别关键枢纽站(Connectivity Hubs)
统计每个车站出现在 trainRoute 中的频次,可识别出全网中最关键的交通枢纽。典型枢纽包括 New Delhi (NDLS)、Mumbai Central (BCT)、Howrah (HWH) 和 Chennai Central (MAS)。
智能行程规划算法
基于该数
咖啡销售数据集,3,547笔交易,包含交易日期、购买时间、星期、咖啡种类等,适用于数据分析、机器学习
字段名 类型 描述
Date date 交易日期(YYYY-MM-DD)
Time timestamp 精确购买时间(HH:MM:SS)
Hour_of_day int 购买小时(6–22,即 6 AM – 10 PM)
Time_of_Day category 时间段分类:Morning(6–11)、Afternoon(12–17)、Evening(18–22)
Weekday / Weekdaysort string / int 星期几(Mon–Sun),可排序
Month_name / Monthsort string / int 月份(Jan–Dec),可排序
Coffee_name string 咖啡种类(如 Latte, Americano, Cappuccino 等)
Money float 交易金额(单位:货币,范围 18.12 – 38.70)
Cash_type string 支付方式(全部为 Card,即刷卡支付)
指标 结果
最畅销咖啡 Americano with Milk
平均单笔消费 ~31.6 货币单位
最高销售时段 下午(Afternoon)
最繁忙星期 周二(Tuesday)
价格区间 18.12 – 38.70
每日营业时间 6:00 AM – 10:00 PM(共16小时)
企鹅物种数据集,包含企鹅种类,岛屿,嘴宽度长度,翅膀长度,体重,性别,使用于数据分析、机器学习
来源:由 Palmer Station, Antarctica 研究站长期生态监测项目收集
记录数:344 行
字段数:9 列
用途:广泛用于数据分析、数据可视化、机器学习分类任务(尤其是物种分类)
特点:小而干净,适合教学与实战,常作为 iris 数据集的现代替代品。
二、字段说明(Columns)
字段名 类型 描述 示例值
Unnamed: 0 int 自动生成的行索引(可删除或设为索引) 0, 1, ..., 343
Species string 企鹅种类(目标变量) Adelie, Chinstrap, Gentoo
Island string 观测岛屿(栖息地) Torgersen, Biscoe, Dream
Bill Length (mm) float 喙(嘴)长度(毫米) 39.1, 45.7
Bill Depth (mm) float 喙(嘴)深度(高度,毫米) 18.7, 16.4
Flipper Length (mm) float 鳍肢(翅膀)长度(毫米) 181.0, 195.0
Body Mass (g) int 身体质量(体重,克) 3750, 5200
Sex string 性别 MALE, FEMALE
Year int 观测年份 2007, 2008, 2009
三、三种企鹅物种简介
物种 学名 分布岛屿 特征
Adelie Pygoscelis adeliae Torgersen, Dream, Biscoe 体型较小,喙短而粗,适应极寒
Chinstrap Pygoscelis antarcticus Dream, Torgersen 喙较短,下巴有黑色条纹
Gentoo Pygoscelis papua Biscoe 体型最大,喙长,鳍肢最长,橙色喙
不同语言(英语与汉语)中,不同语言表述逻辑区别数据集,语言线索来判断话语行为数据集,心理语言学、认知科学、跨语言理解数据集
研究领域:心理语言学、认知科学、跨语言理解
核心问题:
在像汉语这样的语言中,由于疑问句和陈述句在句法和语调上直到句子末尾才可区分(wh-in-situ 现象),听者是否仍能快速判断对方是在提问还是陈述?这种延迟是否影响了“视角理解”(perspective-taking)的效率?
对比语言:英语(早期线索丰富) vs 汉语(晚期消歧)
数据来源:实验室控制的心理语言学实验(如眼动追踪、反应时间测量、EEG/ERP)
采集方式:通过呈现结构相似但结尾不同的汉语句子(如“她在穿什么?” vs “她在穿鞋子。”),记录被试的反应时间、注视点、脑电波等。
全球灾害事件与应急响应效能分析数据集,2018 年至 2024 年间全球报告的 50,000 起灾害事件,涵盖自然灾害(如地震、洪水、飓风)与部分人为/技术性灾难,适用于数据分析、机器学习
记录了 2018 年至 2024 年间全球报告的 50,000 起灾害事件,涵盖自然灾害(如地震、洪水、飓风)与部分人为/技术性灾难。每条记录不仅描述灾害本身,还包含人道主义响应的关键绩效指标,如援助金额、响应速度和效率评分。
时间跨度:2018 – 2024(含近年极端气候事件)
记录数量:50,000 条独立灾害事件
字段数量:12 列(结构化表格数据)
核心价值:
揭示“灾害强度”与“响应效能”之间的关联
支持跨国/跨区域应急能力对比
为政策制定者提供数据驱动的防灾减灾依据
外卖配送路径优化数据集,专为学习和实践物流路径优化、配送效率分析、运筹学建模与实时调度算法而设计
高度仿真的合成外卖配送数据,专为学习和实践物流路径优化、配送效率分析、运筹学建模与实时调度算法而设计。虽然数据为程序生成,但其结构、分布和业务逻辑紧密贴合真实外卖平台(如 Uber Eats、DoorDash、美团、饿了么)的运营场景。
核心目标:提升配送效率 → 缩短送达时间、降低骑手空驶率、提高订单履约率
适用人群:
运筹学/物流专业学生
数据科学家(路径优化方向)
算法工程师(LBS、调度系统)
机器学习研究者(强化学习用于动态派单)
蝙蝠物种多样性、栖息地与疾病易感性综合数据集,整合了物种分类、栖息偏好、生理适应机制及疾病关联等多维度信息 数据涵盖两大主要类群-小蝙蝠亚目与大蝙蝠亚目,支持生物多样性研究、数据分析
聚焦全球蝙蝠(Chiroptera)的生物学特性与生态行为,整合了物种分类、栖息偏好、生理适应机制及疾病关联等多维度信息。数据涵盖两大主要类群——小蝙蝠亚目(Microchiroptera) 与 大蝙蝠亚目(Megachiroptera),旨在支持生物多样性研究、人畜共患病监测、保护生物学及进化医学等领域。
核心价值:连接生态学、免疫学与流行病学
适用方向:
物种分布建模
疾病宿主动态分析
长寿与抗病毒机制研究
保护优先区识别
全链路电商行为数据集,精准模拟真实电商平台中的用户行为、交易流程、产品互动与季节性趋势,适用于销售预测与库存规划,数据分析
合成但高度逼真的电商零售数据集,精准模拟真实电商平台中的用户行为、交易流程、产品互动与季节性趋势。
核心价值:无隐私风险 + 完整用户旅程 + 多表关联结构
适用场景:
推荐系统开发
用户分群(RFM/聚类)
销售预测与库存规划
转化漏斗分析
SQL/Python 数据工程练习
A/B 测试仿真
安全合规:所有姓名、邮箱、评论均为 Faker 生成,不含任何真实个人信息。
文件结构与规模
文件 行数 描述
users.csv ~10,000 用户画像:性别、城市、注册时间等
products.csv ~2,000 商品目录:类别、价格、平均评分
orders.csv ~20,000 订单主表:状态(完成/取消/退货)、总金额
order_items.csv ~60,000 订单明细:每单含多商品(支持购物车场景)
reviews.csv ~15,000 用户评论:1–5 星评分 + 合成文本
events.csv ~80,000 用户行为日志:浏览 → 加购 → 收藏 → 购买
所有表通过 user_id / product_id / order_id 关联,构成完整“用户-行为-交易”闭环。
详细字段说明
1. 用户表 (users.csv)
字段 类型 示例
user_id int 1001
name string "Emma Johnson"
email string "emma.johnson83@example.com"
gender string "Female" / "Male" / "Other"
city string "Chicago", "Austin"
signup_date date "2023-05-12"
2. 商品表 (products
学生学业表现数据集,学生成绩影响因素数据集,数学、阅读和写作中的学业表现,以及详细背景信息,如性别、种族/民族、父母教育水平、午餐类型和考试准备情况,适用于数据分析、机器学习
该数据集涵盖了学生在三大主要科目——数学(Math)、阅读(Reading)和写作(Writing)中的学业表现,以及详细背景信息,如性别、种族/民族、父母教育水平、午餐类型和考试准备情况。通过这个数据集,可以探索社会、经济及教育因素如何影响学生的学业成绩,并为教育领域的预测性机器学习模型提供坚实的基础。
记录数:未明确提及,但通常这类公开数据集包含数百至数千条记录
特征数量:8 个核心字段(含目标变量)
应用场景:
教育公平研究
成绩预测与干预策略制定
影响学生成绩的关键因素分析
学生群体划分与个性化支持
字段描述
字段名 类型 描述
gender 分类 学生的性别(如 "male", "female")
race/ethnicity 分类 学生所属的人口统计组/类别(如 "group A", "group B" 等)
parental level of education 分类 学生父母的最高教育水平(如 "bachelor's degree", "some college" 等)
lunch 分类 学生接受的午餐类型(如 "standard", "free/reduced")
test preparation course 分类 学生是否完成了考试准备课程(如 "completed", "none")
math score 数值 数学科目的分数(如 75, 92)
reading score 数值 阅读科目的分数
writing score 数值 写作科目的分数
面向AI医疗研究的合成病历数据集,3,000 名患者数据,包含11 项症状、 5 项生命体征、5 项检查、疾病诊断,适用于机器学习训练,数据分析
包含 3,000 条完全人工生成的患者记录,模拟真实临床场景中的症状、体征、实验室检查与诊断结果。所有数据均为合成生成(synthetic),不包含任何真实患者信息,符合 HIPAA/GDPR 等隐私规范,可安全用于公开研究、教学和模型开发。
记录数:3,000 名“虚拟患者”
目标变量:disease diagnosis(疾病诊断类别)
特征总数:24 个(11 症状 + 5 体征 + 5 检验 + 3 人口统计)
数据性质:结构化表格数据(CSV/Parquet)
核心优势:
逻辑一致性:症状与诊断之间存在医学合理性(如肺炎常伴发热、咳嗽)
字段结构
人口统计学
症状(Symptoms)— 共 11 项
生命体征(Vital Signs)— 共 5 项
实验室检查(Lab Results)— 共 5 项
目标变量:疾病诊断(Target)
特斯拉Tesla历史股价数据集 (2010–2015),包含开盘价、最高成交价、最低成交价、收盘价、成交量,适用于数据分析、机器学习
特斯拉公司(Tesla Inc., 股票代码:TSLA)自 2010 年首次公开募股(IPO)起至 2015 年底的每日股票交易数据,完整覆盖其从一家新兴电动车初创企业迈向主流汽车制造商的关键成长阶段。
时间范围:2010 年 6 月(IPO 日) – 2015 年 12 月 31 日
数据频率:日度(Daily)
核心用途:金融时间序列分析、波动性研究、机器学习预测、投资策略回测、可视化叙事
历史背景:此期间特斯拉发布了 Model S(2012)、启动 Model X 开发,并开始建设 Gigafactory(2014)
字段说明
字段 类型 描述
Date date 交易日期(格式如 2010-06-29)
Open float 当日开盘价(美元)
High float 当日最高成交价
Low float 当日最低成交价
Close float 当日收盘价(未复权)
Adj Close float 复权收盘价 — 已根据股票拆分和股息调整,适用于长期收益计算
Volume int 当日成交量(交易股数)
地震与海啸预测数据集(2025),全球范围内 782 次地震事件的详细参数,包含地震震级、烈度、地理位置、发生时间、震源深度,旨在支持海啸发生预测、地震风险评估与灾害模式挖掘
全球范围内 782 次地震事件的详细参数,旨在支持海啸发生预测、地震风险评估与灾害模式挖掘。所有字段均为数值型,无缺失值,结构清晰,特别适合用于二分类建模(是否引发海啸) 和地理空间分析。
记录数:782 条地震事件
特征数:13 个数值型变量(5 个整型 int64,8 个浮点型 float64)
目标变量:tsunami(二元标签:1 = 引发海啸,0 = 未引发)
时间范围:包含 Year 和 Month,可进行时间趋势分析
数据质量:无缺失值,坐标范围合理,可直接用于建模
字段详解
字段名 类型 描述
magnitude float64 地震震级(里氏或矩震级,通常 ≥ 4.0)
cdi float64 社区感知烈度(Community Determined Intensity),基于公众报告
mmi float64 修正麦加利烈度(Modified Mercalli Intensity),衡量地面震动强度(I–XII 级)
sig int64 显著性评分(Significance),综合震级、伤亡、媒体报道等的综合影响指数
nst int64 用于定位的地震台站数量(越多越精准)
dmin float64 震中到最近台站的最小距离(单位:度)
gap float64 方位角间隙(Azimuthal gap),反映台站覆盖均匀性(越小越好,理想 < 90°)
depth float64 震源深度(公里),浅源地震(<70 km)更易引发海啸
latitude float64 震中纬度(-90 到 +90)
longitude float64 震中经度(-180 到 +180)
Year int64 发生年份(如 2004, 2011, 2023 等)
Month int64 发生月份(1–12)
tsunami int64 目标变量:1 = 引发
葡萄酒数据集,意大利同一产区的三种不同葡萄品种的化学成分分析,通过13 种理化指标 来区分葡萄酒的品种来源,适用于数据分析、机器学习
意大利同一产区的三种不同葡萄品种(cultivars)所酿制的葡萄酒 的化学成分分析,由 Forina 等人在 1980 年代收集。其核心目标是通过 13 种理化指标 来区分葡萄酒的品种来源。
记录数:178 个样本
类别数:3 类(对应 3 种葡萄品种)
特征数:13 个连续型化学变量
数据质量:无缺失值、无异常标签,高度结构化
经典用途:监督分类任务(尤其是多类分类)的教学与算法验证
被广泛用于 Scikit-learn、TensorFlow、PyTorch 等框架的入门示例(sklearn.datasets.load_wine())
字段说明(13 个化学特征 + 1 个类别标签)
特征名称 描述 单位/说明
Alcohol 酒精含量 % by volume
Malic_acid 苹果酸 g/L
Ash 灰分 —
Alcalinity_of_ash 灰分碱度 meq/L
Magnesium 镁 mg/L
Total_phenols 总酚类物质 —
Flavanoids 黄酮类化合物 —
Nonflavanoid_phenols 非黄酮酚类 —
Proanthocyanins 原花青素 —
Color_intensity 颜色强度 —
Hue 色调 —
OD280/OD315_of_diluted_wines 稀释酒在 280nm/315nm 处的光密度比 蛋白质含量代理指标
Proline 脯氨酸 mg/L
学校表现分析数据集,学生考试的表现,整合了关键的人口统计学与教育背景信息,成绩和家庭背景、经济状况、学习准备等因素的关联,适用于数据分析、机器学习
记录了学生在标准化考试中的表现,并整合了关键的人口统计学与教育背景信息,旨在揭示 家庭背景、经济状况、学习准备等因素与学业成果之间的关联。数据结构简洁、字段清晰,是教育数据分析、公平性研究和机器学习入门项目的理想资源。
核心目标:理解影响学业成绩的社会决定因素,识别潜在干预点
适用对象:教育研究者、数据科学初学者、政策分析师、教师
典型用途:探索性数据分析(EDA)、可视化、成绩预测、教育公平评估
数据字段详解
根据描述,数据集通常包含以下变量(以常见版本为例):
字段名 类型 说明
gender 分类(categorical) 性别:male / female
race/ethnicity 分类 种族/族裔分组(如 group A, B, C, D, E)
parental_level_of_education 分类 父母最高学历:
• high school
• some college
• associate's degree
• bachelor's degree
• master's degree
lunch 分类 午餐类型(作为社会经济地位代理):
• standard(标准付费餐)
• free/reduced(免费或补贴餐)
test_preparation_course 分类 是否完成备考课程:
• none
• completed
math_score 数值(0–100) 数学考试得分
reading_score 数值(0–100) 阅读考试得分
writing_score 数值(0–100) 写作考试得分
各职位薪资洞察数据集,全球各行业职场人士的真实薪资信息,包含工作年限、工作地点、工作类型、公司规模、学历、技能等,适用于求职者、HR、数据分析师
汇总了全球或特定地区(如美国、欧洲等)各行业职场人士的真实薪资信息,旨在揭示薪酬在不同维度下的分布规律。数据结构清晰、字段丰富,适用于职业规划、市场调研、数据可视化及薪酬预测建模。
时间范围:2024 年(全年或截至某季度)
记录数量:未明确,但描述为“详细且结构化”,适合中等规模分析
核心价值:打破薪资黑箱,支持基于数据的职业决策
适用人群:求职者、HR、数据分析师、高校学生、职业顾问
核心字段说明
根据描述,数据集包含以下关键属性(具体列名可能略有差异):
字段 类型 描述
job_title string 职位名称(如 "Data Scientist", "Software Engineer", "Marketing Manager")
salary float / int 年薪(单位通常为美元、欧元等,需确认)
years_of_experience int 工作年限(如 0–50 年)
employment_type string 雇佣类型:
• Full-time
• Part-time
• Contract
• Freelance
• Internship
location string 工作地点(如 "San Francisco, USA", "Berlin, Germany", "Remote")
company_size string 公司规模(可选):
• Small (<50)
• Medium (50–500)
• Large (>500)
education_level string 最高学历(可选):
• Bachelor’s
• Master’s
• PhD
• High School
skills string / list 关键技能(如 "Python, SQL, Machine Learning")
特斯拉Tesla全球交付与生产数据集(2015–2025),全球车辆生产、交付、定价、交付量、库存,涵盖车型(Model S/3/X/Y、Cybertruck等),2,640 行数据,适用于数据分析
记录了 特斯拉(Tesla, Inc.)在 2015 年至 2025 年间的全球车辆生产、交付、定价及环境影响表现,涵盖其主力车型(Model S/3/X/Y、Cybertruck、Roadster 等)在不同区域市场的动态。作为电动汽车行业的标杆企业,特斯拉的数据对研究新能源汽车增长、制造效率、区域市场策略和碳减排贡献具有极高价值。
时间跨度:2015 Q1 – 2025 Q4(季度粒度,共约 44 个季度)
记录数量:2,640 行(暗示可能包含 车型 × 地区 × 季度 的多维交叉)
地理覆盖:全球主要市场(如美国、中国、欧洲、亚太等)
核心用途:趋势预测、车型对比、产能规划分析、ESG(环境、社会、治理)评估
核心变量(12 个关键字段)
虽然具体列名未完全列出,但基于上下文可合理推断包含以下典型维度:
字段类别 示例字段 说明
时间维度 quarter / year 季度或年份(如 "2023-Q2")
车型标识 model 车型名称(如 "Model 3", "Model Y", "Cybertruck")
地理区域 region 销售/生产区域(如 "USA", "China", "Europe", "Rest of World")
生产指标 production_units 该季度该车型在该区域的产量(辆)
交付指标 deliveries_units 实际交付量(辆),通常 ≤ 产量
价格信息 avg_selling_price 平均售价(美元),反映定价策略与折扣力度
库存变动 inventory_change 产量 - 交付量 = 库存净增(可选)
工厂信息 factory 生产工厂(如 Fremont, Gigafactory Shanghai, Berlin, Texas)
环境效益 co2_saved_tons 相比燃油车,该批电动车预计
皇室战争卡牌数据集,Clash Royale 卡牌数据集,包含皇室战争每一个卡牌圣水消耗、生命值、攻击伤害、移速、攻击距离等全面的数据,适用于数据分析、机器学习
该数据集系统整理了 Supercell 旗下热门手游《Clash Royale》 中所有卡牌的结构化属性,涵盖战斗数值、稀有度、行为类型及进化信息。适用于游戏数据分析、AI 策略构建、卡组推荐系统开发,以及对游戏平衡机制的深入研究。
适用对象:游戏开发者、数据科学家、电竞分析师、Clash Royale 玩家、AI 爱好者
核心价值:将游戏内抽象策略转化为可量化特征,支持数据驱动决策
数据粒度:每行代表一张唯一卡牌(如 Knight, Mega Knight, Electro Dragon)
核心字段说明(典型属性)
虽然具体列名可能因版本略有差异,但通常包含以下关键维度:
字段 类型 描述
name string 卡牌名称(如 "Fireball", "Goblin Gang")
elixir_cost int 圣水消耗(1–10),决定卡牌使用频率与战术节奏
rarity string 稀有度等级:
• Common(普通)
• Rare(稀有)
• Epic(史诗)
• Legendary(传奇)
• Champion(冠军,后期新增)
type / category string 卡牌类型:
• Troop(部队)
• Building(建筑)
• Spell(法术)
arena int 首次解锁竞技场等级(如 Arena 1, Arena 8)
hitpoints (HP) int 生命值(仅适用于部队和建筑)
damage int 单次攻击伤害(近战/远程/范围)
speed string 移动速度:
• Very Slow, Slow, Medium, Fast, Very Fast
range float 攻击距离(单位:格,如 5.5 表示远程)
mobility string 移动能力:
• Ground (仅地面)
• Air (仅空中)
•
Shopify 股票数据集(2015年5月 – 2025年11月),包含当日最高价、当日最低价、当日收盘价、复权收盘价、当日成交量,适用于数据分析、机器学习
该数据集记录了 Shopify Inc.(股票代码:SHOP) 自 2015年5月上市以来至2025年11月 的每日股票交易数据,覆盖其从初创电商SaaS公司成长为全球市值超 2038.5亿美元(截至2025年11月)的科技巨头全过程。
公司简介:Shopify 是加拿大领先的云端电子商务平台,为全球数百万商家提供建站、支付、库存、营销及POS一体化解决方案。
地理来源:加拿大(总部位于渥太华)
数据频率:日度(Daily)
时间跨度:约 10年半(2015-05 至 2025-11)
用途:金融时间序列分析、股价预测、技术指标计算、投资策略回测、市场情绪研究
字段说明(Variables)
字段名 类型 描述
date date 交易日期(格式如 2025-11-15)
open float 当日开盘价(美元)
high float 当日最高价
low float 当日最低价
close float 当日收盘价(已考虑股票拆分)
adj_close float 复权收盘价 —— 经过所有股票拆分与股息调整后的价格,符合 CRSP 标准,适用于长期回报计算
volume int 当日成交量(交易股数)
房屋价格数据集,房价数据集,用于分析影响房价的关键因素,适用于房地产分析、投资决策支持、经济趋势研究以及机器学习建模
该数据集旨在揭示影响住宅市场价格的核心因素,适用于房地产分析、投资决策支持、经济趋势研究以及机器学习建模。通过整合房屋的物理属性、区位特征和配套设施信息,本数据集为理解“什么让一套房子更值钱”提供了结构化依据。
适用人群:数据分析师、房地产投资者、经济学学生、机器学习初学者
核心目标:识别房价驱动因素,构建价格预测模型,辅助购房或投资决策
典型任务:回归预测、特征重要性分析、市场细分、可视化探索
游戏媒体评分和steam玩家行为对比数据,约 10,000 款热门 PC 游戏,包含游戏媒体的评分,和玩家游玩时长、玩家数量、在线玩家数等,适用于游戏口碑和人气对比,评分与玩家行为相关性分析,数据分析
对比 Metacritic(媒体/专业评分) 与 Steam(玩家行为数据) 两大维度,本数据集揭示了游戏行业“叫好”与“叫座”之间的复杂关系,适用于游戏研究、市场分析、用户行为建模及文化趋势探索。
数据组成:两个独立 CSV 文件
metacritic_Toppc_games.csv
来源:Metacritic 官网(PC 游戏历史高分榜)
记录数:约 100–200 款(具体取决于抓取时间)
字段 类型 描述
Name string 游戏官方名称(如 The Witcher 3: Wild Hunt)
Release_Date date/string 首发日期(格式如 "Jun 19, 2015")
Rating string ESRB 分级(如 "M" = Mature, "T" = Teen, "E" = Everyone)
Description text 游戏简介(简短剧情或玩法描述)
Score int (0–100) Metacritic 媒体综合评分(核心指标)
特点:聚焦“高质量”、“高口碑”作品,代表行业艺术与设计标杆。
steam_spy_data.csv
来源:SteamSpy API(基于 Steam 公开数据估算)
记录数:约 10,000 款热门 PC 游戏
字段 类型 描述
appid int Steam 唯一应用 ID(可用于链接 Steam 商店页)
name string Steam 上的游戏名称
developer string 开发商(如 CD Projekt Red)
publisher string 发行商(如 Valve, Devolver Digital)
score_rank float SteamSpy 内部排名分数(越高越受欢迎)
positive / negative int 正面
药物过量死亡率数据集,1999年至2019年 美国全国范围内因药物过量导致的死亡率,适用于药物滥用危机的流行病学监测、健康差异研究与公共政策制定
美国国家卫生统计中心(NCHS, National Center for Health Statistics) 于 2021年6月16日 发布,系统记录了 1999年至2019年 美国全国范围内因药物过量导致的死亡率。数据基于官方死亡证明和人口统计信息,旨在支持对药物滥用危机的流行病学监测、健康差异研究与公共政策制定。
时间跨度:21 年(1999–2019)
地理范围:美国全国(无州级细分,除非另有说明)
数据性质:政府公开领域数据(Public Domain),可自由用于非商业或商业研究
用途:追踪阿片类药物危机演变、识别高风险人群、评估干预措施效果
数据内容结构
数据以分层交叉表(cross-tabulated estimates) 形式呈现,每个观测值代表特定人口子群体在某一年的药物过量死亡率。主要维度包括:
核心变量
变量类别 具体字段示例
时间 Year(1999, 2000, ..., 2019)
死亡率指标 Death_Rate(通常为每10万人中的死亡人数)
药物类型 Drug_Type(如 All drugs, Opioids, Heroin, Synthetic opioids (e.g., fentanyl), Cocaine, Psychostimulants)
性别 Sex(Male, Female)
年龄组 Age_Group(如 15–24, 25–34, 35–44, 45–54, 55–64, 65+)
种族与族裔 Race_Ethnicity(如 Non-Hispanic White, Non-Hispanic Black, Hispanic, Non-Hispanic Asian)
辅助元数据字段
字段 说明
Unit 单位(通常为 "deaths per 100,000 population")
Subme
消费者购物行为数据集,模拟了现实世界中消费者的完整购物流程,涵盖人口统计信息、产品属性、交易细节以及客户互动行为,多维度的消费者购物行为画像,适用于数据分析、机器学习
提供真实、多维度的消费者购物行为画像,帮助零售商、电商平台和品牌深入理解顾客决策过程,优化产品、定价、营销与用户体验策略。
适用人群:数据分析师、市场营销人员、机器学习初学者、高校学生及商业智能从业者。
该数据集模拟了现实世界中消费者的完整购物流程,涵盖人口统计信息、产品属性、交易细节以及客户互动行为,是进行消费者行为分析的理想资源。
数据内容结构
1. 人口统计特征(Demographics)
age:顾客年龄(整数)
gender:性别(如 "Male", "Female", "Other")
location:地理位置(城市、州或国家,如 "New York", "California", "USA")
2. 产品与购买详情(Purchase Context)
item_category:商品类别(如 "Electronics", "Clothing", "Beauty", "Home & Kitchen")
product_size:尺码(如 "S", "M", "L", "XL" 或数值型如 10.5)
color:颜色(如 "Black", "Blue", "Red")
season:购买季节(如 "Spring", "Summer", "Fall", "Winter")
spending_amount:消费金额(浮点数,单位通常为美元或其他本地货币)
payment_method:支付方式(如 "Credit Card", "PayPal", "Debit Card", "Cash on Delivery")
3. 促销与服务相关变量
discount_applied:是否使用折扣(布尔值或折扣百分比)
promo_code_used:是否使用优惠券(是/否)
shipping_type:配送类型(如 "Standard", "Express",
全球气候变化指标数据集,1961 年至 2022 年全球各国的气候指标变化,适用于数据分析、机器学习
记录了 1961 年至 2022 年全球各国的气候指标变化,旨在揭示长期气候变化趋势及其驱动因素。通过分析温度、降水、极端天气频率等关键变量(具体字段依实际数据而定),用户可识别哪些自然或人为因素对全球变暖产生显著影响,并评估其正向(加剧)或负向(缓解)作用。
时间跨度:62 年(1961–2022)
地理覆盖:全球国家/地区(通常以 ISO 国家代码标识)
核心目标:支持气候科学研究、政策制定与公众教育
适用领域:环境科学、可持续发展、数据科学、公共政策
属性:
Indicator 指标名称 表示所测量的气候变量,如 Temperature, Precipitation, CO2 Emissions 等。
Unit 单位 数据的计量单位,例如:Degrees Celsius(摄氏度)、mm/year(毫米/年)、Gt CO₂(十亿吨二氧化碳)。
Source 数据来源 提供该指标数据的机构或项目,例如:NASA GISS, HadCRUT, FAO, IPCC 等。
CTS_CODE 气候主题分类代码(Climate Theme Code) 用于对气候指标进行标准化分类的编码系统,如 ECCC 可能代表“Energy and Climate Change”。
CTS_Name 气候主题分类名称 对应 CTS_CODE 的中文或英文描述,例如 Surface Temperature(地表温度)、Sea Level Rise(海平面上升)。
CTS_Full 完整气候主题描述 更详细的分类描述,可能包含子类或上下文信息,例如 Earth's Surface Temperature Anomaly。
IMDb前250全部电影信息数据集,包含名称、评分、时长、年龄分级等信息,适用于数据分析
IMDb(互联网电影数据库)官方“Top 250”榜单中的全部电影信息
该数据集收录了 IMDb(互联网电影数据库)官方“Top 250”榜单中的全部电影信息,通过网络爬虫从 IMDb Top 250 页面 获取。榜单基于 IMDb 的加权评分算法(考虑用户评分数量、可信度及时间衰减等因素),代表全球影迷公认的高口碑影片集合。
记录数量:250 部电影(截至抓取时间)
核心用途:电影趋势分析、类型偏好研究、明星影响力评估、评分建模与可视化
适用场景:数据科学教学、娱乐产业分析、推荐系统原型、文化研究
主要字段(属性)
虽然具体列名可能因版本略有差异,但典型包含以下关键信息:
字段 类型 说明
Title 电影名称 如 The Shawshank Redemption, Inception 等。通常是英文原名。
# Year 上映年份 电影首次上映的年份(例如:1994, 2010)。用于时间序列分析或年代分组。
Duration 片长 电影时长,格式通常为 hh:mm(如 2h 22m 或 142 min)。可用于分析“长片” vs “短片”的评分差异。
AgeRating 年龄分级 电影的观众年龄限制等级,例如:PG, R, 18+, Not Rated。反映内容成熟度。
# Rating IMDb 评分 用户平均评分(满分 10 分),保留一位小数(如 9.3)。是榜单排序的主要依据。
Votes 评分人数 参与打分的用户数量(如 2,673,427)。表示影片热度与可信度。