自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(136)
  • 资源 (33)
  • 收藏
  • 关注

原创 奥运会数据分析,奥林匹克数据分析并绘图,python数据分析绘图,期末大作业项目

目录设置Python环境查看输入目录中的文件加载并查看数据集计算不重复活动次数根据活动特定的身高-体重平均值填充缺失值处理年龄列中的缺失值删除奖牌列中的缺失值数据可视化年龄的箱形图城市频率的条形图奖牌频率的条形图季节频率的条形图性别身高体重的散点图​编辑不同奖牌获得者的身高体重分布按季节划分的年龄分布箱形图按性别划分的体重分布(按季节)部分运行截图:以下为部分代码示例以及运行截图:完整代码以及数据集在以下

2025-01-14 15:44:19 1115

原创 Vue 3 中 watch 监控的详细介绍

Vue.js 是一个用于构建用户界面的渐进式 JavaScript 框架,它提供了多种机制来响应数据的变化。在 Vue 3 中,watch是一个特别有用的选项,它允许你监听特定的数据属性,并在这些属性发生变化时执行自定义逻辑。本文将详细介绍 Vue 3 中watch的用法、工作原理以及一些最佳实践,并通过具体的代码示例帮助你更好地掌握这一功能。watchwatch选项用于定义一个或多个观察者(watcher),它们会监视指定的数据属性的变化。

2024-12-19 08:58:42 1571

原创 Vue 2 中 watch 监控的详细介绍

Vue.js 是一个用于构建用户界面的渐进式 JavaScript 框架,它提供了多种机制来响应数据的变化。在 Vue 2 中,watch是一个特别有用的选项,它允许你监听特定的数据属性,并在这些属性发生变化时执行自定义逻辑。本文将详细介绍 Vue 2 中watch的用法、工作原理以及一些最佳实践,并通过具体的代码示例帮助你更好地掌握这一功能。watchwatch选项用于定义一个或多个观察者(watcher),它们会监视指定的数据属性的变化。

2024-12-19 08:54:39 1971

原创 Vue 2 中页面跳转方式的详细介绍

Vue.js 是一个用于构建用户界面的渐进式 JavaScript 框架,它提供了多种方法来实现页面之间的导航。在 Vue 2 中,页面跳转主要通过 Vue Router 来管理,同时也支持其他方式如编程式导航和使用锚点链接。本文将详细介绍 Vue 2 中的各种页面跳转方式,并通过具体的代码示例帮助你更好地掌握这些功能。

2024-12-18 09:04:28 2453

原创 Vue 3 中页面跳转方式的详细介绍

Vue.js 是一个用于构建用户界面的渐进式 JavaScript 框架,它提供了多种方法来实现页面之间的导航。在 Vue 3 中,页面跳转主要通过 Vue Router 来管理,同时也支持其他方式如编程式导航和使用锚点链接。本文将详细介绍 Vue 3 中的各种页面跳转方式,并通过具体的代码示例帮助你更好地掌握这些功能。

2024-12-18 08:57:42 2727

原创 Vue 3 中 v-model 指令的使用详解

v-model是 Vue 提供的一个语法糖,它使得在表单控件元素与应用状态之间建立双向绑定变得非常简单。这意味着你可以轻松地将用户的输入反映到组件的状态中,并且当组件的状态发生变化时,相应的表单元素也会自动更新。v-model除了原生的 HTML 表单元素,v-model还可以在自定义组件上使用,以实现更复杂的双向绑定逻辑。要使v-model接受一个名为modelValue的 prop(默认情况下)。触发一个名为的事件来更新父组件的数据。例如:<template></div>

2024-12-17 08:59:05 2428

原创 Vue 2 中 v-model 指令的使用详解

v-model是 Vue 提供的一个语法糖,它使得在表单控件元素与应用状态之间建立双向绑定变得非常简单。这意味着你可以轻松地将用户的输入反映到组件的状态中,并且当组件的状态发生变化时,相应的表单元素也会自动更新。v-model除了原生的 HTML 表单元素,v-model还可以在自定义组件上使用,以实现更复杂的双向绑定逻辑。要使v-model接受一个名为value的 prop。触发一个名为input的事件来更新父组件的数据。

2024-12-17 08:55:00 2254

原创 Vue 3 中 v-html 指令的使用详解

v-html指令用于更新元素的innerHTML。与简单的文本插入不同,v-html不仅会插入文本,还会解析并渲染传入字符串中的 HTML 标记。这使得它可以用来嵌入富文本内容,如链接、图片等。

2024-12-16 09:41:35 3713

原创 Vue 2 中 v-html 指令的使用详解

v-html指令用于更新元素的innerHTML。与简单的文本插入不同,v-html不仅会插入文本,还会解析并渲染传入字符串中的 HTML 标记。这使得它可以用来嵌入富文本内容,如链接、图片等。

2024-12-16 09:39:09 1854

原创 在 Vue 3 中实现 Switch-Case

props: {value: {},watch(</script><template><script>props: {when: {},</Case></Switch>

2024-12-15 10:15:00 1249

原创 在 Vue 2 中实现 Switch-Case 逻辑

props: {value: {},data() {return {},watch: {},return {</script>Case.vue<template><script>props: {when: {},

2024-12-15 10:15:00 1516

原创 在 Vue 3 中隐藏页面元素的方法

有时我们需要更细粒度地控制元素的样式,比如不仅仅是隐藏,而是改变透明度、尺寸等。这时可以使用动态绑定类名,结合 CSS 来实现更复杂的效果。示例代码(使用 Composition API):<template><div></div>.hidden {opacity: 0;

2024-12-14 20:38:58 1212

原创 在 Vue 2 中隐藏页面元素的方法

有时我们需要更细粒度地控制元素的样式,比如不仅仅是隐藏,而是改变透明度、尺寸等。这时可以使用动态绑定类名,结合 CSS 来实现更复杂的效果。示例代码</div><style>.hidden {opacity: 0;</script>

2024-12-14 20:32:59 939

原创 Vue 3 中 v-text 和 v-html 指令的使用详解

v-text指令用于更新元素的。无论元素原来的内容是什么,v-text都会将其替换为指定的文本内容。这意味着任何已有的子节点都会被移除,仅保留纯文本。v-html指令用于更新元素的innerHTML。与v-text不同的是,v-html不仅会插入文本,还会解析并渲染传入字符串中的 HTML 标记。这使得它可以用来嵌入富文本内容,如链接、图片等。

2024-12-13 09:41:14 1547

原创 Vue 2 中 v-text 和 v-html 指令的使用详解

v-text指令用于更新元素的。无论元素原来的内容是什么,v-text都会将其替换为指定的文本内容。这意味着任何已有的子节点都会被移除,仅保留纯文本。v-html指令用于更新元素的innerHTML。与v-text不同的是,v-html不仅会插入文本,还会解析并渲染传入字符串中的 HTML 标记。这使得它可以用来嵌入富文本内容,如链接、图片等。

2024-12-13 09:38:00 1694

原创 Vue 2 中 v-for 指令的使用详解

v-for是 Vue 提供的一个用于循环渲染列表的指令,它可以基于任何可迭代的数据源(如数组、对象)创建一组相似的元素或组件。每当数据源发生变化时,Vue 会智能地更新 DOM,确保只对必要的部分进行操作,从而提高性能。

2024-12-12 09:10:27 1632

原创 Vue 3 中 v-for 指令的使用详解

v-for是 Vue 提供的一个用于循环渲染列表的指令,它可以基于任何可迭代的数据源(如数组、对象)创建一组相似的元素或组件。每当数据源发生变化时,Vue 会智能地更新 DOM,确保只对必要的部分进行操作,从而提高性能。

2024-12-12 09:07:08 2540

原创 Vue 3 中 v-if 指令的使用详解

v-if是 Vue 提供的一个条件渲染指令,当绑定到它的表达式返回true或者其他真值时,元素会被插入到 DOM 中;反之,如果表达式返回false或者假值,则该元素不会被渲染,也不会存在于 DOM 树中。这意味着v-if实现了真正的条件性渲染,而不是仅仅隐藏元素。

2024-12-11 14:32:41 3750

原创 Vue 2 中 v-if 指令的使用详解

v-if是 Vue 提供的一个条件渲染指令,当绑定到它的表达式返回true或者其他真值时,元素会被插入到 DOM 中;反之,如果表达式返回false或者假值,则该元素不会被渲染,也不会存在于 DOM 树中。这意味着v-if实现了真正的条件性渲染,而不是仅仅隐藏元素。

2024-12-11 14:26:47 1660

原创 Vue 3 中的变量与数据结构详解

Undefined。

2024-12-10 09:12:56 1815

原创 Vue 2 中的变量与数据结构详解

Undefined。

2024-12-10 09:09:40 849

原创 Vue 3 中的 Scope Slot(作用域插槽)详解

在 Vue 中,组件是可复用的 UI 构建块,它们可以封装自己的模板、逻辑和样式。然而,有时候我们希望父组件能够自定义子组件内部的内容展示方式,同时还能访问子组件提供的数据或状态。这就是作用域插槽的作用——它允许父组件向子组件传递数据的同时,保留对这些数据的控制权。

2024-12-09 10:45:58 1076

原创 Vue 3 中的 Scope Slot(作用域插槽)详解

在 Vue 中,组件是可复用的 UI 构建块,它们可以封装自己的模板、逻辑和样式。然而,有时候我们希望父组件能够自定义子组件内部的内容展示方式,同时还能访问子组件提供的数据或状态。这就是作用域插槽的作用——它允许父组件向子组件传递数据的同时,保留对这些数据的控制权。

2024-12-09 10:39:48 1980

原创 Vue 2 中的 Scope Slot(作用域插槽)详解

作用域插槽是 Vue 提供的一种特殊类型的插槽,它不仅能够自定义内容,还能让父组件访问子组件内部的数据或逻辑。换句话说,它提供了一种机制,使得父组件可以在渲染子组件时接收来自子组件的数据,并根据这些数据来定制化显示的内容。这极大地增强了组件间的交互性和可复用性。

2024-12-09 10:27:26 1455

原创 Vue 3 生命周期函数详解

Vue 实例从创建到销毁经历了一系列的阶段,这些阶段被称为生命周期。在每个阶段,Vue 提供了相应的钩子函数(Lifecycle Hooks),允许开发者在特定的时间点执行自定义逻辑。| |v v| |v v| |v vVue 3 引入了 Composition API 和setup函数,使得组件逻辑更加模块化和可复用。此外,部分生命周期钩子名称有所变化,以更清晰地表达其含义。

2024-12-08 18:41:16 5076

原创 Vue 2 生命周期函数详解

Vue 实例从创建到销毁经历了一系列的阶段,这些阶段被称为生命周期。在每个阶段,Vue 提供了相应的钩子函数(Lifecycle Hooks),允许开发者在特定的时间点执行自定义逻辑。

2024-12-08 18:36:17 860

原创 Vue 2 中的双向数据绑定详解

双向数据绑定意味着当用户交互改变视图中的值时,这些更改会自动反映到关联的数据模型中;同样地,如果通过代码修改了数据模型,相应的视图也会即时更新。这种机制极大地简化了前端开发工作流,使得开发者可以更加专注于业务逻辑的实现,而不必担心手动管理DOM操作。

2024-12-06 09:00:36 1603

原创 Vue 2 中的计算属性(Computed Properties)详解

计算属性是 Vue 提供的一种特殊的数据属性,它能够根据其他数据的变化自动更新。相比于直接在模板中编写复杂的表达式,计算属性提供了更好的代码可读性和性能优化,因为它们只会在依赖的数据发生变化时才重新计算。

2024-12-06 08:55:57 1344

原创 Vue 3 中的计算属性(Computed Properties)详解

计算属性是 Vue 提供的一种特殊的属性类型,它能够根据其他数据的变化而自动生成新的值。相比于直接在模板中编写复杂的表达式,计算属性提供了更好的代码可读性和维护性,并且性能更优,因为 Vue 能够智能地跟踪计算属性的依赖关系,在相关数据变化时才重新计算。

2024-12-05 13:11:47 2357

原创 CSS Position(定位)详解

属性是控制元素布局和定位的关键属性之一。它允许开发者对网页上的元素进行精确定位,以创建复杂且美观的页面结构。,并解释它们之间的区别及应用场景。

2024-12-05 13:09:36 891

原创 CSS Padding 和 Margin 全解析

是两个非常基础且重要的属性,它们用于控制元素周围的空白区域。理解这两个属性的区别和用法,对于创建良好的布局和用户体验至关重要。**Padding(内边距)**是指元素内容与边框之间的空间。它增加了元素内部的空间,使得内容不会紧贴着边框显示,从而改善视觉效果和可读性。**Margin(外边距)**是位于元素边框之外的空间,用来隔开相邻元素。它不影响元素自身的尺寸,而是改变了元素与其他元素之间的距离。的概念、区别以及如何在实际项目中使用它们,并附上代码示例。

2024-12-04 13:21:04 4911

原创 常见的 CSS 对齐方式介绍及代码示例

在网页设计和开发中,元素的对齐是布局中一个非常重要的方面。CSS 提供了多种方法来对齐页面上的元素,以确保内容按照预期的方式排列。本文将介绍几种常见的 CSS 对齐方式,并附上代码示例。

2024-12-04 13:17:53 1820

转载 JavaScript 变量

变量是用于存储信息的"容器"。

2024-12-03 14:08:37 95

原创 使用 Python 的beautifulsoup4和正则表达式获取页面中的所有图片链接

在 Web 开发和数据抓取中,经常需要从 HTML 页面中提取特定的信息,如图片链接。Python 提供了强大的工具来处理这类任务。本文将介绍如何使用 Python 的。如果需要更加精确地筛选图片链接(例如只获取特定格式或特定路径下的图片),可以使用正则表达式进行过滤。以下是完整的代码示例,包括获取网页内容、解析 HTML 并提取图片链接,以及使用正则表达式进行筛选。首先,确保安装了所需的库。库发送 HTTP 请求并获取网页的内容。解析 HTML 内容,并提取所有的。库来获取网页中所有的图片链接。

2024-12-03 09:40:57 713

原创 python使用正则表达式提取网页中的图片链接

接下来,我们将编写一个函数,使用正则表达式来匹配并提取符合条件的图片链接。以下是完整的代码示例,包括获取网页内容、使用正则表达式提取图片链接。首先,我们需要从目标网页获取 HTML 内容。pattern可以依据具体的需求来修改。

2024-12-03 09:15:28 671

原创 使用 Python 实现二叉树的层次遍历

层次遍历是一种逐层访问二叉树节点的遍历方法。与深度优先搜索(DFS)不同,层次遍历会先访问同一层的所有节点,然后再进入下一层。这种遍历方法通常使用队列(Queue)来实现,因为队列遵循先进先出(FIFO)的原则,非常适合按层次处理节点。在 Python 中,我们可以使用类(class)来定义二叉树的节点。每个节点包含一个值(val),以及指向左子节点和右子节点的指针(left 和 right)。示例代码。

2024-12-02 10:38:22 1559

原创 使用 Python 判断回文(不区分大小写,标点符号)

回文(Palindrome)是指一个字符串从前往后读和从后往前读是一样的。本文将介绍几种使用 Python 判断回文的方法,并提供相应的代码示例。虽然不是最高效的,但递归方法提供了一种优雅的方式来解决问题。我们可以递归地检查字符串的第一个和最后一个字符是否相同,然后对子字符串重复这一过程。双指针法是最直观的方法之一。我们可以使用两个指针,一个从字符串的开头开始,另一个从结尾开始,逐步向中间移动并比较对应的字符。如果需要更严格的处理,比如忽略大小写和非字母数字字符,可以使用正则表达式来清理输入字符串。

2024-12-02 10:31:15 1634

原创 python中 pip 的使用方法详解

命令来安装 Python 包。可以直接从 PyPI(Python Package Index)安装,也可以从本地文件或特定 URL 安装。是 Python 的默认包管理工具,随 Python 3.x 版本一同安装。命令可以在 PyPI 上搜索特定的包。命令查看某个已安装包的详细信息,如版本、作者、摘要等。命令列出当前环境中已安装的所有包及其版本。命令来卸载不再需要的 Python 包。有时需要安装特定版本的包,可以使用等号 (可以在一条命令中安装多个包,用空格分隔。文件安装指定版本的依赖包。

2024-12-01 22:26:41 1626

原创 Python 元组详解

元组可以用圆括号()来定义,元素之间用逗号分隔。即使只有一个元素,也需要在元素后面加上逗号来表示这是一个元组。示例代码# 定义空元组# 定义单元素元组# 定义多元素元组print(empty_tuple) # 输出: ()print(single_element_tuple) # 输出: (42,)print(multi_element_tuple) # 输出: (1, 2, 3, 'four', 'five')

2024-12-01 22:24:02 752

原创 Python 中的集合(Set)介绍

集合(set)是 Python 中的一种无序、不重复的数据结构。集合非常适合用于去除重复元素、进行集合运算等操作。本文将详细介绍集合的基本概念、常见操作以及一些实用的代码示例。

2024-11-30 07:45:00 306

全链路电商行为数据集,精准模拟真实电商平台中的用户行为、交易流程、产品互动与季节性趋势,适用于销售预测与库存规划,数据分析

合成但高度逼真的电商零售数据集,精准模拟真实电商平台中的用户行为、交易流程、产品互动与季节性趋势。 核心价值:无隐私风险 + 完整用户旅程 + 多表关联结构 适用场景: 推荐系统开发 用户分群(RFM/聚类) 销售预测与库存规划 转化漏斗分析 SQL/Python 数据工程练习 A/B 测试仿真 安全合规:所有姓名、邮箱、评论均为 Faker 生成,不含任何真实个人信息。 文件结构与规模 文件 行数 描述 users.csv ~10,000 用户画像:性别、城市、注册时间等 products.csv ~2,000 商品目录:类别、价格、平均评分 orders.csv ~20,000 订单主表:状态(完成/取消/退货)、总金额 order_items.csv ~60,000 订单明细:每单含多商品(支持购物车场景) reviews.csv ~15,000 用户评论:1–5 星评分 + 合成文本 events.csv ~80,000 用户行为日志:浏览 → 加购 → 收藏 → 购买 所有表通过 user_id / product_id / order_id 关联,构成完整“用户-行为-交易”闭环。 详细字段说明 1. 用户表 (users.csv) 字段 类型 示例 user_id int 1001 name string "Emma Johnson" email string "emma.johnson83@example.com" gender string "Female" / "Male" / "Other" city string "Chicago", "Austin" signup_date date "2023-05-12" 2. 商品表 (products

2025-11-24

学生学业表现数据集,学生成绩影响因素数据集,数学、阅读和写作中的学业表现,以及详细背景信息,如性别、种族/民族、父母教育水平、午餐类型和考试准备情况,适用于数据分析、机器学习

该数据集涵盖了学生在三大主要科目——数学(Math)、阅读(Reading)和写作(Writing)中的学业表现,以及详细背景信息,如性别、种族/民族、父母教育水平、午餐类型和考试准备情况。通过这个数据集,可以探索社会、经济及教育因素如何影响学生的学业成绩,并为教育领域的预测性机器学习模型提供坚实的基础。 记录数:未明确提及,但通常这类公开数据集包含数百至数千条记录 特征数量:8 个核心字段(含目标变量) 应用场景: 教育公平研究 成绩预测与干预策略制定 影响学生成绩的关键因素分析 学生群体划分与个性化支持 字段描述 字段名 类型 描述 gender 分类 学生的性别(如 "male", "female") race/ethnicity 分类 学生所属的人口统计组/类别(如 "group A", "group B" 等) parental level of education 分类 学生父母的最高教育水平(如 "bachelor's degree", "some college" 等) lunch 分类 学生接受的午餐类型(如 "standard", "free/reduced") test preparation course 分类 学生是否完成了考试准备课程(如 "completed", "none") math score 数值 数学科目的分数(如 75, 92) reading score 数值 阅读科目的分数 writing score 数值 写作科目的分数

2025-11-24

面向AI医疗研究的合成病历数据集,3,000 名患者数据,包含11 项症状、 5 项生命体征、5 项检查、疾病诊断,适用于机器学习训练,数据分析

包含 3,000 条完全人工生成的患者记录,模拟真实临床场景中的症状、体征、实验室检查与诊断结果。所有数据均为合成生成(synthetic),不包含任何真实患者信息,符合 HIPAA/GDPR 等隐私规范,可安全用于公开研究、教学和模型开发。 记录数:3,000 名“虚拟患者” 目标变量:disease diagnosis(疾病诊断类别) 特征总数:24 个(11 症状 + 5 体征 + 5 检验 + 3 人口统计) 数据性质:结构化表格数据(CSV/Parquet) 核心优势: 逻辑一致性:症状与诊断之间存在医学合理性(如肺炎常伴发热、咳嗽) 字段结构 人口统计学 症状(Symptoms)— 共 11 项 生命体征(Vital Signs)— 共 5 项 实验室检查(Lab Results)— 共 5 项 目标变量:疾病诊断(Target)

2025-11-24

特斯拉Tesla历史股价数据集 (2010–2015),包含开盘价、最高成交价、最低成交价、收盘价、成交量,适用于数据分析、机器学习

特斯拉公司(Tesla Inc., 股票代码:TSLA)自 2010 年首次公开募股(IPO)起至 2015 年底的每日股票交易数据,完整覆盖其从一家新兴电动车初创企业迈向主流汽车制造商的关键成长阶段。 时间范围:2010 年 6 月(IPO 日) – 2015 年 12 月 31 日 数据频率:日度(Daily) 核心用途:金融时间序列分析、波动性研究、机器学习预测、投资策略回测、可视化叙事 历史背景:此期间特斯拉发布了 Model S(2012)、启动 Model X 开发,并开始建设 Gigafactory(2014) 字段说明 字段 类型 描述 Date date 交易日期(格式如 2010-06-29) Open float 当日开盘价(美元) High float 当日最高成交价 Low float 当日最低成交价 Close float 当日收盘价(未复权) Adj Close float 复权收盘价 — 已根据股票拆分和股息调整,适用于长期收益计算 Volume int 当日成交量(交易股数)

2025-11-17

地震与海啸预测数据集(2025),全球范围内 782 次地震事件的详细参数,包含地震震级、烈度、地理位置、发生时间、震源深度,旨在支持海啸发生预测、地震风险评估与灾害模式挖掘

全球范围内 782 次地震事件的详细参数,旨在支持海啸发生预测、地震风险评估与灾害模式挖掘。所有字段均为数值型,无缺失值,结构清晰,特别适合用于二分类建模(是否引发海啸) 和地理空间分析。 记录数:782 条地震事件 特征数:13 个数值型变量(5 个整型 int64,8 个浮点型 float64) 目标变量:tsunami(二元标签:1 = 引发海啸,0 = 未引发) 时间范围:包含 Year 和 Month,可进行时间趋势分析 数据质量:无缺失值,坐标范围合理,可直接用于建模 字段详解 字段名 类型 描述 magnitude float64 地震震级(里氏或矩震级,通常 ≥ 4.0) cdi float64 社区感知烈度(Community Determined Intensity),基于公众报告 mmi float64 修正麦加利烈度(Modified Mercalli Intensity),衡量地面震动强度(I–XII 级) sig int64 显著性评分(Significance),综合震级、伤亡、媒体报道等的综合影响指数 nst int64 用于定位的地震台站数量(越多越精准) dmin float64 震中到最近台站的最小距离(单位:度) gap float64 方位角间隙(Azimuthal gap),反映台站覆盖均匀性(越小越好,理想 < 90°) depth float64 震源深度(公里),浅源地震(<70 km)更易引发海啸 latitude float64 震中纬度(-90 到 +90) longitude float64 震中经度(-180 到 +180) Year int64 发生年份(如 2004, 2011, 2023 等) Month int64 发生月份(1–12) tsunami int64 目标变量:1 = 引发

2025-11-17

葡萄酒数据集,意大利同一产区的三种不同葡萄品种的化学成分分析,通过13 种理化指标 来区分葡萄酒的品种来源,适用于数据分析、机器学习

意大利同一产区的三种不同葡萄品种(cultivars)所酿制的葡萄酒 的化学成分分析,由 Forina 等人在 1980 年代收集。其核心目标是通过 13 种理化指标 来区分葡萄酒的品种来源。 记录数:178 个样本 类别数:3 类(对应 3 种葡萄品种) 特征数:13 个连续型化学变量 数据质量:无缺失值、无异常标签,高度结构化 经典用途:监督分类任务(尤其是多类分类)的教学与算法验证 被广泛用于 Scikit-learn、TensorFlow、PyTorch 等框架的入门示例(sklearn.datasets.load_wine()) 字段说明(13 个化学特征 + 1 个类别标签) 特征名称 描述 单位/说明 Alcohol 酒精含量 % by volume Malic_acid 苹果酸 g/L Ash 灰分 — Alcalinity_of_ash 灰分碱度 meq/L Magnesium 镁 mg/L Total_phenols 总酚类物质 — Flavanoids 黄酮类化合物 — Nonflavanoid_phenols 非黄酮酚类 — Proanthocyanins 原花青素 — Color_intensity 颜色强度 — Hue 色调 — OD280/OD315_of_diluted_wines 稀释酒在 280nm/315nm 处的光密度比 蛋白质含量代理指标 Proline 脯氨酸 mg/L

2025-11-17

学校表现分析数据集,学生考试的表现,整合了关键的人口统计学与教育背景信息,成绩和家庭背景、经济状况、学习准备等因素的关联,适用于数据分析、机器学习

记录了学生在标准化考试中的表现,并整合了关键的人口统计学与教育背景信息,旨在揭示 家庭背景、经济状况、学习准备等因素与学业成果之间的关联。数据结构简洁、字段清晰,是教育数据分析、公平性研究和机器学习入门项目的理想资源。 核心目标:理解影响学业成绩的社会决定因素,识别潜在干预点 适用对象:教育研究者、数据科学初学者、政策分析师、教师 典型用途:探索性数据分析(EDA)、可视化、成绩预测、教育公平评估 数据字段详解 根据描述,数据集通常包含以下变量(以常见版本为例): 字段名 类型 说明 gender 分类(categorical) 性别:male / female race/ethnicity 分类 种族/族裔分组(如 group A, B, C, D, E) parental_level_of_education 分类 父母最高学历: • high school • some college • associate's degree • bachelor's degree • master's degree lunch 分类 午餐类型(作为社会经济地位代理): • standard(标准付费餐) • free/reduced(免费或补贴餐) test_preparation_course 分类 是否完成备考课程: • none • completed math_score 数值(0–100) 数学考试得分 reading_score 数值(0–100) 阅读考试得分 writing_score 数值(0–100) 写作考试得分

2025-11-17

各职位薪资洞察数据集,全球各行业职场人士的真实薪资信息,包含工作年限、工作地点、工作类型、公司规模、学历、技能等,适用于求职者、HR、数据分析师

汇总了全球或特定地区(如美国、欧洲等)各行业职场人士的真实薪资信息,旨在揭示薪酬在不同维度下的分布规律。数据结构清晰、字段丰富,适用于职业规划、市场调研、数据可视化及薪酬预测建模。 时间范围:2024 年(全年或截至某季度) 记录数量:未明确,但描述为“详细且结构化”,适合中等规模分析 核心价值:打破薪资黑箱,支持基于数据的职业决策 适用人群:求职者、HR、数据分析师、高校学生、职业顾问 核心字段说明 根据描述,数据集包含以下关键属性(具体列名可能略有差异): 字段 类型 描述 job_title string 职位名称(如 "Data Scientist", "Software Engineer", "Marketing Manager") salary float / int 年薪(单位通常为美元、欧元等,需确认) years_of_experience int 工作年限(如 0–50 年) employment_type string 雇佣类型: • Full-time • Part-time • Contract • Freelance • Internship location string 工作地点(如 "San Francisco, USA", "Berlin, Germany", "Remote") company_size string 公司规模(可选): • Small (<50) • Medium (50–500) • Large (>500) education_level string 最高学历(可选): • Bachelor’s • Master’s • PhD • High School skills string / list 关键技能(如 "Python, SQL, Machine Learning")

2025-11-17

特斯拉Tesla全球交付与生产数据集(2015–2025),全球车辆生产、交付、定价、交付量、库存,涵盖车型(Model S/3/X/Y、Cybertruck等),2,640 行数据,适用于数据分析

记录了 特斯拉(Tesla, Inc.)在 2015 年至 2025 年间的全球车辆生产、交付、定价及环境影响表现,涵盖其主力车型(Model S/3/X/Y、Cybertruck、Roadster 等)在不同区域市场的动态。作为电动汽车行业的标杆企业,特斯拉的数据对研究新能源汽车增长、制造效率、区域市场策略和碳减排贡献具有极高价值。 时间跨度:2015 Q1 – 2025 Q4(季度粒度,共约 44 个季度) 记录数量:2,640 行(暗示可能包含 车型 × 地区 × 季度 的多维交叉) 地理覆盖:全球主要市场(如美国、中国、欧洲、亚太等) 核心用途:趋势预测、车型对比、产能规划分析、ESG(环境、社会、治理)评估 核心变量(12 个关键字段) 虽然具体列名未完全列出,但基于上下文可合理推断包含以下典型维度: 字段类别 示例字段 说明 时间维度 quarter / year 季度或年份(如 "2023-Q2") 车型标识 model 车型名称(如 "Model 3", "Model Y", "Cybertruck") 地理区域 region 销售/生产区域(如 "USA", "China", "Europe", "Rest of World") 生产指标 production_units 该季度该车型在该区域的产量(辆) 交付指标 deliveries_units 实际交付量(辆),通常 ≤ 产量 价格信息 avg_selling_price 平均售价(美元),反映定价策略与折扣力度 库存变动 inventory_change 产量 - 交付量 = 库存净增(可选) 工厂信息 factory 生产工厂(如 Fremont, Gigafactory Shanghai, Berlin, Texas) 环境效益 co2_saved_tons 相比燃油车,该批电动车预计

2025-11-17

皇室战争卡牌数据集,Clash Royale 卡牌数据集,包含皇室战争每一个卡牌圣水消耗、生命值、攻击伤害、移速、攻击距离等全面的数据,适用于数据分析、机器学习

该数据集系统整理了 Supercell 旗下热门手游《Clash Royale》 中所有卡牌的结构化属性,涵盖战斗数值、稀有度、行为类型及进化信息。适用于游戏数据分析、AI 策略构建、卡组推荐系统开发,以及对游戏平衡机制的深入研究。 适用对象:游戏开发者、数据科学家、电竞分析师、Clash Royale 玩家、AI 爱好者 核心价值:将游戏内抽象策略转化为可量化特征,支持数据驱动决策 数据粒度:每行代表一张唯一卡牌(如 Knight, Mega Knight, Electro Dragon) 核心字段说明(典型属性) 虽然具体列名可能因版本略有差异,但通常包含以下关键维度: 字段 类型 描述 name string 卡牌名称(如 "Fireball", "Goblin Gang") elixir_cost int 圣水消耗(1–10),决定卡牌使用频率与战术节奏 rarity string 稀有度等级: • Common(普通) • Rare(稀有) • Epic(史诗) • Legendary(传奇) • Champion(冠军,后期新增) type / category string 卡牌类型: • Troop(部队) • Building(建筑) • Spell(法术) arena int 首次解锁竞技场等级(如 Arena 1, Arena 8) hitpoints (HP) int 生命值(仅适用于部队和建筑) damage int 单次攻击伤害(近战/远程/范围) speed string 移动速度: • Very Slow, Slow, Medium, Fast, Very Fast range float 攻击距离(单位:格,如 5.5 表示远程) mobility string 移动能力: • Ground (仅地面) • Air (仅空中) •

2025-11-17

Shopify 股票数据集(2015年5月 – 2025年11月),包含当日最高价、当日最低价、当日收盘价、复权收盘价、当日成交量,适用于数据分析、机器学习

该数据集记录了 Shopify Inc.(股票代码:SHOP) 自 2015年5月上市以来至2025年11月 的每日股票交易数据,覆盖其从初创电商SaaS公司成长为全球市值超 2038.5亿美元(截至2025年11月)的科技巨头全过程。 公司简介:Shopify 是加拿大领先的云端电子商务平台,为全球数百万商家提供建站、支付、库存、营销及POS一体化解决方案。 地理来源:加拿大(总部位于渥太华) 数据频率:日度(Daily) 时间跨度:约 10年半(2015-05 至 2025-11) 用途:金融时间序列分析、股价预测、技术指标计算、投资策略回测、市场情绪研究 字段说明(Variables) 字段名 类型 描述 date date 交易日期(格式如 2025-11-15) open float 当日开盘价(美元) high float 当日最高价 low float 当日最低价 close float 当日收盘价(已考虑股票拆分) adj_close float 复权收盘价 —— 经过所有股票拆分与股息调整后的价格,符合 CRSP 标准,适用于长期回报计算 volume int 当日成交量(交易股数)

2025-11-17

房屋价格数据集,房价数据集,用于分析影响房价的关键因素,适用于房地产分析、投资决策支持、经济趋势研究以及机器学习建模

该数据集旨在揭示影响住宅市场价格的核心因素,适用于房地产分析、投资决策支持、经济趋势研究以及机器学习建模。通过整合房屋的物理属性、区位特征和配套设施信息,本数据集为理解“什么让一套房子更值钱”提供了结构化依据。 适用人群:数据分析师、房地产投资者、经济学学生、机器学习初学者 核心目标:识别房价驱动因素,构建价格预测模型,辅助购房或投资决策 典型任务:回归预测、特征重要性分析、市场细分、可视化探索

2025-11-17

游戏媒体评分和steam玩家行为对比数据,约 10,000 款热门 PC 游戏,包含游戏媒体的评分,和玩家游玩时长、玩家数量、在线玩家数等,适用于游戏口碑和人气对比,评分与玩家行为相关性分析,数据分析

对比 Metacritic(媒体/专业评分) 与 Steam(玩家行为数据) 两大维度,本数据集揭示了游戏行业“叫好”与“叫座”之间的复杂关系,适用于游戏研究、市场分析、用户行为建模及文化趋势探索。 数据组成:两个独立 CSV 文件 metacritic_Toppc_games.csv 来源:Metacritic 官网(PC 游戏历史高分榜) 记录数:约 100–200 款(具体取决于抓取时间) 字段 类型 描述 Name string 游戏官方名称(如 The Witcher 3: Wild Hunt) Release_Date date/string 首发日期(格式如 "Jun 19, 2015") Rating string ESRB 分级(如 "M" = Mature, "T" = Teen, "E" = Everyone) Description text 游戏简介(简短剧情或玩法描述) Score int (0–100) Metacritic 媒体综合评分(核心指标) 特点:聚焦“高质量”、“高口碑”作品,代表行业艺术与设计标杆。 steam_spy_data.csv 来源:SteamSpy API(基于 Steam 公开数据估算) 记录数:约 10,000 款热门 PC 游戏 字段 类型 描述 appid int Steam 唯一应用 ID(可用于链接 Steam 商店页) name string Steam 上的游戏名称 developer string 开发商(如 CD Projekt Red) publisher string 发行商(如 Valve, Devolver Digital) score_rank float SteamSpy 内部排名分数(越高越受欢迎) positive / negative int 正面

2025-11-17

药物过量死亡率数据集,1999年至2019年 美国全国范围内因药物过量导致的死亡率,适用于药物滥用危机的流行病学监测、健康差异研究与公共政策制定

美国国家卫生统计中心(NCHS, National Center for Health Statistics) 于 2021年6月16日 发布,系统记录了 1999年至2019年 美国全国范围内因药物过量导致的死亡率。数据基于官方死亡证明和人口统计信息,旨在支持对药物滥用危机的流行病学监测、健康差异研究与公共政策制定。 时间跨度:21 年(1999–2019) 地理范围:美国全国(无州级细分,除非另有说明) 数据性质:政府公开领域数据(Public Domain),可自由用于非商业或商业研究 用途:追踪阿片类药物危机演变、识别高风险人群、评估干预措施效果 数据内容结构 数据以分层交叉表(cross-tabulated estimates) 形式呈现,每个观测值代表特定人口子群体在某一年的药物过量死亡率。主要维度包括: 核心变量 变量类别 具体字段示例 时间 Year(1999, 2000, ..., 2019) 死亡率指标 Death_Rate(通常为每10万人中的死亡人数) 药物类型 Drug_Type(如 All drugs, Opioids, Heroin, Synthetic opioids (e.g., fentanyl), Cocaine, Psychostimulants) 性别 Sex(Male, Female) 年龄组 Age_Group(如 15–24, 25–34, 35–44, 45–54, 55–64, 65+) 种族与族裔 Race_Ethnicity(如 Non-Hispanic White, Non-Hispanic Black, Hispanic, Non-Hispanic Asian) 辅助元数据字段 字段 说明 Unit 单位(通常为 "deaths per 100,000 population") Subme

2025-11-11

消费者购物行为数据集,模拟了现实世界中消费者的完整购物流程,涵盖人口统计信息、产品属性、交易细节以及客户互动行为,多维度的消费者购物行为画像,适用于数据分析、机器学习

提供真实、多维度的消费者购物行为画像,帮助零售商、电商平台和品牌深入理解顾客决策过程,优化产品、定价、营销与用户体验策略。 适用人群:数据分析师、市场营销人员、机器学习初学者、高校学生及商业智能从业者。 该数据集模拟了现实世界中消费者的完整购物流程,涵盖人口统计信息、产品属性、交易细节以及客户互动行为,是进行消费者行为分析的理想资源。 数据内容结构 1. 人口统计特征(Demographics) age:顾客年龄(整数) gender:性别(如 "Male", "Female", "Other") location:地理位置(城市、州或国家,如 "New York", "California", "USA") 2. 产品与购买详情(Purchase Context) item_category:商品类别(如 "Electronics", "Clothing", "Beauty", "Home & Kitchen") product_size:尺码(如 "S", "M", "L", "XL" 或数值型如 10.5) color:颜色(如 "Black", "Blue", "Red") season:购买季节(如 "Spring", "Summer", "Fall", "Winter") spending_amount:消费金额(浮点数,单位通常为美元或其他本地货币) payment_method:支付方式(如 "Credit Card", "PayPal", "Debit Card", "Cash on Delivery") 3. 促销与服务相关变量 discount_applied:是否使用折扣(布尔值或折扣百分比) promo_code_used:是否使用优惠券(是/否) shipping_type:配送类型(如 "Standard", "Express",

2025-11-10

全球气候变化指标数据集,1961 年至 2022 年全球各国的气候指标变化,适用于数据分析、机器学习

记录了 1961 年至 2022 年全球各国的气候指标变化,旨在揭示长期气候变化趋势及其驱动因素。通过分析温度、降水、极端天气频率等关键变量(具体字段依实际数据而定),用户可识别哪些自然或人为因素对全球变暖产生显著影响,并评估其正向(加剧)或负向(缓解)作用。 时间跨度:62 年(1961–2022) 地理覆盖:全球国家/地区(通常以 ISO 国家代码标识) 核心目标:支持气候科学研究、政策制定与公众教育 适用领域:环境科学、可持续发展、数据科学、公共政策 属性: Indicator 指标名称 表示所测量的气候变量,如 Temperature, Precipitation, CO2 Emissions 等。 Unit 单位 数据的计量单位,例如:Degrees Celsius(摄氏度)、mm/year(毫米/年)、Gt CO₂(十亿吨二氧化碳)。 Source 数据来源 提供该指标数据的机构或项目,例如:NASA GISS, HadCRUT, FAO, IPCC 等。 CTS_CODE 气候主题分类代码(Climate Theme Code) 用于对气候指标进行标准化分类的编码系统,如 ECCC 可能代表“Energy and Climate Change”。 CTS_Name 气候主题分类名称 对应 CTS_CODE 的中文或英文描述,例如 Surface Temperature(地表温度)、Sea Level Rise(海平面上升)。 CTS_Full 完整气候主题描述 更详细的分类描述,可能包含子类或上下文信息,例如 Earth's Surface Temperature Anomaly。

2025-11-10

学生成绩影响因素数据集,学生学业成就与生活方式数据集,145 名学生、33 个属性,整合了个人背景、家庭环境、学习习惯、社交参与及生活方式等33项特征,学业成就背后的复杂动因提供实证基础

旨在全面探究影响学生学业表现的多维度因素。它不仅涵盖学术成绩指标,还整合了个人背景、家庭环境、学习习惯、社交参与及生活方式等33项特征,为理解学业成就背后的复杂动因提供实证基础。 样本数量:145 名学生(每条记录代表一名独立学生) 特征数量:33 个属性(包括分类变量与连续变量) 数据用途:适用于探索性数据分析(EDA)、可视化、预测建模、教育数据挖掘及学生支持系统开发 研究目标:揭示环境、行为与个人因素如何共同作用于学业差异 核心变量类别 1. 人口统计学信息 年龄(Age) 性别(Gender) 高中毕业类型(如普通高中、职业高中等) 奖学金类型(无奖学金、部分资助、全额资助等) 2. 家庭背景 父母教育水平(如高中、本科、研究生等) 父母职业/就业状况(如公务员、私营企业、失业等) 家庭经济支持情况(可隐含在奖学金或父母职业中) 3. 学习行为与习惯 每周学习时长(Weekly study hours) 阅读频率(Reading frequency:从“从不”到“每天”) 是否做笔记(Note-taking habits) 出勤率(Attendance rate 或分类变量) 是否参与翻转课堂(Flipped classroom participation) 是否参加学术研讨会或会议(Seminar/conference attendance) 4. 课外与社交参与 是否参与辩论活动 社团或俱乐部参与情况 志愿服务经历(若包含) 5. 学业成果指标 各科课程成绩(Course grades) 当前累计 GPA(Cumulative GPA,通常 0–4 或 0–100 制) 预测毕业 GPA(Expected GPA at graduation)

2025-11-10

IMDb前250全部电影信息数据集,包含名称、评分、时长、年龄分级等信息,适用于数据分析

IMDb(互联网电影数据库)官方“Top 250”榜单中的全部电影信息 该数据集收录了 IMDb(互联网电影数据库)官方“Top 250”榜单中的全部电影信息,通过网络爬虫从 IMDb Top 250 页面 获取。榜单基于 IMDb 的加权评分算法(考虑用户评分数量、可信度及时间衰减等因素),代表全球影迷公认的高口碑影片集合。 记录数量:250 部电影(截至抓取时间) 核心用途:电影趋势分析、类型偏好研究、明星影响力评估、评分建模与可视化 适用场景:数据科学教学、娱乐产业分析、推荐系统原型、文化研究 主要字段(属性) 虽然具体列名可能因版本略有差异,但典型包含以下关键信息: 字段 类型 说明 Title 电影名称 如 The Shawshank Redemption, Inception 等。通常是英文原名。 # Year 上映年份 电影首次上映的年份(例如:1994, 2010)。用于时间序列分析或年代分组。 Duration 片长 电影时长,格式通常为 hh:mm(如 2h 22m 或 142 min)。可用于分析“长片” vs “短片”的评分差异。 AgeRating 年龄分级 电影的观众年龄限制等级,例如:PG, R, 18+, Not Rated。反映内容成熟度。 # Rating IMDb 评分 用户平均评分(满分 10 分),保留一位小数(如 9.3)。是榜单排序的主要依据。 Votes 评分人数 参与打分的用户数量(如 2,673,427)。表示影片热度与可信度。

2025-11-11

学生表现与参与度数据集,包含 300 名学生的学术表现、出勤情况及课程参与指标,适用于聚类分析、探索性数据分析(EDA)和教育技术应用开发

支持教育数据分析、无监督学习和学生行为模式探索。数据集包含 300 名学生的学术表现、出勤情况及课程参与指标,适用于聚类分析、探索性数据分析(EDA)和教育技术应用开发。 文件名:student_performance.csv 格式:CSV(逗号分隔值) 行数:300 行(每行代表一名学生) 列数:16 个特征字段 + 可选标识列 许可协议:CC BY 4.0(可自由使用、分享和改编,需注明来源) 适用场景:无监督学习、教育数据挖掘、教学演示 不适用场景:大规模监督学习模型训练(因样本量较小) 字段说明 列名 类型 描述 student_id int64 学生唯一ID(可用于主键) name object 学生姓名(建议匿名化处理以保护隐私) age int64 年龄(岁) gender object 性别(如 "Male", "Female" 等) quiz1_marks float64 第一次小测成绩(0–10 分) quiz2_marks float64 第二次小测成绩(0–10 分) quiz3_marks float64 第三次小测成绩(0–10 分) total_assignments int64 布置的作业总数 assignments_submitted float64 已提交的作业数量(当前存在缺失值 NaN) midterm_marks float64 期中考试成绩(0–30 分) final_marks float64 期末考试成绩(0–50 分) previous_gpa float64 上学期GPA(0–4 分制) total_lectures int64 计划总课时数 lectures_attended int64 实际出席课时数 total_lab_sessions int64 计划实验/实践课次数 labs_attend

2025-11-10

全球电动汽车充电站数据集说明,电车充电桩数据集,全球超过 50,000个电动汽车(EV)充电站的详细信息,适用于地理空间分析、基础设施规划、电动车导航应用开发、可用性预测建模以及可持续交通研究

该数据集提供了截至 2025年11月 全球超过 50,000个电动汽车(EV)充电站 的详细信息,数据通过 OpenChargeMap 公共 API 抓取,适用于地理空间分析、基础设施规划、电动车导航应用开发、可用性预测建模以及可持续交通研究。 数据概览 记录总数:约 50,000 条 地理覆盖:全球范围,重点覆盖: 欧洲:法国(FR)、西班牙(ES)、意大利(IT)、比利时(BE)、荷兰(NL)等 北美:美国(US)、加拿大(CA) 新兴市场:阿塞拜疆(AZ)、突尼斯(TN)、塞尔维亚(RS)、亚美尼亚(AM)等 时间基准:所有站点为截至 2025年11月 已添加或更新的数据 数据来源:OpenChargeMap.org(社区贡献、众包数据) 许可协议:CC0(公共领域) — 可自由使用、分享和修改,无法律限制;建议在学术或商业用途中注明数据来源以示尊重。 文件格式:CSV(逗号分隔值) 数据字段说明 字段名 类型/描述 id 充电站唯一标识符(整数) title 充电站名称(如 "Electra - Wambrechies") address 街道地址 town 所在城市或镇 state 州/省(部分国家可能为空) postcode 邮政编码 country 国家代码(ISO 3166-1 alpha-2,如 FR=法国,US=美国) lat, lon GPS 坐标(WGS84 标准,十进制度) operator 运营商/充电网络(如 Tesla、Electra、Ionity 等) status 运营状态(如 "Operational"、"Not Operational"、"Planned" 等) num_connectors 充电接口数量(整数) connector_types 支持的插头类型(以竖线 ` date_added 该站点被录入 OpenCh

2025-11-10

全球百座最高建筑数据集,世界前100个最高建筑数据集,包含建筑名称、所在城市、国家及所属大洲等

—— 地理分布、城市发展与建筑高度分析 数据集概述 该数据集收录了截至2024–2025年全球排名前100的最高摩天大楼信息,数据来源权威,主要基于世界高层建筑与都市人居学会(CTBUH)及维基百科的最新排名。每条记录包含建筑名称、所在城市、国家及所属大洲,结构简洁、字段清晰,适用于地理分析、城市研究及数据可视化项目。 核心用途: 全球超高层建筑地理分布分析 城市发展水平与经济实力的间接指标研究 建筑高度与区域经济、人口密度的关联探索 数据可视化练习(如地图热力图、柱状图、气泡图) 作为城市基础设施类综合数据集的补充模块 数据来源:CTBUH(国际公认的摩天大楼高度标准制定机构)、Wikipedia(2024–2025年更新) 字段说明 字段 说明 示例 Building Name 建筑官方名称 Burj Khalifa City 所在城市 Dubai Country 所在国家 United Arab Emirates Continent 所属大洲 Asia 典型分析方向 1. 大洲与国家分布分析 哪个大洲拥有最多超高层建筑?(亚洲 vs 北美洲) 前10名建筑中有多少位于中国?多少位于中东? 绘制各国上榜建筑数量排行榜(如:中国、美国、阿联酋领先) 2. 城市集中度研究 哪些城市是“摩天大楼集群”?(如深圳、纽约、吉隆坡) 单个城市拥有多座百高建筑是否反映其金融或房地产活跃度? 3. 建筑命名与文化特征 分析建筑名称关键词(如“Tower”、“Center”、“Financial”) 是否存在地域命名偏好?(如中东偏好“Khalifa”、“Grand”,中国多用“International”、“World”) 4. 扩展分析(结合外部数据) 将建筑数量与城市GDP、人口、土地面积关联 探究“人均摩天楼数量”是否反映城市密度或发展模式 结合气候或地质数据,分析超高层建筑

2025-12-29

心脏病预测数据集,基于临床指标的二分类医疗机器学习数据集,每条记录由14个关键健康指标构成,涵盖人口统计学、生理测量和心电图结果等维度 适用于二分类机器学习模型的训练

该数据集包含 270 名患者的匿名医疗记录,用于分析和预测心脏病是否存在。每条记录由14个关键健康指标构成,涵盖人口统计学、生理测量和心电图结果等维度。目标变量为二元分类:“存在心脏病”或“不存在心脏病”。 该数据集源自经典医学研究(通常指 Cleveland Clinic Foundation 提供的 UCI Heart Disease 数据集),被广泛应用于医疗人工智能、分类算法教学与健康风险建模领域。 数据结构说明 总样本数:270 行(每位患者一行) 特征数量:13 个输入特征 + 1 个目标变量(共14列) 任务类型:二分类(Binary Classification) 数据特点:数值型与类别型混合,缺失值极少或已处理

2025-12-29

Steam 游戏数据集(2021–2025,65,000+ 款游戏),游戏详细信息数据集,包含名称、发售时间、开发商、类型、评分、价格等数据,适用于数据分析、机器学习

本数据集全面记录了 2021 年至 2025 年期间在 Steam 平台上发布的超过 65,000 款游戏的详细信息,涵盖已发布及计划于 2025 年底前上线的游戏。数据通过 Steam 官方 Web API 获取,确保来源合法、结构规范,适用于对数字游戏产业进行多维度研究。 核心价值: 反映近年游戏市场的快速增长与结构性变化 支持对独立游戏崛起、定价策略、用户偏好等关键议题的量化分析 提供丰富的标签体系(类型与功能),适用于多标签分类与聚类任务 适用场景: 游戏市场趋势分析 类型与用户推荐关系建模 定价与收入策略研究 独立游戏 vs. 3A 游戏对比 游戏发布时间规律挖掘 数据字段说明 共 65,521 条唯一记录,每条包含以下字段: 字段 说明 示例 appid Steam 平台唯一游戏 ID 730(《CS:GO》) name 游戏名称 "Baldur's Gate 3" release_date 发布日期(含未来计划) "2023-08-03" price 当前售价(美元,0 表示免费) 59.99 / 0.0 genres 开发者定义的游戏类型(逗号分隔) "RPG, Adventure, Indie" categories 支持的功能或模式 "Single-player, Multi-player, Full controller support" developer 开发商名称 "Larian Studios" publisher 发行商名称 "Larian Studios" recommendations 用户推荐数(反映受欢迎程度) 482,105

2025-12-29

自由职业者收入与技能数据集,影响收入因素分析数据集,自由职业者核心技能、工作经验、教育背景和地理位置与时薪及年收入之间的关系,适用于分析零工经济趋势、评估不同技能的市场价值

数据集概述 该数据集收录了全球自由职业者的详细信息,重点考察其核心技能、工作经验、教育背景和地理位置与时薪及年收入之间的关系。该数据适用于分析零工经济趋势、评估不同技能的市场价值,并为自由职业者提供收入参考。 主要用途: 零工经济趋势研究 技能对收入影响的量化分析 不同地区高需求技能识别 自由职业者职业发展建议 数字服务劳动力市场研究 覆盖范围:包含来自全球多个地区(如北美、欧洲、南亚、拉丁美洲等)的自由职业者数据。 主要字段说明 字段 说明 freelancer_id 自由职业者唯一标识符 primary_skill 主要技能(如“Web开发”、“平面设计”、“文案写作”) secondary_skills 次要或附加技能(可能为列表或逗号分隔) years_of_experience 从业年限(数值型) experience_level 经验等级(如“初级”、“中级”、“高级”、“专家”) education 最高学历(如“学士”、“硕士”、“自学成才”) region 所属大区(如“北美”、“东南亚”) country 所在国家 hourly_rate_usd 时薪(以美元计) annual_income_usd 年收入(以美元计) 注:所有金额已统一换算为美元,便于跨国比较。

2025-12-29

X光骨裂检测数据集(骨折 vs. 非骨折二分类),JPG格式X光图像数据,旨在区分骨折与非骨折病例,适用于计算机视觉、医学图像分析及深度学习研究

本数据集包含用于二分类任务的人体骨骼X光图像,旨在区分骨折与非骨折病例,适用于计算机视觉、医学图像分析及深度学习研究。 主要改进与增强: 移除了损坏及重复的图像 所有图像统一转换为JPG格式 图像尺寸标准化为224×224像素,便于模型输入 对类别分布进行了平衡处理,提升模型训练稳定性 按照标准机器学习流程划分为训练集(train)、验证集(val)和测试集(test) 提供配套的元数据CSV文件,便于快速加载与分析 目录结构清晰: text 编辑 processed_dataset/ ├── train/ │ ├── fractured/ │ └── non_fractured/ ├── val/ │ ├── fractured/ │ └── non_fractured/ └── test/ ├── fractured/ └── non_fractured/ 适用场景: 骨折自动分类系统开发 医学影像分析与辅助诊断 卷积神经网络(CNN)训练及迁移学习实验 教学演示与科研项目

2025-12-27

20万条新闻数据,新闻报道文本数据集,10个新闻类别,经过清洗处理,并对原始类别进行了泛化,适用于文本分类、NLP自然语言处理、多类别分类模型训练等任务,适合用于训练自动标注新闻类型的模型训练

该数据集由多个新闻数据源合并而成,经过清洗处理,并对原始类别进行了泛化,以减少分类数量,提升模型训练的效率与泛化能力。目前数据集包含以下10个新闻类别: Technology(科技) Politics(政治) Business(商业) Sports(体育) Health(健康) War(战争) Lifestyle(生活方式) Science(科学) Education(教育) Entertainment(娱乐) 整个数据集共包含约20万条新闻样本,适用于文本分类、自然语言处理、多类别分类模型训练等任务。由于类别经过合理归纳,既保留了语义区分度,又避免了长尾分布带来的训练偏差,适合用于教学、研究或实际应用中的新闻内容自动标注与推荐系统开发。

2025-12-27

近万份人脸图像数据集,真实人脸,ai生成人脸图像,ai人脸识别数据集,多样化人脸图像数据集,适用于ai人脸检测模型训练

该数据集包含了总共9,630张人脸图像,这些图像被组织在两个主要文件夹中:一个文件夹包含4,630张由AI生成的人脸图像,另一个文件夹则含有5,000张真实人类的面部照片。这种结构设计旨在便于导航、清晰对比以及高效地训练机器学习模型。 核心特点包括: 平衡的数据类型:数据集中合成与真实图像兼有,为研究提供了多样化的素材,特别适合用于真假人脸辨别的任务。 丰富的样本内容:涵盖了不同的年龄、性别、种族及光照条件,有助于提高模型的泛化能力。 清晰的组织架构:易于访问和使用,支持快速构建和测试计算机视觉应用。 适用性广泛:适用于深度伪造检测、脸部分类、真实性验证等任务,同时也可用于一般的计算机视觉研究与开发。 该数据集包含一个精心整理的多样化人类面部图像集合,专为现代人工智能应用设计。所有图像均为高质量、清晰且结构良好,涵盖不同年龄、性别、肤色、光照条件和姿态,以确保模型训练的泛化能力。 本数据集适用于多种计算机视觉任务,包括但不限于:人脸检测、人脸识别、面部表情分析、身份验证以及生成式建模(如GANs)。无论是初学者开展首个视觉项目,还是研究人员优化高级深度学习系统,该数据集均可提供可靠的基础支持。 数据经过标准化处理,标注规范(如适用),可直接用于训练、验证或测试各类人脸相关AI模型,适合学术研究、教学实验及工业级开发使用。

2025-12-27

鸽子是否会吃面包二分类数据集,数据模拟了鸽子在不同情境下是否会选择食用面包的行为,为机器学习教学任务而创建

该数据集是一个完全合成的模拟数据集,最初为机器学习教学任务而创建,旨在练习支持向量机(SVM)和逻辑回归等分类算法。数据模拟了鸽子在不同情境下是否会选择食用面包的行为,目标变量为二元分类:will_eat_bun(1 表示吃,0 表示不吃)。 每条样本包含多个虚构但合理的环境与情境特征,例如面包大小(bun_size)、附近鸽子数量(nearby_pigeons_count)、一天中的时间(time_of_day)、喂食点人气(feeding_spot_popularity)、到鸽子的距离(distance_to_pigeons_m)、是否下雨(is_raining)、地面碎屑量(crumbs_on_ground)、人群密度(crowd_density)、人类距离(human_distance_m)以及环境噪音水平(noise_level)。 需要注意的是,所有数据均为程序生成,不基于真实生物学观测,仅用于教育和实验目的。该数据集结构清晰、无隐私风险,适合用于入门级或进阶的监督学习项目、特征工程练习及模型性能比较。

2025-12-27

乳腺癌诊断数据集(含肿瘤临床特征,用于二分类建模)包含肿瘤大小、纹理、形状、光滑度等关键指,标适用于医疗健康领域的机器学习与数据科学研究

该数据集包含从乳腺肿瘤样本中提取的临床与诊断特征,旨在支持医疗健康领域的机器学习与数据科学研究。每条记录代表一位患者的肿瘤特征,包括大小、纹理、形状、光滑度等关键指标,这些变量在医学诊断和癌症研究中具有广泛应用。 数据集的目标是将肿瘤分类为“恶性(Malignant)”或“良性(Benign)”,适用于构建早期检测与辅助诊断的监督学习模型。数据为结构化表格形式,目标变量为二元分类,已清洗整理,可直接用于建模。 典型应用场景包括:乳腺癌预测模型开发、特征重要性分析、模型可解释性研究、医疗AI系统构建,以及教学或竞赛项目。该数据集适合机器学习初学者及资深从业者,兼容逻辑回归、支持向量机、K近邻、随机森林、XGBoost等多种算法。

2025-12-27

500家餐厅详细信息数据集(含位置、菜系、评分、价格等字段),涵盖餐厅名称、所在城市、菜系类型、顾客评分、两人平均消费、营业时间等信息,适用于数据分析、可视化项目、机器学习建模及商业洞察研究

本数据集收录了500家餐厅的完整信息,涵盖餐厅名称、所在城市、菜系类型、顾客评分、两人平均消费、营业时间、联系方式以及附加服务(如是否提供外卖、是否有堂食座位等)。数据经过清洗与结构化处理,适用于探索性数据分析、可视化项目、机器学习建模及商业洞察研究。典型应用场景包括:分析不同地区菜系偏好、探究评分与价格之间的关系、构建餐厅推荐系统,或为餐饮创业者提供市场趋势参考。该数据集兼顾初学者与高级用户需求,可直接用于Python生态工具(如pandas、seaborn)或主流BI平台(如Power BI、Tableau)。

2025-12-27

NBA分析数据集,NBA多项指标数据集,涵盖2023至2025赛季的球员表现、球队指标,包括球员统计数据(得分、篮板等)、球队整体表现指标(胜率等)、以及比赛情境信息,适用于数据分析,机器学习

该数据集是一个全面的多表结构NBA分析数据集合,涵盖2023至2025赛季的球员表现、球队指标以及比赛上下文信息。其设计目标是支持体育数据分析、学术研究、数据科学项目、建模、可视化以及相关教育用途。 所有数据均来自公开的网络资源,经过清洗、标准化处理,并整合为便于机器读取的结构化表格。数据内容包括但不限于球员统计数据(如得分、篮板、助攻等)、球队整体表现指标(如胜率、攻防效率)、以及比赛情境信息(如主客场、赛程密度、对手强度等),为深入探索NBA比赛动态和绩效驱动因素提供了可靠基础。

2025-12-27

宠物零售连锁店7年销售与运营数据(含地理信息),专注于销售狗粮、服饰、笼舍、玩具等犬类相关产品,适用于数据分析、机器学习

宠物用品零售连锁品牌,专注于销售狗粮、服饰、笼舍、玩具等犬类相关产品。该数据集专为初学者和进阶数据分析师设计,提供了一个贴近真实商业场景的分析沙盒。 时间跨度:7 年(2018–2024) 前5年(2018–2022):基于真实行业趋势模拟(如季节性、节假日效应、品类增长) 后2年(2023–2024):由AI生成,引入更多异常值与市场波动(“增加趣味性”) 数据真实性: 所有客户、员工信息均为完全虚构 门店地址(Branch 表) 使用美国真实公共建筑位置(如市政厅、图书馆),适合地理可视化 未来扩展:将新增更多商品类别,并可能拓展至猫及其他宠物品类

2025-12-02

食物营养数据集,205 种常见日常食物的结构化营养成分信息,如水果、蔬菜、主食、乳制品、饮料、零食及家常菜肴

205 种常见日常食物的结构化营养成分信息,所有数据均来自全球权威的公开营养数据库 —— 美国农业部(USDA)FoodData Central API。 为确保实用性和贴近真实饮食场景,数据集仅包含普通人日常会食用的食物,如水果、蔬菜、主食、乳制品、饮料、零食及家常菜肴,明确排除了以下内容: 营养补充剂(如蛋白粉、维生素片) 婴儿配方奶粉 实验室专用或冷门科研食品 冲调粉末类非即食产品 该数据集经过精心清洗与整理,无冗余、缺失值极少、格式统一,可直接用于数据分析、可视化或机器学习项目。 总记录数:205 行(每行代表一种食物) 字段数量:9 列(含数值型 + 类别型) 食物类型覆盖: 水果(如苹果、香蕉) 蔬菜(如菠菜、胡萝卜) 谷物主食(如米饭、全麦面包) 蛋白质来源(如鸡胸肉、豆腐、鸡蛋) 乳制品(如牛奶、酸奶) 饮料(如咖啡、橙汁) 零食(如薯片、饼干) 地域性菜肴(包括印度菜如咖喱角、西方菜如意大利面等)

2025-12-02

乳腺癌良恶性分类数据集,基于细胞核特征的分析,569 个样本,30 个数值型特征,广泛用于医学图像分析,记录代表一个细针穿刺活检样本中提取的细胞核,并包含多个高精度数值特征,用于区分良性与恶性肿瘤

Wisconsin Diagnostic Breast Cancer (WDBC) 数据集,广泛用于医学图像分析、机器学习在医疗诊断中的应用以及早期癌症检测研究。每条记录代表一个细针穿刺(FNA)活检样本中提取的细胞核,并包含多个高精度数值特征,用于区分良性(Benign) 与恶性(Malignant) 肿瘤。 来源:University of Wisconsin Hospital(经 UCI Machine Learning Repository 收录) 记录数:569 个样本 特征数:30 个数值型特征(10 个核心测量 × 3 统计量) 目标变量:diagnosis("M" = Malignant, "B" = Benign) 类别分布: 恶性(M):约 212 例(37%) 良性(B):约 357 例(63%) 权威性高:被数千篇医学AI论文引用,是医疗ML领域的“Hello World”级数据集。 特征详解:细胞核的量化描述 所有特征均从数字显微图像中自动计算得出,围绕以下 10 个核心属性,每个属性提供 均值(mean)、标准差(std error)、最差值(worst) 三个统计量,共 30 列: 核心属性 医学/图像意义 Radius 细胞核半径(平均距离中心点) Texture 灰度值的标准差(反映纹理粗糙度) Perimeter 细胞核边界周长 Area 细胞核面积 Smoothness 半径变化的局部变异程度(越小越光滑) Compactness (perimeter² / area) – 1(衡量形状紧凑性) Concavity 轮廓凹陷部分的严重程度 Concave points 轮廓凹陷点的数量 Symmetry 形状对称性(0 = 完全对称) Fractal dimension 边界复杂度(分形维数)

2025-12-02

健身房会员流失预测与行为分析数据集,包含健身房会员信息,涵盖人口统计、会员类型、到访频率、锻炼习惯及流失状态,适用于机器学习建模、数据清洗练习与探索性数据分析设计

数据集概览 该数据集包含匿名化的健身房会员信息,涵盖人口统计、会员类型、到访频率、锻炼习惯及流失状态(Churn),专为机器学习建模、数据清洗练习与探索性数据分析(EDA) 设计。 每行 = 1 位会员 目标变量:Churn("Yes" / "No") 核心任务:预测会员是否会停止到店(流失) 应用场景: 客户留存策略制定 个性化干预(如推送优惠、教练跟进) 会员生命周期价值(LTV)建模 字段详解 字段 类型 描述 Member_ID ID 唯一会员编号 Name string 匿名化姓名(如 "User_1234") Age int 年龄(如 28, 45) Gender string 性别("Male", "Female", "Other") Address string 匿名地址(如 "City_A, Zone_5") Phone_Number string 虚构号码(仅用于格式练习) Membership_Type categorical "Monthly", "Quarterly", "Yearly" Join_Date date 入会日期(如 "2023-03-15") Last_Visit_Date date 最近一次到店日期 Favorite_Exercise string 偏好运动(如 "Treadmill", "Squats", "Yoga") Avg_Workout_Duration_Min float 平均单次锻炼时长(分钟) Avg_Calories_Burned float 平均单次消耗热量 Total_Weight_Lifted_kg float 累计举重总量(反映力量训练强度) Visits_Per_Month float 月均到店次数 Churn binar

2025-12-02

全面洞察全球、区域就业市场趋势与人才需求,涵盖岗位名称、行业类别、技能要求、薪资水平、经验门槛等核心维度,适用于数据分析、劳动力市场分析

各行业公开职位信息,涵盖岗位名称、行业类别、技能要求、薪资水平、经验门槛等核心维度,旨在为招聘方、求职者、政策制定者及数据科学家提供对劳动力市场的深度理解。 目标用户: 招聘分析师(优化人才策略) 职业规划师(指导技能提升) 数据科学家(建模预测 hiring trends) 政府/教育机构(识别技能缺口) 典型应用场景: 劳动力市场动态分析 高需求技能识别(如 AI、云计算) 薪资基准比较(按地区/经验/行业) 求职推荐系统开发 职业转型路径建模

2025-12-02

Zara品牌的商品销售表现,零售销售分析与商品策略优化数据集,产品特征、陈列策略、促销活动与季节因素如何共同驱动销量,适用于零售分析、商品企划、定价策略及消费者行为研究

Zara 品牌的商品销售表现,包含每款在售产品的详细属性与营销上下文信息,旨在揭示产品特征、陈列策略、促销活动与季节因素如何共同驱动销量。数据结构完整、字段丰富,适用于零售分析、商品企划、定价策略及消费者行为研究。 核心品牌:Zara(快时尚代表) 数据粒度:单品级别(每行 = 1 款 SKU) 目标用途: 探索性数据分析(EDA) 畅销品识别 季节性趋势建模 促销效果评估 商品组合优化

2025-12-02

全球灾害事件与应急响应效能分析数据集,2018 年至 2024 年间全球报告的 50,000 起灾害事件,涵盖自然灾害(如地震、洪水、飓风)与部分人为/技术性灾难,适用于数据分析、机器学习

记录了 2018 年至 2024 年间全球报告的 50,000 起灾害事件,涵盖自然灾害(如地震、洪水、飓风)与部分人为/技术性灾难。每条记录不仅描述灾害本身,还包含人道主义响应的关键绩效指标,如援助金额、响应速度和效率评分。 时间跨度:2018 – 2024(含近年极端气候事件) 记录数量:50,000 条独立灾害事件 字段数量:12 列(结构化表格数据) 核心价值: 揭示“灾害强度”与“响应效能”之间的关联 支持跨国/跨区域应急能力对比 为政策制定者提供数据驱动的防灾减灾依据

2025-11-24

外卖配送路径优化数据集,专为学习和实践物流路径优化、配送效率分析、运筹学建模与实时调度算法而设计

高度仿真的合成外卖配送数据,专为学习和实践物流路径优化、配送效率分析、运筹学建模与实时调度算法而设计。虽然数据为程序生成,但其结构、分布和业务逻辑紧密贴合真实外卖平台(如 Uber Eats、DoorDash、美团、饿了么)的运营场景。 核心目标:提升配送效率 → 缩短送达时间、降低骑手空驶率、提高订单履约率 适用人群: 运筹学/物流专业学生 数据科学家(路径优化方向) 算法工程师(LBS、调度系统) 机器学习研究者(强化学习用于动态派单)

2025-11-24

蝙蝠物种多样性、栖息地与疾病易感性综合数据集,整合了物种分类、栖息偏好、生理适应机制及疾病关联等多维度信息 数据涵盖两大主要类群-小蝙蝠亚目与大蝙蝠亚目,支持生物多样性研究、数据分析

聚焦全球蝙蝠(Chiroptera)的生物学特性与生态行为,整合了物种分类、栖息偏好、生理适应机制及疾病关联等多维度信息。数据涵盖两大主要类群——小蝙蝠亚目(Microchiroptera) 与 大蝙蝠亚目(Megachiroptera),旨在支持生物多样性研究、人畜共患病监测、保护生物学及进化医学等领域。 核心价值:连接生态学、免疫学与流行病学 适用方向: 物种分布建模 疾病宿主动态分析 长寿与抗病毒机制研究 保护优先区识别

2025-11-24

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除