自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(22)
  • 收藏
  • 关注

原创 796 条全球共享单车网络数据集 | 16 列全维度指标 (系统 / 位置 / 运营方)+ 多源覆盖 | 城市交通分析 / 运营布局 / 地理可视化用

【摘要】本数据集提供全球796个共享单车系统的结构化数据,涵盖16个核心维度(系统标识、地理坐标、运营方、GBFS接口等),解决传统数据碎片化、维度缺失等问题。数据覆盖欧洲、亚洲、美洲等多区域,标准化处理无缺失值,支持跨地域对比分析与地理可视化。应用场景包括:1)全球网络空间分布热力图绘制;2)运营模式与数字化水平评估(如欧洲联合运营占比60%);3)随机森林模型预测系统类型(准确率≥0.7)。

2025-09-15 23:18:28 1152

原创 2000-2023 年多国每日天气数据集 | 9 列全维度指标 (气温 / 降水 / 风速)+23 年时间跨度 | 气候趋势分析 / 环境建模 / 时间序列预测用

【摘要】本数据集整合2000-2023年全球20余国每日气象数据,涵盖气温、降水、风速、日照等9类核心指标,总记录超17万条。针对传统数据集的单一性缺陷,其突出优势在于多国覆盖(含五大洲不同气候带)、全维度指标(支持农业、防灾等多元场景)和23年长周期跨度(包含极端气候事件节点)。数据集已标准化处理,提供Python预处理代码示例,并演示气候趋势分析、气温预测等典型应用场景(如Prophet模型预测中国气温的MAE<2℃),为气候研究、环境规划等领域提供高价值数据支撑。通过MIT许可证开放获取。

2025-09-14 09:00:00 3033

原创 1985-2025 年黄金白银价格与地缘政治风险数据集 | 15 列全维度指标 + 40 年时间跨度 | 贵金属市场分析 / 地缘风险研究 / 投资策略构建用

​本数据集针对上述痛点,整合Investing.com贵金属数据与 Matteo Iacoviello 权威地缘政治风险指数(GPRD),提供 1985-2025 年 40 年每日全维度数据,涵盖黄金 / 白银价格(开盘 / 最高 / 最低 / 收盘)、地缘风险指数(总指数 + 行为 / 威胁子指数)及重大事件标签,数据无缺失且格式标准化,无需预处理即可直接用于市场风险分析、投资策略构建与宏观经济研究。

2025-09-13 09:00:00 1896

原创 9120 部 TMDb 高分电影数据集 | 7 列全维度指标 (评分 / 热度 / 剧情)+API 权威源 | 电影趋势分析 / 推荐系统 / NLP 建模用

本文介绍了一个基于TMDb权威数据的高分电影数据集,涵盖1902-2025年的9120部影片,包含电影ID、标题、剧情概述、上映日期、热度分数、平均评分和投票数等7个核心指标。相比传统数据集,该数据具有三大优势:1)权威源多维度指标,支持评分与热度相关性分析;2)百年时间跨度,可分析长期行业趋势;3)标准化处理无缺失值,降低使用门槛。数据集适用于电影趋势分析、推荐系统搭建和NLP建模等任务,并提供了数据预处理、评分预测、主题聚类和趋势可视化等核心任务的代码示例。

2025-09-12 10:00:00 1718

原创 5 万条肺癌风险数据集 | 11 列全维度指标 (吸烟史 / 暴露因素 / 疾病史)+ 无缺失值 | 肺癌风险预测 / 风险因素分析 / 医疗建模用

本数据集为肺癌风险预测研究提供结构化医疗数据,包含50,000条患者记录,涵盖人口统计、风险暴露(吸烟、氡、石棉等)、基础疾病和家族史等11个核心指标。数据预处理完善,无缺失值,阳性病例占比25%符合临床分布。支持肺癌风险预测建模(逻辑回归/随机森林)、风险因素关联分析(卡方检验/Pearson相关系数)等任务。通过量化吸烟、COPD等关键因素的肺癌风险贡献,该数据集可辅助临床筛查工具开发和高危人群识别,为医疗决策提供数据支持。获取方式详见文末说明,遵循CC0协议免费用于非商业研究。

2025-09-12 09:00:00 1210

原创 196 国 2020-2025 年 GDP 数据集 | 7 列年度经济指标 (现价美元)+IMF 权威源 | 全球经济趋势分析 / 国家增长预测 / 政策研究用

本文介绍了一个权威的全球GDP数据集,涵盖196个国家2020-2025年的GDP数据,其中2020-2023年为IMF核实数据,2024-2025年为预测值。该数据集解决了传统GDP数据碎片化、覆盖不全和缺乏预测的问题,具有权威来源、完整覆盖和长期跨度的特点。文章详细说明了数据预处理方法(单位转换、特征衍生等)和两个核心应用场景:基于XGBoost的国家GDP增长预测模型(MAE<50十亿美元,R²≥0.85)和全球经济趋势分析(区域增长对比、经济体规模分组)。

2025-09-11 00:14:02 2673

原创 5.2 万条 Myntra 时尚销售数据集(牛仔裤品类)| 7 列全维度指标 (价格 / 折扣 / 评分)+ 网络抓取源 | 定价趋势分析 / 品牌热度洞察 / 推荐系统用

本文介绍了Myntra平台52,120条牛仔裤销售数据集,该数据集包含品牌、产品描述、价格、折扣、评分和评价数量等7个核心维度,通过Selenium+BeautifulSoup合规抓取并经过标准化处理。相比传统电商数据,该数据集聚焦单一品类,覆盖产品全链路信息,可直接用于定价分析、品牌热度和推荐系统构建。文章详细展示了数据预处理方法(异常值处理、特征衍生)和两个核心应用场景:基于随机森林的价格预测模型(MAE<200卢比)和品牌热度关联分析。

2025-09-10 09:00:00 1529

原创 3900 条购物行为数据集 | 18 列全维度指标 (人口统计 / 产品属性 / 购买行为)+ 无缺失值 | 客户细分 / 消费趋势分析 / 推荐系统用

【摘要】本数据集针对电商购物行为分析中的痛点问题,提供结构化全维度数据,包含3900条标准化记录,覆盖用户人口统计、产品属性、交易行为及反馈评价等18个关键字段。数据特点包括:多品类(服装/鞋类/辅料等)均衡分布、四季消费场景模拟、无缺失值标准化标注。通过配套的Python代码示例,支持客户细分(KMeans聚类)和消费预测(XGBoost回归)等核心分析任务,可直接用于精准营销、库存优化等电商运营场景。

2025-09-10 00:08:16 3951

原创 1005 条全球香水数据集 | 6 列全维度属性 (品牌 / 香调 / 受众 / 寿命)+ 无缺失值 | 香水分类 / 受众匹配 / 产品分析用

本文介绍了一个结构化全球香水数据集,包含1005条香水记录,涵盖品牌、香调、浓度、受众、寿命等6个核心维度。该数据集解决了传统香水数据维度单一、标注混乱、缺失值多等问题,具有字段标准化、逻辑自洽、无缺失值等优势。数据集支持香水分类、受众匹配与产品分析等任务,并提供完整的数据预处理、分析建模指导(包括随机森林分类、XGBoost回归和Seaborn可视化等方法)。通过浓度分布、香调偏好等分析,可帮助品牌定位产品、优化配方设计。数据集基于CC BY4.0许可证,适用于商业分析、学术研究等场景。

2025-09-04 23:59:28 961

原创 2133 条奢侈品美妆快闪活动数据集 15 列全维度指标 (客流 / 售罄率 / 区域)+3 种格式 需求预测 / 选址策略 / 定价分析用

《奢侈品美妆快闪零售数据集:助力数字化营销决策》 本数据集专为奢侈品美妆行业设计,提供2024-2025年全球2133条快闪活动全维度数据,覆盖5大区域、5类高端场景和5种活动形式。包含15个核心指标(日均客流、售罄率、租期等)和行业专属特征(限量SKU、高端venue类型等),解决传统数据集通用化、单一化的问题。数据经严格标注和验证,提供CSV/JSON/XLSX三种格式,可直接用于客流预测、售罄率分析和ROI计算等场景。

2025-09-03 10:21:14 1444

原创 24.2 万条全球电动汽车充电站数据集(2025) 11 列全维度信息 (功率等级 / 位置 / 端口数)+4 个配套文件 充电网络规划 / EV 车型适配 / 政策分析用

【摘要】本数据集提供2025年全球电动汽车充电站全维度数据,包含24.2万条充电站点记录,覆盖122个国家。数据源自OpenChargeMap权威平台,包含11个核心维度(位置、功率等级、端口数量等)及4个配套文件(国家汇总、全球汇总、EV车型数据),支持跨区域对比分析、充电网络规划及车型适配研究。相比传统数据集,其优势在于全球覆盖、维度完整、数据关联性强,已进行结构化标注和异常值处理,可直接用于地理可视化、功率等级预测等分析任务。

2025-09-03 10:20:45 2174 2

原创 200 条客户分析实践数据集 10 列增强特征 (收入 / 储蓄 / 偏好)+4 类购物偏好 客户细分 / ML 预测 / 零售营销用

【摘要】本文介绍一个增强版零售客户数据集,针对传统数据集的维度单一、场景失真等问题,提供200条结构化客户记录,包含10个核心维度(如收入、储蓄、信用评分、购物偏好等)。该数据集基于真实零售业务逻辑生成,支持客户细分、偏好预测等分析任务,具有三大优势:1)多维度特征覆盖客户全生命周期;2)特征间逻辑自洽符合行业规律;3)低门槛适配各类分析工具。文中详细展示了数据预处理、KMeans聚类、随机森林分类等应用案例,并提供完整代码示例,帮助用户快速开展零售客户价值分析、营销策略优化等实际业务应用。

2025-09-02 22:12:49 1125

原创 3 赛季英超联赛数据集(2021-2024)| 376 场比赛 + 40 列全维度统计 (比分 / 控球率 / 上座率) | 球队表现分析 / 预测建模 / 足球趋势研究用

本数据集提供2021-2024三个完整英超赛季的结构化比赛数据,涵盖376场比赛记录、40个核心维度,包括比赛结果、控球率、射门数、上座率等关键指标。数据源自天空体育,经过标准化处理,解决了传统英超数据集指标不完整、跨赛季连贯性差、格式不统一等痛点。特点包括:1)3赛季跨周期覆盖,支持长期趋势分析;2)全维度指标,覆盖比赛-统计-商业全链路;3)字段标准化,节省60%以上数据预处理时间。数据集可直接用于球队表现分析、预测建模和足球研究,配套提供Python预处理代码和应用示例

2025-09-02 22:00:38 1355

原创 多表关联国际酒店预订分析数据集 | 3 表结构化数据 (酒店 / 用户 / 评论)+31 列全维度指标 | 客户满意度分析 / ML 预测 / 市场趋势研究用

【摘要】本数据集为关系型国际酒店预订分析数据库,旨在解决传统酒店数据存在的碎片化、关联缺失和反馈非量化三大痛点。数据集包含3张关联表(hotels/users/reviews)、31个核心字段,覆盖酒店属性、用户画像和定量评论分数全链路信息,通过外键实现数据闭环。核心优势包括:1)多表外键关联构建完整分析链路;2)全维度指标支持多场景运营分析;3)提供CSV和SQLite双格式适配不同用户需求。数据集附带全流程应用指南,包含数据预处理、三种典型分析建模场景(评论预测、用户细分、定价优化)的代码实现及关键参数

2025-09-01 14:30:00 1291

原创 400 + 条 2025 年 YouTube 视频统计数据集 | 15 列元数据 + 性能指标 (播放 / 点赞 / 评论)+ 多内容类别 | 媒体趋势分析 / ML 预测 / 频道基准用

本文介绍了一个2025年YouTube视频数据集,包含400+条结构化记录,涵盖15个核心维度(视频ID、标题、标签、类别、播放量、点赞数等),数据时效性截至2025年8月20日。该数据集解决了传统YouTube数据碎片化、滞后、非标准化的问题,特别适合内容创作者、研究者和营销人员进行趋势分析、播放量预测和内容优化。数据集可直接用于机器学习建模(如随机森林预测播放量、TextCNN分类视频内容),无需预处理即可分析标签热度、发布时段与播放量的关系等关键指标。

2025-09-01 09:30:00 5349

原创 3000 条电动汽车分析数据集 | 25 列全维度指标 (性能 / 充电 / 电池 / 成本)+4 大地区覆盖 | EV 研究 / ML 预测 / 成本优化用

本文介绍了一份结构化电动汽车全维度分析数据集,旨在解决当前EV数据零散、局限和非标准化的痛点。数据集包含3000条记录,覆盖2015-2024年全球4大地区多品牌车型,包含25个核心指标(性能、电池、充电、成本等),具有维度全、覆盖广、标准化三大优势。通过Python代码示例演示了续航预测、电池健康度分析和充电功率预测等核心应用场景,支持机器学习建模和可视化分析。该数据集可帮助车企优化设计、消费者选择车型和政策制定者规划充电网络,显著提升EV研究效率。

2025-08-31 23:57:46 1389

原创 30 天纽约布鲁克林 PM2.5 数据集 | 2 个监测站 + 每日浓度值 + 双传感器类型 | 空气质量分析 / 时间序列预测用

【摘要】本数据集提供2025年8月纽约布鲁克林两个监测站(含空气传感器和参考级传感器)的30天连续PM2.5监测数据,具有三大核心优势:1)完整关联监测站位置、传感器类型与时间序列数据;2)无缺失值的月度连续记录;3)规范文档说明(含UTC时间标注、单位定义)。数据集包含2个CSV文件(60条记录)及预处理代码,支持空气质量趋势分析、传感器精度对比和随机森林预测等场景,解决了传统环境数据碎片化、维度单一等问题。

2025-08-31 23:48:19 876 1

原创 2000 条美国物流绩效数据集 | 11 列全链路货运信息 + 2% 缺失值 + 3% 异常值 | 供应链优化 / 延迟预测 / ML 建模用

本文介绍了一个针对美国物流供应链优化的结构数据集,包含2000条货运记录,覆盖11个关键维度(货件标识、时空信息、成本状态等)。数据集特点包括:1)完整物流链路数据,支持端到端分析;2)模拟2%缺失值和3%异常值,贴近真实场景;3)多维度分区,适配不同分析需求。文章详细演示了数据预处理、延误预测和成本预测三个核心应用场景,提供完整的Python代码实现。该数据集可直接用于物流优化、机器学习建模等任务,帮助解决传统物流数据碎片化、失真等问题。获取方式为后台私信或关注指定公众号,使用遵循CC0协议。

2025-08-30 19:00:00 1686

原创 40 万条社交媒体广告事件数据集 | 4 表关联 (用户 / 活动 / 广告 / 事件)+ 真实转化漏斗模拟 | 营销分析 / SQL 实践 / 预测建模用

摘要:本文介绍了一个结构化社交媒体广告数据集,包含4张关联表(用户、活动、广告、事件)共41万条记录,模拟真实广告平台数据模型。该数据集支持全漏斗分析(展示→点击→购买)、人群细分和ROI预测等核心营销分析任务,解决了传统广告数据集碎片化、失真和隐私风险等问题。通过SQL查询和Python代码示例,展示了如何进行广告转化漏斗分析、点击率预测和活动ROI预测等典型应用场景。数据集采用CC0协议,不含个人身份信息,可直接用于商业分析、教学和个人项目。

2025-08-30 18:05:17 728

原创 3024 条 2025 财经新闻市场事件数据集 | 含情绪 / 交易量 / 18 大指数数据 | NLP 金融分析与市场预测用

本文介绍 “2025 财经新闻市场事件数据集”,以解决当前金融数据集维度单一、场景局限、质量参差问题。数据集采集 2025 年 2-8 月全球 18 大市场指数数据,含 3024 条财经新闻记录,含文本、数值等类型,标注情绪、事件类别等信息(精度高),提供多格式文件。其优势在于维度完整(建 “新闻 - 市场 - 影响” 闭环)、场景全面(覆盖多区域多事件)、复用性高且门槛低。文中还提供数据预处理、情绪分类(FinBERT)、指数预测(LightGBM)的代码示例与说明,展示样例,明确获取渠道、使用限制。

2025-08-29 09:30:00 1739

原创 2.2M + 记录 10 类 CSV 足球数据集 | 4.1 万球员 + 1400 俱乐部 + 多维度统计 | 足球分析 / ML 预测

本文介绍了一个结构化、多维度的足球数据集,旨在解决传统足球数据碎片化、预处理困难等问题。数据集基于Transfermarkt数据构建,覆盖4.1万+球员、1400+俱乐部的10类核心信息,包括球员表现、估值、转会、伤病等全生命周期数据。主要特点包括:1)维度全面,支持深度分析;2)结构化程度高,可直接用于分析;3)兼容各类工具,降低使用门槛。数据集提供Python代码示例,支持市场价值预测、伤病风险分析等场景。数据以CSV格式提供,每季度更新,适用于俱乐部运营、学术研究等用途。

2025-08-28 22:44:28 1373

原创 11 列咖啡店结构化交易记录数据集 | 时间 / 咖啡类型 / 付款方式多维度覆盖 | Power BI/Tableau/Python 可视化 & 业务分析用

本数据集为结构化咖啡店交易数据,覆盖完整年度周期,包含时间、产品、付款等11个维度。其核心优势在于无需预处理即可直接分析,支持三大应用场景:通过销售趋势定位营业高峰时段(如早8点交易量达120笔/小时)、基于产品销售额排名优化库存(拿铁12,000元居首),以及分析客户付款偏好。适配PowerBI/Tableau等工具,可节省80%数据处理时间,帮助中小咖啡店快速实现数据驱动决策。

2025-08-27 22:22:50 1172

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除