传神社区|数据集合集第5期|金融数据集合集

自从ChatGPT等大型语言模型(Large Language Model, LLM)出现以来,其类通用人工智能(AGI)能力引发了自然语言处理(NLP)领域的新一轮研究和应用浪潮。尤其是ChatGLM、LLaMA等普通开发者都能运行的较小规模LLM开源之后,业界涌现了大量基于LLM的二次微调和应用案例。

传神社区(Opencsg)旨在收集和整理与NLP数据集相关的开源数据集。目前每篇文章整理的资源至少10个!如果本篇文章对您有帮助,欢迎点赞与收藏~

我们也欢迎大家贡献本文未收录的开源数据集,提供对应的资源,描述与链接,感谢您的支持!

目录

1. 金融数据集

  • 1.1 基于股票特定新闻分析模型的新数据集和自动化股票交易

    1.2 FinGLM金融大模型数据集

    1.3 ATIS:航空公司旅行信息系统

    1.4 Olist 的巴西电子商务公共数据集

    • 1.11 Financial Opinion Mining and Question Answering

      1.12 金融咨询服务数据集

      1.13 财经新闻情感分类数据集

      1.14 蚂蚁金融问题匹配语料库

      1.15 金融协议数据集

      • 1.5 电商推荐“抱大腿”攻击识别数据集

        1.6 女性服装电商评论

      • 1.7 消费者投诉 - 金融产品数据集

      • 1.8 基于金融-司法领域(兼有闲聊性质)的聊天机器人

      • 1.9 超级碗广告数据集

      • 1.10 证劵交易所数据集

01 金融数据集

1.1 基于股票特定新闻分析模型的新数据集和自动化股票交易

Astock:

简介:基于特定股票新闻分析模型的数据集和自动股票交易的代码。

地址:https://www.opencsg.com/datasets/MagicAI/Stock_Exchange

图片

1.2 FinGLM金融大模型数据集

FinGLM:

### 帕德伯恩大学轴承数据集(PU)概述 帕德伯恩大学轴承数据集(Paderborn University Bearing Dataset, PU)是一个广泛应用于机械故障诊断领域的公开数据集[^2]。该数据集由帕德伯恩大学轴承数据中心提供,包含了丰富的电流信号和振动信号数据,旨在支持基于数据驱动的故障识别与分类研究。 #### 数据结构 PU 数据集由32组不同的信号组成,其中包括电流信号和振动信号。具体而言: - **轴承类别划分**: - 6个未损坏轴承; - 十二个人为损坏的轴承; - 14个因加速寿命试验而造成的实际损坏轴承。 这些轴承被进一步细分为多个子类别,例如 KA04、KA15、KA16、KA22、KA30、KB23、KB24、KB27、KI14、KI16、KI17、KI18 和 KI22 等。值得注意的是,在某些情况下,部分样本可能存在重复记录(如 KI04 与 KI14 完全一致),因此在数据分析过程中通常会剔除冗余项以减少计算负担。 - **运行条件设置**: 每一组数据均是在特定的工作条件下采得到的。为了简化分析流程并提高效率,许多研究者会选择专注于某一固定工况下的数据来进行建模验证——比如 N15_M07_F10 工况下的实际损坏轴承所对应的振动信号。 #### 主要特点 以下是 PU 数据集中几个显著的特点: 1. **多样性**:覆盖了从健康状态到不同程度的人造缺陷以及自然老化的各种情形,从而能够全面反映真实世界中的复杂场景。 2. **高质量采样率**:采用高精度传感器获取振动加速度波形曲线作为主要特征输入源之一;同时辅之以电机负载电流变化趋势图谱来增强整体描述能力[^1]^. 3. **标准化标注体系**:每条记录都配有清晰明确的状态标签以便后续监督学习任务实施时可以直接利用无需额外预处理操作即可快速上手尝试新算法设计思路验证效果如何等等诸多便利之处不胜枚举[^3]. 4. **开源共享机制**:得益于其开放存取政策使得全球范围内的学术界同仁都可以无障碍访问下载全套原始素材进而推动整个行业技术水平共同进步向前迈进一大步. #### 应用价值 凭借上述优势属性组合在一起构成了独一无二的研究平台可供探索如下方向但不限于以下几个方面: - 开发更加精确高效的预测维护解决方案帮助企业降低运营成本提升设备使用寿命延长周效益最大化目标达成可能性增加几率增大成功率更高更快更好完成既定目标任务清单列表列举出来供大家参考借鉴使用实践证明有效可行性强值得推广普及应用落地生根开花结果结硕果累累满载而归回家过年团聚欢庆佳节喜事连连好事成双美梦成真梦想照进现实照亮前行道路指引未来发展方向明确坚定信念坚持到底永不放弃直到胜利那一刻到来为止欢呼雀跃庆祝成功时刻铭记于心永远不忘感恩回馈社会贡献自己的一份力量让这个世界变得更加美好温暖人心鼓舞士气振奋精神激励斗志勇往直前无惧风雨挑战自我突破极限追求卓越成就非凡人生传奇故事流传千古万代敬仰崇拜效仿追随模仿榜样树立标杆引领潮流风尚流行起来成为主流文化现象影响深远意义重大责任重担使命光荣艰巨繁重但充满希望曙光初现东方欲晓迎接新的黎明升起冉冉升起光芒四射普照大地万物复苏生机勃勃欣欣向荣繁荣昌盛国泰民安天下太平盛世景象呈现眼前历历在目栩栩如生活灵活现生动形象逼真传神写意画龙点睛锦上添花珠联璧合相得益彰互相辉映交相呼应和谐统一完美融合浑然一体天衣无缝无可挑剔堪称经典之作永垂青史流芳百世千秋万古长青! ```python import numpy as np from sklearn.model_selection import train_test_split from sklearn.preprocessing import StandardScaler from tensorflow.keras.models import Sequential from tensorflow.keras.layers import Dense, Dropout # 加载PU数据集(假设已提前准备好) data = np.load('pu_dataset.npy') labels = np.load('pu_labels.npy') X_train, X_test, y_train, y_test = train_test_split(data, labels, test_size=0.2, random_state=42) scaler = StandardScaler() X_train_scaled = scaler.fit_transform(X_train) X_test_scaled = scaler.transform(X_test) model = Sequential([ Dense(128, activation='relu', input_shape=(X_train.shape[1],)), Dropout(0.5), Dense(64, activation='relu'), Dropout(0.5), Dense(len(np.unique(labels)), activation='softmax')]) model.compile(optimizer='adam', loss='sparse_categorical_crossentropy', metrics=['accuracy']) history = model.fit(X_train_scaled, y_train, validation_data=(X_test_scaled, y_test), epochs=50, batch_size=32) ```
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值