红楼梦人物图谱csv文件
红楼梦人物图谱csv文件
mackey_glass_t17.npy
Mackey-Glass (MG)序列的部分内容,shape为(10000,),这个时间序列是混乱的,没有明确的周期。 级数不收敛也不发散,轨迹对初始条件高度敏感。 这个基准问题用于神经网络和模糊建模研究。
Kaggle交易预测.rar
基于 Kaggle 竞赛数据,原始数据文件较大,故本数据集只选用了 train.csv 中的 5 万条样本作为模型训练集(train.csv.gzip),1 万条样本作为模型测试集(test.csv.gzip)
olivetti_py3.pkz
人脸图像数据集 olivetti_py3.pkz,该数据集一共有 400 张人脸图片,每张图片的大小是:64x64,每张图片作为一个样本,一共有 400 个样本,每个样本的特征维度是:64x64 = 4096;400 张图片一共包含 40 个不同的人,每个人有 10 张人脸图片
随机森林评估特征重要性wine.rar
基于 UCI 葡萄酒数据,使用随机森林进行特征重要性分析,这些数据是对意大利同一地区种植的三种不同品种葡萄酒的化学分析结果,分析确定了三种葡萄酒中13种成分的含量,数据的第一列是葡萄酒的类别
决策树预测用户流失data.csv
基于某信息公司的用户数据,使用决策树预测用户是否会流失,字段Churn代表客户是否流失,取值:['Yes', 'No'],其余字段为特征
基于朴素贝叶斯的垃圾邮件过滤data.rar
邮件数据包括训练集train(正常邮件normal,垃圾邮件spam),测试集test,中文停用词文件cn_stopwords.txt
LR预测CTR数据集data.zip
数据集是电商领域数据集,共计200万的样本记录。原始特征均为ID类特征;
字段说明:
userid 用户ID
itemid 商品ID
categoryid 商品类目ID
action 用户行为类型
timestamp 时间戳
机器翻译nmt.zip
轻量级机器翻译数据集,en-cn为英文与中文,en-fr为英文与法文
nltk_data.rar
nltk的分词工具,将其解压,放置到当前虚拟环境(假设环境名为TORCH),则目录结构为"TORCH/nltk_data/tokenizers/punkt"
google.csv
机器学习第六课,使用线性回归预测未来30天 Google 股票的收盘价走势,表格中的列代表每天的股票指数,如:Open 开盘价、High 最高价、Low 最低价、Volume 成交量。Adj. Open、Adj. High、Adj. Low、Adj. Close、Adj. Volume 代表调整后的数据
hymenoptera_data.zip
hymenoptera_data数据集,这个数据集包括两类图片, bees 和 ants, 这些数据都被处理成了可以使用"torchvision.datasets.ImageFolder"来读取的格式。
glove.6B.100d.txt.zip
glove.6B是斯坦福大学训练的词向量包(862MB),glove.6B.100d是100维词向量,TEXT.build_vocab可以根据我自己的词汇表内的词匹配到glove内的词,组建成为需要的词向量;后面如果想使用这个新词向量,可以通过TEXT.vocab.vectors返回
MNIST与FashionMNIST数据集
数据集包括了MNIST和FashionMNIST,有原始数据集raw和经过torchvision.datasets处理过的processed目录
TextSet.zip
该文件用于词向量训练,Skip-Gram训练,主要是texttrain.txt文件,训练细节见白景屹的Pytorch笔记本-第四课.词向量:https://blog.youkuaiyun.com/qq_40943760/category_10532835.html
fasterRCNN口罩检测
使用fasterrcnn实现口罩检测,fasterrcnn基于keras搭建,训练需要口罩数据集,数据集必须是VOC格式,预测需要权重文件,权重文件已经存在