Light-GCN数据集

本文介绍了Light-GCN在Gowalla数据集上的使用情况,该数据集包含用户签到记录,每个记录包括用户ID、签到时间和地点ID等信息。为了保证数据质量,采用10核心设置,剔除了交互少于10次的用户。数据预处理阶段,只保留User-ID和Location-ID,对不足10个交互的用户进行剔除,并对ID进行重新编排,最终随机划分得到训练和测试数据集。

1>关于Light-GCN所使用的数据集----Gowalla

数据内容包括:好友关系数据集和签到数据集(好友关系数据集未使用,以下只介绍签到数据集)

图 1

       在签到数据集中,每个用户的每一次签到记录作为一条记录,签到的具体属性分列表示。每条签到记录包括用户ID(User-ID)、签到时间(Check-in Time)、签到地点的维度(Latitude)、签到地点的经度(Longitude)、以及每个地区的经纬度所唯一对应的地点ID(Location-ID)。其中,用户ID一一对应每个用户,经纬度精确到小数点第六位。

        数据集包括了196586个用户通过签到方式在5977758个地点上共享了6442892条行为信息。该数据记录在图1中的 loc-gowalla_totalVheckins.txt.gz 中。

        因为Light-GCN所使用的数据集与NGCF的数据集相同,NGCFGowalla做了相应的处理。为了保证数据集的质量,他们使用了10核心设置,即保留至少有十次交互的用户和项目。

 图 2

        如图2所示,原数据集中的id为 48348 的用户共有6条签到记录,少于所规定的10条,所以在处理后的数据集中已被剔除。(user-list 中查不到原始id为48348的用户)

2>Gowalla原始数据的预处理

        目前只用到User-IDLocation-ID两项特征,只对这两项特征进行预处理。如上文所述,对于每一个用户,若其产生交互的项目(地点)不足10个,则剔除该用户。在此基础上,对剩下的用户和项目重新编排(对ID做规整,及连续化降低后续的处理开销),得到 user_list.txt 和 item_list.txt文件。随后根据比例对数据集进行随机划分,得到 train.txttext.txt 文件。如图3:

 图 3

        继原始数据剔除处理后,对User-IDLocation-ID 重新编排,数据对应情况如下图:

 图 4

        图4中原始数据用户343在user-list中重新编排为0,项目8975在item-list中重新编排为0,故在train中显示,U0 与 I0 有交互。

 图 5

        对于用户343交互过得项目9191,在item-list中重新编排为1215,但该项目id在train中未查到与用户343的交互信息,而是在随机分配到text中,如图5所示。

### 关于韭菜数据集的下载 目前并没有直接提到名为“韭菜数据集”的具体公开数据集。然而,在提供的引用中提到了与韭菜相关的爬虫源码[^3],这表明可以通过爬取特定网站来获取有关韭菜的信息。 如果目标是从网络上收集关于韭菜的相关数据,则可以参考引用中的爬虫代码实现自定义的数据抓取功能。以下是基于引用内容的一个简单示例: #### Python 实现的简易爬虫脚本 此脚本用于模拟从某个网页提取韭菜相关内容的过程: ```python import requests from bs4 import BeautifulSoup headers = { "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/115.0.0.0 Safari/537.36 Edg/115.0.1901.200" } url = "https://example.com/broccoli-data" # 替换为目标网址 response = requests.get(url, headers=headers) if response.status_code == 200: soup = BeautifulSoup(response.text, 'html.parser') # 假设页面中有多个<div>标签包含了韭菜相关的内容 data_list = [] for item in soup.find_all('div', class_='broccoli-item'): title = item.find('h3').text.strip() description = item.find('p').text.strip() data_list.append({"title": title, "description": description}) else: print(f"Failed to retrieve the webpage with status code {response.status_code}") print(data_list) ``` 上述代码通过 `requests` 和 `BeautifulSoup` 库实现了基本的网页解析逻辑,并能够从中抽取所需信息。需要注意的是实际应用时应确保遵守目标站点的服务条款以及法律法规。 对于更专业的农业领域或者食品科学方面的韭菜研究型数据集,可能需要关注一些专门提供此类资源的研究机构或平台,比如 Kaggle 或者 GitHub 上由社区贡献的数据集合。 另外值得注意的是,虽然 Light-GCN 使用了高质量处理过的 Gowalla 数据集作为训练基础[^1],但它并不涉及任何蔬菜类别的主题;而中文医疗多轮对话数据集中虽涵盖了多种健康话题却也未提及农产品范畴内的资料[^2]。 因此要找到确切针对韭菜这种农作物属性描述详尽的数据文件的话,建议探索如下几个方向: - 开放存取学术论文附带实验材料; - 政府部门发布的统计年鉴里或许会有种植面积产量等相关指标; - 社交媒体平台上用户分享的经验总结也可能成为宝贵的第一手素材来源之一。
评论 9
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值