读取、处理Yelp数据集

##读取、处理Yelp数据集

import pandas as pd
import json

reviews_path =r"../yelp_dataset/yelp_academic_dataset_review.json"

'''
读取原始数据
'''
file = open(reviews_path, 'r', encoding="utf-8")

users_id = []
items_id = []
ratings = []
reviews = []
dates = []

for line in file:
     js = json.loads(line)
      print(js)
      if str<
Yelp数据集是一个广泛用于自然语言处理(NLP)任务的公开数据集,尤其是针对评论情感分析、文本分类和推荐系统研究。该数据集Yelp提供,并通过其开放数据集挑战(Yelp Dataset Challenge)发布,包含了真实世界中用户对商家的评论信息。 数据集中的评论通常包含以下几个关键字段: - **user_id**:用户的唯一标识符。 - **business_id**:被评论商家的唯一标识符。 - **stars**:评分,范围从1星到5星,表示用户对该商家的整体满意度。 - **text**:评论的正文内容,这是文本分析的核心部分。 - **date**:评论发布的日期。 - **useful**、**funny**、**cool**:其他用户对这条评论的反馈,分别表示“有用”、“有趣”、“酷”的点赞数。 Yelp数据集的一个显著特点是其规模庞大,例如Yelp Open Dataset中包含了数百万条评论[^1]。以某一版本为例,其中可能包含超过5,000,000条评论,覆盖餐厅、酒店、美容等多个行业。这种大规模的数据使得它非常适合用于训练深度学习模型,如基于Transformer的模型(BERT、RoBERTa等)或循环神经网络(RNN、LSTM)来进行文本情感分析。 此外,Yelp还提供了结构化数据格式,通常以JSON文件形式提供,便于程序读取处理。对于机器学习任务而言,Yelp评论数据可以用于构建监督学习模型,以预测评分等级或判断评论的情感倾向(正面/负面)。 以下是一个简单的Python代码示例,展示如何加载Yelp评论数据并提取部分信息: ```python import json # 加载Yelp评论数据 with open('yelp_academic_dataset_review.json', 'r', encoding='utf-8') as f: reviews = [json.loads(line) for line in f.readlines()] # 打印前5条评论的评分和文本 for review in reviews[:5]: print(f"Stars: {review['stars']}") print(f"Text: {review['text']}") print('-' * 40) ``` 在实际应用中,还可以结合Yelp提供的商家信息(business)、用户信息(user)等其他子数据集进行多维度分析,提升推荐系统的准确性或挖掘用户行为模式。
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值