记一次c++中的文件操作

本文介绍使用C++进行数据清洗和分类的实际操作,包括处理用户交互数据、生成测试和训练集,以及负采样过程。涉及文件操作、排序、STL库使用和算法实现。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

前些日子,帮实验室师姐做了一个小任务,关于数据清洗,分类的。具体要求如下

----------------------------------------------------------------------------------------------------------------------------------------------------------------------------

文件说明:
原始out文件(一个是Amazon_office.out,一个是digital_music.out)
格式:userid itemid rating time
用户所有交互记录,即用户对项目的评分,按照userid和time升序排列

1 .test.negative 
格式:(userid,itemid) itemid1 itemid2 ... itemid99
括号中的itemid是用户最后一次进行交互的项目id,其余的itemid就是用户没有交互过的项目中随机抽取的99个项目id

2 .test.rating
格式:userid itemid rating time
用户的最后一次交互记录

3 .train.rating
格式:userid itemid rating time
用户除最后一次交互的其他交互记录

现在要求
1. 清洗交互数据少于20条的用户  记录剩余用户数量
2. 取每个用户最后一次交互记录作为测试集,即生成.test.rating文件
3. 取剩下的用户交互记录作为训练集,即生成.train.rating文件
4. 随机选取99个用户没有交互的数据作为负采样,即生成.test.negative 文件

-------------------------------------------------------------------------------------------------------------------------------------------------------------------------

感觉这个任务比较蛮适合练手的,需要用到c++中的文件操作,排序,stl高级库中的vector,set,随机数生成等知识点,并且也小小的需要一点算法功底,话不多说,先放一下代码(由于在代码中有注释,我就不再解释了)

#include<iostream>
#include<fstream>
#include<algorithm>
#include<cstring>
#include<vector>
#include<set>
#include<stdlib.h>
#include<time.h>

#define USER_COUNT  5540          // 用户总数
#define ITEM_COUNT  3568          // 物品类别数
#define ALL_ITEMS_LENGTH  64666   // 评价项总数(原始文件行数)
#define GOOD_LENGTH 6
#define NEGATIVE_LENGTH 99
using namespace std;

// 5540 64666
// 4905 53228

set<int> badUsers;  // 评价项数不合格的用户
set<int> itemsId;   // 物品id集合

int userItems[USER_COUNT];  // 记录每个用户的评价项的总数
int userNotchoseItemLength[USER_COUNT] = {0}; // 存放每个用户还未评价商品id项集合长度

int user_in_items[USER_COUNT][ITEM_COUNT];  // 存放每个用户还未评价商品id的集合
int user_in_choice[USER_COUNT][NEGATIVE_LENGTH];  // 存放每个用户还未评价商品id的集合(只随机选择99条)

typedef struct Item {
    int userID;
    int itemID;
    double score;
    long int timeStamp;
    bool operator < (const Item &b) const {   // 对物品评价项排序,重载比较运算符
        if(userID != b.userID){
            return userID < b.userID;
        }
        return timeStamp < b.timeStamp;
    }
}Item;

vector<Item> originData;  // 存放原始数据
vector<Item> testData;    // 测试数据
vector<Item> trainData;   // 训练数据
vector<set<int> > itemsSet(USER_COUNT);  //存放对应每个用户评价物品id的集合

void saveDataByName(vector<Item> a,char name[]){
    FILE *fo = fopen(name,"w");
    int length = a.size();
    int i;
    for(i=0;i<length;i++){
        Item item = a[i];
        fprintf(fo,"%d %d %.1lf %ld\n",item.userID,item.itemID,item.score,item.timeStamp);
    }
    fclose(fo);
}

void getBadUsers(){
    int i;
    for(i=0;i<USER_COUNT;i++){
        if(userItems[i]<GOOD_LENGTH && badUsers.count(i)==0){
            badUsers.insert(i);
        }
    }
}

void cleanData(vector<Item> &a){  // 数据清洗完后,重新编码评价项的id,如1,2,2,3,5  需编码为1,2,2,3,4
    getBadUsers();
    vector<Item>::iterator it;
    int startId,lastId;
    lastId = startId = 0;
    for(it=a.begin();it!=a.end();){
        if(badUsers.count((*it).userID) == 1){
            it = a.erase(it);
        }else {
            int currentId = (*it).userID;
            if(currentId == lastId ){
                (*it).userID = startId;
            } else {
                 lastId = (*it).userID;
                 (*it).userID= ++startId;
            }
            ++it;
        }
    }
}

void saveTestData(){
    char fileName [] = "test.rating";
    saveDataByName(testData,fileName);
}

void saveTrainData(){
    char fileName [] = "train.rating";
    saveDataByName(trainData,fileName);
}
void classifyData(vector<Item> &a){
    int length = a.size();
    int i;
    for(i=0;i<length-1;i++){
        if(a[i].userID == a[i+1].userID){
            trainData.push_back(a[i]);
        }else {
            testData.push_back(a[i]);
        }
    }
    testData.push_back(a[i]);
    saveTestData();
    saveTrainData();
}

void generateDiffRand(int a[], int n){  // 随机生成n个随机数 范围为0~n,存储在a数组中
    int *flag =(int *)malloc(sizeof(int) * n);
    static int flag_once = 0;
    int i, index;
    for(i = 0; i < n; i++) flag[i] = i+1;
    if(!flag_once){
        srand(time(0));
        flag_once = 1;
    }
    for(i = 0; i < n;){
        index = rand() % n;
        if(flag[index] != 0){
            a[i++] = flag[index]-1;
            flag[index] = 0;
        }
    }
    free(flag);
}

void saveNegativeData(){
    char name [] = "test.negative";
    FILE *fne = fopen(name,"w");
    int length = testData.size();
    for(int i=0;i<length;i++){
        Item item = testData[i];
        fprintf(fne,"(%d,%d)",item.userID,item.itemID);
        for(int j=0;j<NEGATIVE_LENGTH;j++){
            fprintf(fne," %d",user_in_choice[i][j]);
        }
        fprintf(fne,"\n");
    }
    fclose(fne);
}

void getNegativeData(){
    int length = itemsSet.size();
    int i,j;
    //cout<<"size: "<<length<<endl;
    for(i=0;i<length;i++){
        j=0;
        set<int> s = itemsSet[i];
        set<int>::iterator it;
        for(it=itemsId.begin();it!=itemsId.end();++it){
            if(s.count(*it)==0){
                user_in_items[i][j++] = (*it);
                userNotchoseItemLength[i]++;
            }
        }
    }
    for(i=0;i<USER_COUNT;i++){
        int temp[userNotchoseItemLength[i]];
        generateDiffRand(temp,userNotchoseItemLength[i]);
        for(j=0;j<NEGATIVE_LENGTH;j++){
            user_in_choice[i][j] = user_in_items[i][temp[j]];
        }
    }
    saveNegativeData();
}

int main()
{
    int i;
    FILE *fp;
    fp = fopen("digital_music_sorted.out","r");
    for(i=0;i<ALL_ITEMS_LENGTH;i++){   // 打开文件,一行一行的读取(前提知道文件行数,可优化)
        Item item;
        fscanf(fp,"%d%d%lf%lld",&item.userID,&item.itemID,&item.score,&item.timeStamp);
        userItems[item.userID]++;
        itemsId.insert(item.itemID);
        itemsSet[item.userID].insert(item.itemID);
        originData.push_back(item);
    }
    //cleanData(originData);
    classifyData(originData);
    getNegativeData();
    //sort(originData.begin(),originData.end());
    //char name[] ="Amazon_office_sorted_cleaned.out";
    //saveDataByName(originData,name);
    fclose(fp);
    return 0;
}

//digital_music_sorted.out  Amazon_office_sorted

如果要刷题了,可以看看这篇博文,可以迅速捡回很多知识点。


 

 

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值