前些日子,帮实验室师姐做了一个小任务,关于数据清洗,分类的。具体要求如下
----------------------------------------------------------------------------------------------------------------------------------------------------------------------------
文件说明:
原始out文件(一个是Amazon_office.out,一个是digital_music.out)
格式:userid itemid rating time
用户所有交互记录,即用户对项目的评分,按照userid和time升序排列
1 .test.negative
格式:(userid,itemid) itemid1 itemid2 ... itemid99
括号中的itemid是用户最后一次进行交互的项目id,其余的itemid就是用户没有交互过的项目中随机抽取的99个项目id
2 .test.rating
格式:userid itemid rating time
用户的最后一次交互记录
3 .train.rating
格式:userid itemid rating time
用户除最后一次交互的其他交互记录
现在要求
1. 清洗交互数据少于20条的用户 记录剩余用户数量
2. 取每个用户最后一次交互记录作为测试集,即生成.test.rating文件
3. 取剩下的用户交互记录作为训练集,即生成.train.rating文件
4. 随机选取99个用户没有交互的数据作为负采样,即生成.test.negative 文件
-------------------------------------------------------------------------------------------------------------------------------------------------------------------------
感觉这个任务比较蛮适合练手的,需要用到c++中的文件操作,排序,stl高级库中的vector,set,随机数生成等知识点,并且也小小的需要一点算法功底,话不多说,先放一下代码(由于在代码中有注释,我就不再解释了)
#include<iostream>
#include<fstream>
#include<algorithm>
#include<cstring>
#include<vector>
#include<set>
#include<stdlib.h>
#include<time.h>
#define USER_COUNT 5540 // 用户总数
#define ITEM_COUNT 3568 // 物品类别数
#define ALL_ITEMS_LENGTH 64666 // 评价项总数(原始文件行数)
#define GOOD_LENGTH 6
#define NEGATIVE_LENGTH 99
using namespace std;
// 5540 64666
// 4905 53228
set<int> badUsers; // 评价项数不合格的用户
set<int> itemsId; // 物品id集合
int userItems[USER_COUNT]; // 记录每个用户的评价项的总数
int userNotchoseItemLength[USER_COUNT] = {0}; // 存放每个用户还未评价商品id项集合长度
int user_in_items[USER_COUNT][ITEM_COUNT]; // 存放每个用户还未评价商品id的集合
int user_in_choice[USER_COUNT][NEGATIVE_LENGTH]; // 存放每个用户还未评价商品id的集合(只随机选择99条)
typedef struct Item {
int userID;
int itemID;
double score;
long int timeStamp;
bool operator < (const Item &b) const { // 对物品评价项排序,重载比较运算符
if(userID != b.userID){
return userID < b.userID;
}
return timeStamp < b.timeStamp;
}
}Item;
vector<Item> originData; // 存放原始数据
vector<Item> testData; // 测试数据
vector<Item> trainData; // 训练数据
vector<set<int> > itemsSet(USER_COUNT); //存放对应每个用户评价物品id的集合
void saveDataByName(vector<Item> a,char name[]){
FILE *fo = fopen(name,"w");
int length = a.size();
int i;
for(i=0;i<length;i++){
Item item = a[i];
fprintf(fo,"%d %d %.1lf %ld\n",item.userID,item.itemID,item.score,item.timeStamp);
}
fclose(fo);
}
void getBadUsers(){
int i;
for(i=0;i<USER_COUNT;i++){
if(userItems[i]<GOOD_LENGTH && badUsers.count(i)==0){
badUsers.insert(i);
}
}
}
void cleanData(vector<Item> &a){ // 数据清洗完后,重新编码评价项的id,如1,2,2,3,5 需编码为1,2,2,3,4
getBadUsers();
vector<Item>::iterator it;
int startId,lastId;
lastId = startId = 0;
for(it=a.begin();it!=a.end();){
if(badUsers.count((*it).userID) == 1){
it = a.erase(it);
}else {
int currentId = (*it).userID;
if(currentId == lastId ){
(*it).userID = startId;
} else {
lastId = (*it).userID;
(*it).userID= ++startId;
}
++it;
}
}
}
void saveTestData(){
char fileName [] = "test.rating";
saveDataByName(testData,fileName);
}
void saveTrainData(){
char fileName [] = "train.rating";
saveDataByName(trainData,fileName);
}
void classifyData(vector<Item> &a){
int length = a.size();
int i;
for(i=0;i<length-1;i++){
if(a[i].userID == a[i+1].userID){
trainData.push_back(a[i]);
}else {
testData.push_back(a[i]);
}
}
testData.push_back(a[i]);
saveTestData();
saveTrainData();
}
void generateDiffRand(int a[], int n){ // 随机生成n个随机数 范围为0~n,存储在a数组中
int *flag =(int *)malloc(sizeof(int) * n);
static int flag_once = 0;
int i, index;
for(i = 0; i < n; i++) flag[i] = i+1;
if(!flag_once){
srand(time(0));
flag_once = 1;
}
for(i = 0; i < n;){
index = rand() % n;
if(flag[index] != 0){
a[i++] = flag[index]-1;
flag[index] = 0;
}
}
free(flag);
}
void saveNegativeData(){
char name [] = "test.negative";
FILE *fne = fopen(name,"w");
int length = testData.size();
for(int i=0;i<length;i++){
Item item = testData[i];
fprintf(fne,"(%d,%d)",item.userID,item.itemID);
for(int j=0;j<NEGATIVE_LENGTH;j++){
fprintf(fne," %d",user_in_choice[i][j]);
}
fprintf(fne,"\n");
}
fclose(fne);
}
void getNegativeData(){
int length = itemsSet.size();
int i,j;
//cout<<"size: "<<length<<endl;
for(i=0;i<length;i++){
j=0;
set<int> s = itemsSet[i];
set<int>::iterator it;
for(it=itemsId.begin();it!=itemsId.end();++it){
if(s.count(*it)==0){
user_in_items[i][j++] = (*it);
userNotchoseItemLength[i]++;
}
}
}
for(i=0;i<USER_COUNT;i++){
int temp[userNotchoseItemLength[i]];
generateDiffRand(temp,userNotchoseItemLength[i]);
for(j=0;j<NEGATIVE_LENGTH;j++){
user_in_choice[i][j] = user_in_items[i][temp[j]];
}
}
saveNegativeData();
}
int main()
{
int i;
FILE *fp;
fp = fopen("digital_music_sorted.out","r");
for(i=0;i<ALL_ITEMS_LENGTH;i++){ // 打开文件,一行一行的读取(前提知道文件行数,可优化)
Item item;
fscanf(fp,"%d%d%lf%lld",&item.userID,&item.itemID,&item.score,&item.timeStamp);
userItems[item.userID]++;
itemsId.insert(item.itemID);
itemsSet[item.userID].insert(item.itemID);
originData.push_back(item);
}
//cleanData(originData);
classifyData(originData);
getNegativeData();
//sort(originData.begin(),originData.end());
//char name[] ="Amazon_office_sorted_cleaned.out";
//saveDataByName(originData,name);
fclose(fp);
return 0;
}
//digital_music_sorted.out Amazon_office_sorted
如果要刷题了,可以看看这篇博文,可以迅速捡回很多知识点。