2020-12-21

文章:Revealing the Invisible with Model and Data Shrinking for Composite-database Micro-expression Recognition

一、代码
Datasets.py

import os
import torch
import numpy as np
from PIL import Image
import matplotlib.pyplot as plt

class MEGC2019(torch.utils.data.Dataset):
    """MEGC2019 dataset class with 3 categories"""

    def __init__(self, imgList, transform=None):
        self.imgPath = []
        self.label = []
        self.dbtype = []
        with open(imgList,'r') as f:
            for textline in f:
                texts= textline.strip('\n').split(' ')
                self.imgPath.append(texts[0])
                self.label.append(int(texts[1]))
                self.dbtype.append(int(texts[2]))
        self.transform = transform

    def __getitem__(self, idx):
        img = Image.open("".join(self.imgPath[idx]),'r').convert('RGB')
        # plt.imshow(img)
        # plt.show()
        if self.transform is not None:
            img = self.transform(img)
        return img, self.label[idx]

    def __len__(self):
        return len(self.imgPath)

class MEGC2019_SI(torch.utils.data.Dataset):
    """MEGC2019_SI dataset class with 3 categories and other side information"""

    def __init__(self, imgList, transform=None):
        self.imgPath = []
        self.label = []
        self.dbtype = []
        with open(imgList,'r') as f:
            for textline in f:
                texts= textline.strip('\n').split(' ')
                self.imgPath.append(texts[0])
                self.label.append(int(texts[1]))
                self.dbtype.append(int(texts[2]))
        self.transform = transform

    def __getitem__(self, idx):
        img = Image.open("".join(self.imgPath[idx]),'r').convert('RGB')
        # plt.imshow(img)
        # plt.show()
        if self.transform is not None:
            img = self.transform(img)
        return {"data":img, "class_label":self.label[idx], 'db_label':self.dbtype[idx]}

    def __len__(self):
        return len(self.imgPath)

class MEGC2019_FOLDER(torch.utils.data.Dataset):
    """MEGC2019 dataset class with 3 categories, organized in folders"""

    def __init__(self, rootDir, transform=None):
        labels = os.listdir(rootDir)
        labels.sort()
        self.fileList = []
        self.label = []
        self.imgPath = []
        for subfolder in labels:
            label = []
            imgPath = []
            files = os.listdir(os.path.join(rootDir, subfolder))
            files.sort()
            self.fileList.extend(files)
            label = [int(subfolder) for file in files]
            imgPath = [os.path.join(rootDir, subfolder,file) for file in files]
            self.label.extend(label)
            self.imgPath.extend(imgPath)
        self.transform = transform

    def __getitem__(self, idx):
        img = Image.open(self.imgPath[idx],'r').convert('RGB')
        # plt.imshow(img)
        # plt.show()
        if self.transform is not None:
            img = self.transform(img)
        return {"data":img, "class_label":self.label[idx]}

    def __len__(self):
        return len(self.fileList)

二、代码理解
继承 torch.utils.data.Dataset
这是自定义数据集方法的抽象类;
继承这个类可以定义自己的数据集类;
继承这个类只需要覆写__len__和__getitem__这两个方法;
len(self) 是实例使用len()方法时调用;
getitem(self)是实例读取指定索引的元素时调用;
torch.utils.data.Dataset 相关知识

MEGC2019 Github 代码

你遇到的问题是: > **SPI 输出的时间尺度不对,比如 `window_start` 和 `window_end` 的时间跨度看起来不是30天。** 我们来看你的输出示例: ``` dekad_start window_start window_end 2020-01-21 2019-12-23 2020-01-31 ``` 这里 `window_start = 2019-12-23`, `window_end = 2020-01-31`,这显然不是一个30天的窗口,而是一个月的跨度,说明你的 **SPI窗口定义逻辑出现了问题**。 --- ## ❗问题定位:窗口定义错误 你在代码中这样定义窗口: ```python window_end = dekad_start window_start = dekad_start - pd.Timedelta(days=29) ``` 但你在筛选窗口数据时却用了: ```python window_data = df[(df['date'] > window_start) & (df['date'] <= dekad_end)] ``` ### ✅ 正确逻辑应是: ```python window_data = df[(df['date'] >= window_start) & (df['date'] <= window_end)] ``` 因为你定义了: ```python window_end = dekad_start window_start = dekad_start - pd.Timedelta(days=29) ``` 所以窗口应该是: ``` [dekad_start - 29天, dekad_start] ``` 但是你用了 `dekad_end` 作为窗口结束时间,而 `dekad_end` 是 **每旬的结束时间(10日、20日、月底)**,这会导致窗口被错误地扩展到整旬结束日,而不是当前旬的开始日。 --- ## ✅ 正确代码应为: ```python window_end = dekad_start window_start = dekad_start - pd.Timedelta(days=29) window_data = df[(df['date'] >= window_start) & (df['date'] <= window_end)] ``` 而不是: ```python window_data = df[(df['date'] > window_start) & (df['date'] <= dekad_end)] ``` --- ## 🧪 示例说明 以 `dekad_start = 2020-01-21` 为例: ```python window_start = 2020-01-21 - 29天 = 2019-12-23 window_end = 2020-01-21 ``` 正确的窗口是: ``` [2019-12-23, 2020-01-21] # 共30天 ``` 如果你用了 `dekad_end = 2020-01-31`,那么窗口变成了: ``` [2019-12-23, 2020-01-31] # 39天,错误 ``` --- ## ✅ 修改建议(修复窗口筛选逻辑) 将: ```python window_data = df[(df['date'] > window_start) & (df['date'] <= dekad_end)] ``` 改为: ```python window_data = df[(df['date'] >= window_start) & (df['date'] <= window_end)] ``` 同时确保 `window_end = dekad_start` 是正确的。 --- ## ✅ 建议添加调试打印语句 你可以在循环中加入调试信息,帮助你检查窗口是否正确: ```python print(f"dekad_start: {dekad_start}, window_start: {window_start}, window_end: {window_end}") ``` 输出示例: ``` dekad_start: 2020-01-21 00:00:00, window_start: 2019-12-23 00:00:00, window_end: 2020-01-21 00:00:00 ``` 确保 `window_start` 到 `window_end` 确实是30天。 --- ## ✅ 总结 | 问题 | 原因 | 修复方法 | |------|------|-----------| | 时间窗口跨度错误 | 使用了 `dekad_end` 而非 `window_end` | 改为使用 `window_start` 到 `window_end` | | 数据边界错误 | 使用了 `>` 而非 `>=` | 改为 `>= window_start` | | 窗口天数不对 | 没有检查窗口是否正好30天 | 添加调试输出 | --- ##
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值