深度笔记1-优快云博客

本文链接：https://blog.youkuaiyun.com/weixin_46304070/article/details/143607234

好的，让我们逐步分析这些代码的每一部分。

1. `self.labels.unique()`

self.labels.unique()

- `self.labels` 是从 CSV 文件中读取的标签列。
- `self.labels.unique()` 会返回一个包含唯一标签的 `pandas.Series` 或 `numpy` 数组。这表示数据集中所有不同的标签。

与 `drop_duplicates()` 类似，`unique()` 只提取唯一值，但 `drop_duplicates()` 会影响整个 `DataFrame` 或 `Series`，而 `unique()` 只是返回唯一值的数组，并不会影响原始数据。对于只想获取标签的唯一值，`unique()` 更合适。

2. `{label: idx for idx, label in enumerate(self.labels.unique())}`

self.label_to_idx = {label: idx for idx, label in enumerate(self.labels.unique())}

- 这是一种 *字典推导式*，用于创建一个映射字典 `label_to_idx`，将每个唯一标签（字符串）映射到一个整数编号。
- `enumerate(self.labels.unique())` 会返回唯一标签和其对应的索引（`idx`），例如 `enumerate(['maple', 'oak', 'birch'])` 会生成 `[(0, 'maple'), (1, 'oak'), (2, 'birch')]`。
- `label: idx for idx, label in enumerate(self.labels.unique())` 使用标签作为键（`label`），索引作为值（`idx`）生成字典。

例子：

# 如果 self.labels.unique() 是 ['maple', 'oak', 'birch']
self.label_to_idx = {label: idx for idx, label in enumerate(['maple', 'oak', 'birch'])}
# 则 self.label_to_idx 会是 {'maple': 0, 'oak': 1, 'birch': 2}

这一步创建的 `self.label_to_idx` 可以用来将字符串标签转换为数字。

3. `self.labels.map(self.label_to_idx)`

self.labels = self.labels.map(self.label_to_idx)

- `self.labels.map(self.label_to_idx)` 用 `self.label_to_idx` 中的映射关系，将 `self.labels` 中的字符串标签替换成对应的数字标签。
- `map` 是 Pandas `Series` 对象的一个方法，它接受一个字典或映射函数，按每个元素的键将其替换成字典中的值。
- 举例来说，如果 `self.labels` 是 `['maple', 'oak', 'oak', 'birch']`，经过 `self.labels.map(self.label_to_idx)` 之后，结果会变成 `[0, 1, 1, 2]`。

4. `img_item_label = torch.tensor(img_item_label)` 和 `img_item_label = torch.tensor(img_item_label, dtype=torch.long)`

img_item_label = torch.tensor(img_item_label)

默认情况下，`torch.tensor` 会根据输入的类型自动推断张量的类型。如果 `img_item_label` 是整数，它会自动成为 `torch.int64` 类型（在 PyTorch 中称为 `torch.long`）。不过，在使用 `CrossEntropyLoss` 时，需要确保标签是 `torch.long` 类型的张量。为明确指定类型，你可以使用：

img_item_label = torch.tensor(img_item_label, dtype=torch.long)

这样可以确保 `img_item_label` 始终是 `torch.long` 类型，即使输入类型可能有所不同。