word2vec两种优化方式的联系和区别

本文解释了Word2Vec模型中,经过负采样和霍夫曼优化后,模型与原始模型的等价或相似性问题。主要讨论了优化目标、负采样降低复杂度至K个噪声词及层序Softmax通过路径限制复杂度的方法。

总结不易,请大力点赞,感谢

上一个文章,Word2vec-负采样/霍夫曼之后模型是否等价-绝对干货是字节的面试真题,建议朋友们多看几遍,有问题及时沟通。

私下有几个朋友看完之后还是有点懵,又问了一下具体细节。基于此,我重新写了一个简短的文章,希望能让大家明白,大家可以结合上一个文章看。

我们再看一下题目:W2V经过霍夫曼或者负采样之后,模型与原模型相比,是等价的还是相似的?

首先,我们要明确,这里的原模型指的是什么?原模型就是我们的没有经过优化的W2V(当然我们也说过它是一个工具不是一个模型)。

也就是只是使用Skip-gram模型或者CBOW模型而没有进行优化的原始版本。对于这个原始版本,是在最后一层进行了Softmax。

我们的目标函数中,最核心的一个部分就是在给定中心词的条件下生成正确背景词的概率,我们要最大化这个东西,公式如下:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

仔细看,在分母涉及到了一个V,这里的V就是我们的词典大小。也就是说,为了计算这个条件概率,我们需要对整个词典进行操作,复杂度就是O(|V|)

所以,负采样和霍夫曼就是针对这一个计算开销大的地方进行了优化。当然W2V为了减少计算量,还是去掉了隐层。比如CBOW直接是输入向量求和平均然后接霍夫曼树。比如Skip-gram直接是中心词的词向量接霍夫曼树。

这不是我这个文章的重点,就不细细展开了。

我们先说负采样。负采样的本质在于生成K个噪声。它的本质是基于中心词生成正确的背景词概率为1,生成噪声词概率为0,这个是我们的优化方向。公式如下:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

仔细看这个公式,V已经消失,取而代之的是K,也就是我们的噪声词的数量,换句话讲,我们的复杂度被K这个大小限制住了,降低为了O(|K|)

然后我们再来看层序Softmax。它的核心本质是在一条路径上不停的做二分类,概率连乘就会得到我们的条件概率。公式如下:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

注意看,这个公式中,V也已经消失了,被霍夫曼树中到达背景词的路径限制住了,这也就是上个文章中说到的,复杂度变成了二叉树的高度: O(log|V|)

既然只是针对的部分节点,那么与原始版本相比,当然是近似。

简单的总结一下:

其实可以这样理解,以跳字模型为例,条件概率是中心词生成背景词的概率,也就是我们优化函数中最核心的部分。没有使用优化的,分母涉及到全部词汇,训练开销大。负采样近似训练,把复杂度限制在了k个噪声词,层序softmax也属于近似训练,在它的条件概率中,不断的二分类,涉及到的是能够达到背景词的那个路径上的非叶子结点,也就是没涉及到其他节点,这一点和负采样很类似,都是从全部词汇降低复杂度,只不过负采样是被k限制,层序是被路径编码限制(0,1,1,1,0)这种限制住。

不知道大家有没有注意到,负采样和霍夫曼都是讲Softmax转化为二分类的问题从而降低了复杂度。负采样是针对是不是背景词做二分类,霍夫曼是在对是不是正确路径上的节点做二分类。这么说有点不严谨,但是意思就是这么个意思,大家理解一下。

总结不易,请大力点赞,感谢

### 将 YOLO 格式数据集换为 COCO 格式的实现 YOLOCOCO 是两种常见的目标检测数据集格式,它们之间的主要区别在于标注文件的结构和存储方式。以下是将 YOLO 格式数据集换为 COCO 格式的具体方法。 #### 1. 数据准备 在开始换之前,需要准备好以下内容: - **YOLO 格式的标签文件**:这些是以 `.txt` 文件形式存在的标注文件,位于 `labels/` 文件夹下。 - **图像文件路径列表**:用于构建 COCO 的 `images` 字段。 - **类别名称列表**:定义了数据集中包含的目标类别的名称。 #### 2. 换逻辑 COCO 格式的标注文件是一个 JSON 文件,其基本结构如下: ```json { "info": {}, "licenses": [], "categories": [ {"id": 0, "name": "class_1"}, {"id": 1, "name": "class_2"} ], "images": [ {"id": 0, "file_name": "image_1.jpg", "width": 640, "height": 480}, {"id": 1, "file_name": "image_2.jpg", "width": 640, "height": 480} ], "annotations": [ { "id": 0, "image_id": 0, "category_id": 0, "bbox": [x_min, y_min, width, height], "area": area_of_bbox, "iscrowd": 0 } ] } ``` 为了完成换,需执行以下几个操作: - 构建 `categories` 部分,基于类别名称列表生成对应的 ID 映射关系[^1]。 - 解析每张图片的信息并填充到 `images` 列表中。 - 对于每个标注文件解析边界框坐标,并将其从相对位置 (YOLO 格式) 换为绝对像素位置 (COCO 格式),最后填入 `annotations` 中。 #### 3. Python 实现脚本 下面提供了一个完整的 Python 脚本来完成上述任务: ```python import os import json from PIL import Image def convert_yolo_to_coco(yolo_labels_dir, images_dir, output_json_path, class_names): """ Convert YOLO format dataset to COCO format. :param yolo_labels_dir: Path to the directory containing .txt label files in YOLO format. :param images_dir: Path to the directory containing image files. :param output_json_path: Output path for saving the resulting COCO-format JSON file. :param class_names: List of class names corresponding to indices used in labels. """ # Initialize COCO structure coco_data = { "info": {}, "licenses": [], "categories": [{"id": idx, "name": name} for idx, name in enumerate(class_names)], "images": [], "annotations": [] } annotation_id_counter = 0 # Process each image and its associated label file for img_idx, filename in enumerate(os.listdir(images_dir)): if not filename.lower().endswith(('.png', '.jpg', '.jpeg')): continue img_path = os.path.join(images_dir, filename) img = Image.open(img_path) w, h = img.size # Add image entry coco_image_entry = { "id": img_idx, "file_name": filename, "width": w, "height": h } coco_data["images"].append(coco_image_entry) # Load corresponding label file label_filename = f"{os.path.splitext(filename)[0]}.txt" label_filepath = os.path.join(yolo_labels_dir, label_filename) if not os.path.exists(label_filepath): continue with open(label_filepath, 'r') as lbl_f: lines = lbl_f.readlines() for line in lines: parts = list(map(float, line.strip().split())) cls_id, xc_norm, yc_norm, w_norm, h_norm = map(int, parts[:1]) + parts[1:] # Convert normalized coordinates back to absolute values x_center = xc_norm * w y_center = yc_norm * h box_w = w_norm * w box_h = h_norm * h x_min = int(x_center - box_w / 2) y_min = int(y_center - box_h / 2) # Create annotation entry annotation_entry = { "id": annotation_id_counter, "image_id": img_idx, "category_id": cls_id, "bbox": [x_min, y_min, box_w, box_h], "area": box_w * box_h, "iscrowd": 0 } coco_data["annotations"].append(annotation_entry) annotation_id_counter += 1 # Save result to a JSON file with open(output_json_path, 'w') as out_f: json.dump(coco_data, out_f) if __name__ == "__main__": yolo_labels_directory = "/path/to/yolo/labels/" images_directory = "/path/to/images/" output_json_file = "/path/to/output/coco_format.json" classes_list = ["cat", "dog"] # Replace this with your actual class names. convert_yolo_to_coco( yolo_labels_dir=yolo_labels_directory, images_dir=images_directory, output_json_path=output_json_file, class_names=classes_list ) ``` 此代码实现了从 YOLO 格式COCO 格式换过程[^2]。它通过遍历所有的图片及其关联的标注文件来提取必要的信息,并按照 COCO 的标准格式重组数据。 ---
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

onnx

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值