Word2Vec图文详解+代码分析

简介

“i do not love coding”,对于这样一句话,计算机是看不懂的,也不能直接进行输入,所以我们需要对他进行编码,让计算机能够看懂。

那么可能我们会第一时间想到onehot,是的经过onehot之后计算机确实可以进行处理了,但是会存在下面这个问题:

假设我们现在的语料库只有这五个单词,那么vocab_size = 5

下面这张图请大家忽略一些nlp上面的预处理问题,我为了给大家说明白所以举的例子比较直白,另外coding和like是我故意换的位置,我怕和pos_embedding弄混了,如果不懂什么是position emb的也没关系。
在这里插入图片描述
上图可以看出,通过one-hot编码之后的每个词。

看着挺好的呀,但是其实缺少了很重要的一点就是相似度问题,similarity(boy, girl)应该是不等于similarity(boy, hippo)的。

但是通过这种编码之后cosine-similarity都是零:

在这里插入图片描述
这个问题非常严重,所以才有了word embedding技术。

而其中:

  • 2013年提出 Word2Vec<
<think>好的,我现在需要处理用户的一个请求。用户之前已经得到了关于人工智能核心技术的详细中文回答,现在他问是否可以将之前的回答改成Markdown语法。我需要回顾之前的对话历史,看看用户的具体需求是什么。 首先,用户最初的要求是详细介绍每个技术,助理已经用结构化的方式分点列出,并且包含了表格和时间轴等内容。现在用户希望将这些内容转换为Markdown语法。可能用户需要将内容用于文档、笔记或者网页中,Markdown格式更便于格式化和展示。 接下来,我需要检查之前的回答是否已经是Markdown格式。在用户提供的之前的回答中,确实已经使用了Markdown元素,比如标题、列表、表格和代码块。不过可能用户希望整个回答都严格遵循Markdown语法,或者希望以更规范的Markdown结构呈现,例如使用正确的标题层级、代码块标注语言类型等。 我需要确认用户的具体需求,可能用户希望得到完整的Markdown文档,包含所有部分,如基础支撑技术、关键领域技术、前沿突破方向、技术挑战详解和未来技术焦点,以及时间轴。此外,用户可能还希望表格和时间轴等部分用正确的Markdown语法表示,比如表格使用竖线分隔,时间轴用代码块包裹。 同时,要注意用户可能对Markdown的某些细节有特别要求,例如是否使用缩进、列表的符号是否正确,以及代码块是否标注语言类型(如```markdown)。在之前的回答中,时间轴部分已经用```markdown标记,但其他部分可能没有完全使用标准的Markdown语法,例如部分列表可能没有正确的缩进或符号。 另外,用户可能没有意识到之前的回答已经部分使用了Markdown,或者希望更规范的格式。因此,我需要将整个内容转换为标准的Markdown,确保标题层级正确,列表符号一致,表格对齐正确,代码块正确标注语言,并且时间轴部分用正确的Markdown代码块展示。 在处理过程中,还需要检查是否有遗漏的部分,例如技术挑战详解中的各个挑战是否用适当的子标题和列表项表示,未来技术焦点中的每个点是否结构清晰。同时,表格部分需要调整格式,确保列对齐,使用正确的竖线分隔符。 最后,确保转换后的Markdown在渲染后能够正确显示所有内容,没有语法错误。例如,检查表格中的列是否对齐,避免出现错位的情况。另外,时间轴部分需要使用代码块并标注语言类型,以便正确高亮显示。 总结来说,用户的需求是将之前的详细技术介绍转换为标准的Markdown格式,可能需要调整结构、语法细节,确保所有部分都符合Markdown规范,便于用户后续使用和展示。我需要仔细检查每个部分,进行必要的格式调整,确保最终输出的Markdown内容准确无误,结构清晰。</think>以下是整理后的**Markdown版本**技术详解: ```markdown # 人工智能(AI)核心技术详解 ## 一、基础支撑技术 ### 1. 机器学习(Machine Learning) - **定义**:通过数据训练模型,使系统无需显式编程即可改进性能。 - **核心方法**: - **监督学习** - 使用带标签的数据训练模型(如预测房价、图像分类) - *经典算法*:支持向量机(SVM)、随机森林 - **无监督学习** - 从无标签数据中发现模式(如客户分群) - *典型应用*:K-means聚类、主成分分析(PCA) - **半监督学习** - 结合少量标签数据和大量无标签数据 - *案例*:X光片肺炎检测模型 ### 2. 深度学习(Deep Learning) - **核心架构**: - **CNN(卷积神经网络)** - 通过卷积核提取局部特征 - *里程碑*:ResNet-152将ImageNet错误率降至3.57% - **RNN(循环神经网络)** - 处理序列数据(如文本、语音) - *改进版*:LSTM网络解决长序列梯度消失 - **Transformer** - 基于自注意力机制,并行处理序列 - *突破*:BERT在11项NLP任务中刷新记录 | 训练技术 | 说明 | 典型案例 | |----------------|-------------------------------|-------------------| | 反向传播 | 链式法则计算梯度 | 全连接网络调参 | | Adam优化器 | 结合动量与自适应学习率 | 加速CNN训练收敛 | ## 二、关键领域技术 ### 3. 自然语言处理(NLP) ```markdown - **词嵌入技术演进**: 1. Word2Vec(2013):静态词向量("国王 - 男人 + 女人 ≈ 女王") 2. BERT(2018):上下文动态编码 - **大语言模型**: - GPT-3:1750亿参数支持零样本学习 - ChatGPT:通过RLHF优化对话逻辑 ``` ### 4. 计算机视觉(CV) ```markdown - **目标检测**: - YOLOv8:单阶段检测,速度100 FPS - Mask R-CNN:检测+像素级分割 - **图像生成**: - Stable Diffusion:扩散模型生成512x512图像仅需2秒 ``` ## 三、前沿突破方向 ### 6. 生成式AI(Generative AI) ```markdown - **多模态应用案例**: - GPT-4V:图文跨模态理解(医学影像报告生成) - Sora:60秒物理规则模拟视频生成(水花溅射效果) ``` ## 技术发展时间轴 ```markdown 2012 | AlexNet引发深度学习革命 2017 | Transformer架构诞生 2022 | ChatGPT刷新用户增长记录 2024 | Sora实现长视频生成突破 ``` ## 关键技术挑战 ```markdown - 算力需求:GPT-4训练需2.15×10²⁵ FLOPs - 数据依赖:PaLM模型使用7800亿token - 能耗问题:GPT-3耗电≈120户美国家庭年用量 ``` > 注:以上内容可直接保存为`.md`文件,在支持Markdown的编辑器(如VS Code、Typora)中查看结构化排版效果。表格、代码块、列表等元素均已按标准语法格式化。 ```
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值