Comment obtenir des vecteurs de phrases?

本文探讨了四种不同的句子向量获取方法,包括基于段落向量的模型、skip-thoughts、FastSent及序列去噪自编码器(SDAE),并分析了它们的特点与适用场景。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

原文地址:https://medium.com/explorations-in-language-and-learning/how-to-obtain-sentence-vectors-2a6d88bd3c8b

Dans plusieurs de mes articles précédents, j’ai discuté des méthodes d’obtention de mots tels que SVD, word2vec ou GloVe. Dans ce post, je résumerai un niveau plus haut et parlerai de 4 méthodes différentes qui ont été proposées pour obtenir des encarts pour des phrases.

Mais d’abord, certains d’entre vous peuvent se demander pourquoi nous avons même besoin d’une méthode différente pour obtenir des vecteurs de phrases. Comme les phrases sont essentiellement composées de mots, il peut être raisonnable de prétendre que le simple fait de prendre la somme ou la moyenne des vecteurs constituants devrait donner une représentation décente de la phrase. Cela s’apparente à une représentation par «sac de mots» et souffre donc des mêmes limitations, à savoir:

Il ignore l’ordre des mots dans la phrase.
Il ignore complètement la sémantique des phrases.

D’autres approches basées sur des vecteurs de mots sont également soumises à des contraintes similaires. Par exemple, une technique moyenne pondérée perd à nouveau l’ordre des mots dans la phrase. Pour remédier à cette situation, Socher et al. ont combiné les mots dans l’ordre donné par l’arbre d’analyse de la phrase. Bien que cette technique puisse convenir à des phrases complètes, elle ne fonctionne pas pour les phrases ou les paragraphes.

Dans un article précédent, j’ai discuté de plusieurs manières d’obtenir des représentations de phrases en tant qu’étape intermédiaire lors de la classification des textes. Plusieurs approches sont utilisées à cette fin, telles que le codage des caractéristiques entre les caractères, les arbres d’analyse, les intégrations régionales (à deux vues), etc. Cependant, la limitation avec une telle représentation «intermédiaire» est que les vecteurs obtenus ne sont pas génériques en ce sens qu’ils sont étroitement liés à l’objectif de classification. En tant que tels, les vecteurs obtenus grâce à la formation sur un objectif peuvent ne pas être extrapolés pour d’autres tâches.

D’autres approches basées sur des vecteurs de mots sont également soumises à des contraintes similaires. Par exemple, une technique moyenne pondérée perd à nouveau l’ordre des mots dans la phrase. Pour remédier à cette situation, Socher et al. combiné les mots dans l’ordre donné par l’arbre d’analyse de la phrase. Bien que cette technique puisse convenir à des phrases complètes, elle ne fonctionne pas pour les phrases ou les paragraphes.

Dans un article précédent, j’ai discuté de plusieurs manières d’obtenir des représentations de phrases en tant qu’étape intermédiaire lors de la classification des textes. Plusieurs approches sont utilisées à cette fin, telles que le codage des caractéristiques entre les caractères, les arbres d’analyse, les intégrations régionales (à deux vues), etc. Cependant, la limitation avec une telle représentation «intermédiaire» est que les vecteurs obtenus ne sont pas génériques en ce sens qu’ils sont étroitement liés à l’objectif de classification. En tant que tels, les vecteurs obtenus grâce à la formation sur un objectif peuvent ne pas être extrapolés pour d’autres tâches.

À la lumière de cette discussion, je vais maintenant décrire 4 méthodes récentes qui ont été proposées pour obtenir des vecteurs de phrase généraux. Notez que chacune de ces catégories appartient à l’une des deux catégories suivantes: (i) inter-phrase, où le vecteur d’une phrase dépend de ses phrases environnantes, et (ii) intra-phrase, où un vecteur de phrase ne dépend que de cette phrase particulière dans isolement.

Vecteurs de paragraphes
Dans cet article d’ICML’14 [1] de Mikolov (qui a également inventé word2vec), les auteurs proposent la solution suivante: un vecteur de phrase peut être appris simplement en attribuant un index à chaque phrase, puis en traitant l’index comme n’importe quel autre mot. Ceci est montré dans la figure suivante.

Essentiellement, chaque paragraphe (ou phrase) est associé à un vecteur unique et les vecteurs combinés de paragraphe et de mot sont utilisés pour prédire le mot suivant. Grâce à un tel entraînement, les vecteurs de paragraphe peuvent commencer à stocker des informations manquantes, agissant ainsi comme une mémoire pour le paragraphe. Pour cette raison, cette méthode s’appelle le modèle de mémoire distribuée (PV-DM).

Pour obtenir les encapsulations pour une phrase inconnue, une étape d’inférence doit être effectuée. Une nouvelle colonne de valeurs initialisées de manière aléatoire est ajoutée à la matrice d’inclusion de phrases. L’étape d’inférence est effectuée en conservant tous les autres paramètres pour obtenir le vecteur requis.

Le modèle PV-DM nécessite une grande quantité d’espace de stockage car les vecteurs de paragraphe sont concaténés avec tous les vecteurs de la fenêtre de contexte à chaque étape de la formation. Pour résoudre ce problème, les auteurs proposent un autre modèle, appelé Distributed BOW (PV-DBOW), qui prédit des mots aléatoires dans la fenêtre contextuelle. L’inconvénient est que ce modèle n’utilise pas l’ordre des mots, et par conséquent moins performant que PV-DM.

skip-thoughts
Alors que PV était un modèle intra-phrase, skip-thoughts [2] est inter-phrase. La méthode utilise la continuité du texte pour prédire la phrase suivante à partir de la phrase donnée. Cela résout également le problème de l’étape d’inférence présente dans le modèle PV. Si vous avez lu à propos de l’algorithme de saut de gramme dans word2vec, skip-thoughts est essentiellement la même technique abstraite au niveau de la phrase.

Dans cet article, les auteurs proposent un cadre d’encodage-décodeur pour la formation, avec un RNN utilisé à la fois pour l’encodage et le décodage. En plus d’une matrice d’incorporation de phrases, cette méthode génère également des vecteurs pour les mots du vocabulaire du corpus. Enfin, la fonction objectif à maximiser est la suivante.

Ici, les indices i + 1 et i-1 représentent respectivement la phrase suivante et la phrase précédente. Dans l’ensemble, la fonction représente la somme des probabilités de journalisation de prédire correctement la phrase suivante et la phrase précédente, compte tenu de la phrase en cours.

Étant donné que les vecteurs de mots sont également précisés au moment de l’entraînement, un problème peut survenir au moment de l’inférence si la nouvelle phrase contient un mot OOV. Pour résoudre ce problème, les auteurs présentent une solution simple pour l’expansion du vocabulaire. Nous supposons que n’importe quel mot, même s’il s’agit de OOV, proviendra certainement d’un espace vectoriel (par exemple w2v), de sorte que nous aurons sa représentation vectorielle dans cet espace. En tant que tel, chaque mot connu a 2 représentations, une dans l’espace RNN et une autre dans l’espace w2v. Nous pouvons alors identifier une matrice de transformation linéaire qui transforme les vecteurs spatiaux w2v en vecteurs spatiaux RNN, et cette matrice peut être utilisée pour obtenir les vecteurs RNN pour les mots OOV.

FastSent
Ce modèle, proposé par Kyunghun Cho [3], est également une technique inter-phrases et est conceptuellement très similaire aux sauts de pensées. La seule différence est qu’elle utilise une représentation BOW de la phrase pour prédire les phrases environnantes, ce qui la rend beaucoup plus efficace sur le plan du calcul que les sauts de pensées. L’hypothèse d’apprentissage reste la même, c’est-à-dire que la sémantique des phrases riches peut être déduite du contenu des phrases adjacentes. Puisque les détails de la méthode sont les mêmes que les sauts de pensées, je ne les répéterai pas ici pour éviter la redondance.

Autoencodeurs séquentiels de débruitage (SDAE)
Cette technique a également été proposée dans le même article [3] que FastSent. Cependant, il s’agit essentiellement d’une méthode intra-phrase dans laquelle l’objectif est de régénérer une phrase à partir d’une version bruyante.

Essentiellement, dans une SDAE, une donnée d’entrée de grande dimension est corrompue selon une fonction de bruit et le modèle est formé pour récupérer les données d’origine à partir de la version corrigée.

Dans le document, la fonction de bruit N utilise 2 paramètres comme suit.

Pour chaque mot w de la phrase S, N le supprime selon une probabilité p0.
Pour chaque bigramme ne se chevauchant pas dans S, N remplace les jetons bigramme par une probabilité px.
Celles-ci sont inspirées des approches de «perte de mots» et de «débossage», respectivement, qui ont été étudiées plus en détail auparavant.

Dans [3], les auteurs ont effectué des évaluations empiriques détaillées de plusieurs méthodes de vecteurs de phrases, y compris toutes les méthodes ci-dessus. De cette analyse, les observations suivantes peuvent être tirées,

Dépendance de la tâche: Bien que les méthodes aient l’intention de produire des représentations de phrases générales qui fonctionnent bien à travers différentes tâches, on constate que certaines méthodes sont mieux adaptées à certaines tâches en raison de l’algorithme inhérent. Par exemple, les sauts de pensées fonctionnent bien sur les tâches d’implication textuelle, alors que les SDAE fonctionnent beaucoup mieux sur la détection des paraphrases.
Inter vs. intra: Les modèles inter-phrases génèrent des vecteurs similaires dans le sens où leurs voisins les plus proches sont les phrases qui ont des concepts partagés. En revanche, pour les modèles intra-phrase, ce sont des phrases qui ont plus de mots qui se chevauchent.
Dépendance vis-à-vis de l’ordre des mots: Bien que l’avis général soit que l’ordre des mots est critique pour les vecteurs de phrase, le score moyen des modèles sensibles à l’ordre des mots est presque égal à celui des autres. C’était encore plus faible pour les modèles RNN dans les objectifs non supervisés, ce qui est en effet surprenant. Une explication à cela peut être que les phrases dans le jeu de données, ou les techniques d’évaluation, ne sont pas suffisamment robustes pour mettre suffisamment en cause les techniques simples basées sur la fréquence des mots.

JFM7VX690T型SRAM型现场可编程门阵列技术手册主要介绍的是上海复旦微电子集团股份有限公司(简称复旦微电子)生产的高性能FPGA产品JFM7VX690T。该产品属于JFM7系列,具有现场可编程特性,集成了功能强大且可以灵活配置组合的可编程资源,适用于实现多种功能,如输入输出接口、通用数字逻辑、存储器、数字信号处理和时钟管理等。JFM7VX690T型FPGA适用于复杂、高速的数字逻辑电路,广泛应用于通讯、信息处理、工业控制、数据中心、仪表测量、医疗仪器、人工智能、自动驾驶等领域。 产品特点包括: 1. 可配置逻辑资源(CLB),使用LUT6结构。 2. 包含CLB模块,可用于实现常规数字逻辑和分布式RAM。 3. 含有I/O、BlockRAM、DSP、MMCM、GTH等可编程模块。 4. 提供不同的封装规格和工作温度范围的产品,便于满足不同的使用环境。 JFM7VX690T产品系列中,有多种型号可供选择。例如: - JFM7VX690T80采用FCBGA1927封装,尺寸为45x45mm,使用锡银焊球,工作温度范围为-40°C到+100°C。 - JFM7VX690T80-AS同样采用FCBGA1927封装,但工作温度范围更广,为-55°C到+125°C,同样使用锡银焊球。 - JFM7VX690T80-N采用FCBGA1927封装和铅锡焊球,工作温度范围与JFM7VX690T80-AS相同。 - JFM7VX690T36的封装规格为FCBGA1761,尺寸为42.5x42.5mm,使用锡银焊球,工作温度范围为-40°C到+100°C。 - JFM7VX690T36-AS使用锡银焊球,工作温度范围为-55°C到+125°C。 - JFM7VX690T36-N使用铅锡焊球,工作温度范围与JFM7VX690T36-AS相同。 技术手册中还包含了一系列详细的技术参数,包括极限参数、推荐工作条件、电特性参数、ESD等级、MSL等级、重量等。在产品参数章节中,还特别强调了封装类型,包括外形图和尺寸、引出端定义等。引出端定义是指对FPGA芯片上的各个引脚的功能和接线规则进行说明,这对于FPGA的正确应用和电路设计至关重要。 应用指南章节涉及了FPGA在不同应用场景下的推荐使用方法。其中差异说明部分可能涉及产品之间的性能差异;关键性能对比可能包括功耗与速度对比、上电浪涌电流测试情况说明、GTH Channel Loss性能差异说明、GTH电源性能差异说明等。此外,手册可能还提供了其他推荐应用方案,例如不使用的BANK接法推荐、CCLK信号PCB布线推荐、JTAG级联PCB布线推荐、系统工作的复位方案推荐等,这些内容对于提高系统性能和稳定性有着重要作用。 焊接及注意事项章节则针对产品的焊接过程提供了指导,强调焊接过程中的注意事项,以确保产品在组装过程中的稳定性和可靠性。手册还明确指出,未经复旦微电子的许可,不得翻印或者复制全部或部分本资料的内容,且不承担采购方选择与使用本文描述的产品和服务的责任。 上海复旦微电子集团股份有限公司拥有相关的商标和知识产权。该公司在中国发布的技术手册,版权为上海复旦微电子集团股份有限公司所有,未经许可不得进行复制或传播。 技术手册提供了上海复旦微电子集团股份有限公司销售及服务网点的信息,方便用户在需要时能够联系到相应的服务机构,获取最新信息和必要的支持。同时,用户可以访问复旦微电子的官方网站(***以获取更多产品信息和公司动态。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值