
NLP
文章平均质量分 94
大拨鼠
克己慎独守心明性
展开
-
如何让机器理解人类语言?Embedding技术详解
在语言理解方面,人类的能力是无与伦比的。因为人脑能够轻松理解语言中的各种情感信息,例如幽默、讽刺、负面情绪等,只是我们必须了解句子所用的语言。例如,如果有人用英语评论我的文章,如果不借助翻译我可能很难理解对方想要表达的内容,所以为了有效的沟通,我们需要用对方最熟悉的语言进行交流。同理,为了让机器能够处理并理解任何类型的文本,需要我们将文本表示为机器能够理解的“语言”。那么,机器最擅长理解哪种语言呢?没错,就是数字。无论我们提供什么样的数据给机器,例如视频、音频、图片或是文本,机器最终都只能处理数字。原创 2024-05-13 15:44:51 · 1140 阅读 · 0 评论 -
正则表达式:文本处理的利器
这些是常见的字符类的简写形式。原创 2024-05-11 16:11:47 · 995 阅读 · 0 评论 -
AutoDL如何下载huggingface模型
本人使用AutoDL下载huggingface时,下面是我尝试过的一些方法,但有的方法对我来说没用,最后一种方法是最方便的,如果不想尝试前面的几种方法可以直接用最后一种。由于AutoDL和阿里网盘是可以相互传输数据的,所以就先通过colab将模型下载到阿里网盘,再将模型上传到AutoDL。如果使用huggingface官网下载模型,首先需要利用token登陆,如果没有token,需要先在。查阅资料后解释是模型太大,下载过程网路不稳定,需要关闭VPN,所以该方法对下载太大的模型可能行不通。原创 2024-05-10 13:05:16 · 8286 阅读 · 11 评论 -
模型训练加速策略:掌握数据并行的力量
在深入讨论之前,我们首先需要理解何为“数据并行”(Data Parallelism)。数据并行是并行计算的一种形式,它涉及到在多个处理单元(如GPU)上同时执行计算任务。在深度学习中,这意味着模型可以在不同的GPU上同时训练,每个GPU处理数据集的不同部分。原创 2024-05-08 11:00:00 · 1052 阅读 · 0 评论