
文本处理和语义分析
文章平均质量分 81
yukai08008
这个作者很懒,什么都没留下…
展开
-
Python 文本处理和语义分析4 基于文本向量化的分类预测
文本向量化有很多用途,其中之一是用于分类预测。变长的文本,在进行向量化之后,变为了定长的向量;n个文本堆叠,就是矩阵,。关于文本的向量化,可以参考之前说的m3e模型。在开始之前,我有一个小的猜测,然后实证下来还是非常符合预期的。所以再一次,向量化 ~ 矩阵化是最为核心的问题,它代表了一个人与计算机;可变数据与恒定算法的桥梁。原创 2024-02-21 10:23:41 · 1053 阅读 · 0 评论 -
Python 文本处理和语义分析2 使用m3e对文本向量化
向量化将会是下一阶段演进的目标。在过去的实践中,向量或者矩阵其实是最贴近工具端的。以sklearn为例,虽然原始数据可能还是自然语言,但是在最终执行 fit或者predict之前,数据一般都转为了矩阵形态(numpy)。也就是说,在pandas(原始数据)和最终结果(predict result)之间,是(短暂且必然)存在过矩阵的。后来,应该是有过类似以图搜图类的应用,向量化且持久化在数据库中开始兴起。原创 2024-02-19 17:32:39 · 2725 阅读 · 0 评论 -
Python 文本处理和语义分析1 一些概念
说明梳理一下文本处理和语义分析的内容,框架性的。内容1 一些概念1.1 数据从数据的角度出发,我们以文章为单位,逐渐细分到词。文章(article) -> 段落(paragraph) -> 长句(long sentense)-> 短句(short sentense) -> 词(word)这些层级式的处理单元需要通过一些方法进行分割,其中短句比较重要,是模型学习的单元。1.2 理解达到至简采用图的方式让计算机理解。语言的目的是表达不同的概念,计算机无法采用人类的原创 2021-05-14 16:44:41 · 1245 阅读 · 0 评论