普通网友-优快云博客

原创【NLP入门系列二】NLP分词和字典构建

build_vocab_from_iterator 是 PyTorch 的 torchtext 库中用于构建文本词汇表（Vocabulary）的核心函数.中文博大精深，有时候一个字，在不同语境下都有不同的意思，故如何对一句话进行正确切分，且不能破坏原有的意思，是分词的主要难点。min_freq 和 max_tokens 可组合使用，例如 min_freq=2 和 max_tokens=1000。“白”（形容词） + “天鹅”（名词） → 形成名词短语（“白色的天鹅”），故将首字单切，即切分为“白/天鹅”。

2025-06-15 22:01:18 89

原创数据库学习笔记(十六)--控住流程与游标

*范例2：**当市场环境变好时，公司为了奖励大家，决定给大家涨工资。声明存储过程“leave_while()”，声明OUT参数num，输出循环次数，存储过程中使用WHILE循环给大家降低薪资为原来薪资的90%，直到全公司的平均薪资小于等于10000，并统计循环次数。虽然我们也可以通过筛选条件 WHERE 和 HAVING，或者是限定返回记录的关键字 LIMIT 返回一条记录，但是，却无法在结果集中像指针一样，向前定位一条记录、向后定位一条记录，或者是随意定位到某一条记录，并对记录的数据进行处理。

2025-06-15 22:00:30 100

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

原创 【NLP入门系列二】NLP分词和字典构建

原创 数据库学习笔记(十六)--控住流程与游标

空空如也

空空如也

原创【NLP入门系列二】NLP分词和字典构建

原创数据库学习笔记(十六)--控住流程与游标