自然语言处理入门自学
文章平均质量分 62
whan2012xh
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
自然语言处理入门学习(二)--字典树
字典树1、字典树字典树:trie树,用树结构来描述词典。树状结构每条边代表一个字符,字符串是一条路径节点可以存储value单词对应的是路径字典树相对于普通树的结构来说,就是类似带权重的树,只是权重不是数字,而是每一个字符。同时当节点value不为none时,表示从根节点到该节点的路径对应的字符串就是一个词。实现方案:节点:就和二叉树类似,有个节点类,但是字典树节点需要保存子树和value.子树需要保存路径上的字符,显然用dict来实现。树:主要要实现查询功能,其实就是按照查询字符来原创 2021-07-20 23:26:53 · 1233 阅读 · 0 评论 -
自然语言处理入门学习--切分算法
划分算法分词算法的核心是速度。1、完全切分完全切分:找出一段文本中所有的分词。主要这实际上不是标准意义上的分词,因为这个算法会把单个字全部输出,并没有考虑到是否是有意义的词语序列。例如:“北京大学”切分得到的结果是[‘北’, ‘北京’, ‘北京大学’, ‘京’, ‘大’, ‘大学’, ‘学’]。代码实现:遍历文本中词是否在词典中即可。from load_dictionary import load_dictionarydef fully_segment(text, dic): wor原创 2021-07-19 22:17:16 · 1610 阅读 · 0 评论
分享