新词发现

算法:
* 计算总词数 -- 是包括单个的字吗
* 过滤掉单个的字
* 过滤掉出现频率小于阈值的词
* 如何计算凝固程度
首先取这个词
分第一个字和剩下的,计算其出现频率乘积
分最后一个字和剩下的,计算其出现频率乘积
取二者的最小值
和这个词的出现频率比值
* 如何计算自由度
右邻字信息熵计算
首先取这个词
取字串为从0到n-2等于这个词的所有词
先排好序计算量很小
左邻字信息熵计算
需要逆序排列下
给定的引用中未提及使用TF-IDF进行新词发现的相关内容。不过可以从TF-IDF本身原理和新词发现的一般思路来推测TF-IDF新词发现方法及相关技术。 TF-IDF(Term Frequency-Inverse Document Frequency)是一种衡量词在文档中重要性的统计方法,综合考虑了词在文档中的出现频率(TF)以及词在整个语料库中的稀有程度(IDF) 。在新词发现场景中,其基本思路可能是利用TF-IDF值来筛选可能的新词。 ### 方法步骤 - **语料收集与预处理**:收集大量的文本语料,对语料进行预处理,如去除标点符号、停用词等,统一文本格式。 - **初步切分**:使用现有的分词工具对文本进行初步切分,得到一些已知的词汇。 - **候选词提取**:从初步切分后的文本中提取可能的新词候选,例如通过滑动窗口的方式,提取一定长度的连续字符序列作为候选词。 - **计算TF-IDF值**:对于每个候选词,计算其在各个文档中的TF-IDF值。TF-IDF值高的候选词既在某些文档中频繁出现,又在整个语料库中相对罕见,更有可能是新词。 - **阈值筛选**:设定一个TF-IDF阈值,筛选出TF-IDF值高于该阈值的候选词作为新词。 ### 相关技术 - **TF-IDF计算技术**:可以使用Python的`sklearn`库中的`TfidfVectorizer`类来计算TF-IDF值。示例代码如下: ```python from sklearn.feature_extraction.text import TfidfVectorizer corpus = [ 'This is the first document.', 'This document is the second document.', 'And this is the third one.', 'Is this the first document?' ] vectorizer = TfidfVectorizer() X = vectorizer.fit_transform(corpus) print(vectorizer.get_feature_names_out()) print(X.toarray()) ``` - **文本预处理技术**:使用正则表达式、`nltk`库等进行文本的清洗和预处理。 - **滑动窗口技术**:通过滑动窗口提取候选词,控制窗口的大小可以调整候选词的长度。
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值