- 博客(2)
- 收藏
- 关注
原创 文本可读性计算
文本可读性是指文本中内容和语言的难易理解程度,通常与专业词汇、逻辑结构、句子长短等因素相关。cntext是一个专门用于中文文本分析的第三方库,包括文本词频统计、词典扩充、情绪分析、相似度、可读性等功能。
2024-08-24 11:43:25
621
原创 企业社会责任报告CSRR——文本相似性计算
相似性是指两个文本之间内容的相似程度。现有关于文本相似性度量的研究,主要采用以下方法:词频-逆文档频率(Term Frequency–Inverse Document Frequency,TF-IDF)、潜在狄利克雷分布(Latent Dirichlet Allocation,LDA)主题模型、Word2vec词向量模型。TF-IDF是一种用以评估词对文档集或语料库中文件重要程度的统计方法。LDA是一种描述文档-主题-词之间关系的概率生成模型,能够在一定程度上捕捉文档的语义信息。
2024-08-22 21:14:20
547
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人