
文本处理
文章平均质量分 76
崔昕阳
这个作者很懒,什么都没留下…
展开
-
正向最大匹配算法实现之python实现
1.python 版本:python 3.6.4 2.思路: s1.导入分词词典,存储为字典形式dic,导入停用词词典stop_words,存储为字典形式,需要分词的文本文件cutTest.txt,存储为字符串chars s2.遍历分词词典,找出最长的词,长度为max_chars s3.创建空列表words来存储分词结果 s4.初始化字符串chars分词起点n=0 s5.判断分词点n是...原创 2018-08-31 09:53:45 · 6780 阅读 · 6 评论 -
常见的中文分词方法
常见的中文分词方法1.基于规则的方法(字符串匹配、机械分词)     定义:按照一定规则将待分析的汉字串与词典中的词条进行匹配,找到则切分,否则不予切分。按照匹配切分的方式,主要有正向最大匹配方法、逆向最大匹配方法和双向最大匹配三种方法。 1.1正向最大匹配方法     正原创 2018-08-28 19:53:32 · 3565 阅读 · 0 评论 -
TextCNN原理记录
最近在做基于深度学习的文本分类,目前常见的神经网络主要有CNN和RNN,相对来说CNN的速度较快。在这里对于CNN用于文本分类的理解做一下记录,主要基于论文和网上的一些参考资料。一、论文原件论文题目:Convolutional Neural Networks for Sentence Classification作者:Yoon Kim论文下载地址:https://arxiv.org/abs...原创 2019-07-19 12:49:44 · 439 阅读 · 0 评论 -
Google Colab下下载imdb数据集报错ValueError: Object arrays cannot be loaded when allow_pickle=False的解决方法
错误显示:ValueError: Object arrays cannot be loaded when allow_pickle=False解决方法:原因是numpy版本过高!pip install numpy==1.16.2点击RESTART RUNTIME即可。如图所示:...原创 2019-07-19 19:48:56 · 1008 阅读 · 0 评论 -
酒店评论预处理程序
def corpus_content(corpus_path, seg_path): catelist = os.listdir(corpus_path) # 获取corpus_path下所有的子目录 print("catelist", catelist) with open(seg_path, 'w', encoding="UTF-8") as fw: ...原创 2019-08-02 18:02:12 · 603 阅读 · 0 评论