
NLP
文章平均质量分 71
kaims
perceive and discern, catch and release
展开
-
维基语料处理 and 多语言维基文档title的对齐
wikidumpswikipedia-parallel-titles使用wikiextractor提取wikidumps语料基于维基百科语料生成平行句对基于维基百科构建平行语料库wikidumps语料下载wikidumps网址为en-wikidumpswikidumps语料的处理处理wikidumps语料可以用wikiextractor工具来提取。实现需要安装pip install wikiextractor然后可以有两种方法使用,一种是将库中的python模块用作脚本去运行pyth原创 2022-01-30 22:02:32 · 1035 阅读 · 0 评论 -
Wikipedia API使用指南
Wikipedia APIhttps://pypi.org/project/Wikipedia-API/https://github.com/martin-majlis/Wikipedia-API/安装pip install Wikipedia-APIWikipedia-API是基本使用import wikipediaapititle = "china"wiki = wikipediaapi.Wikipedia( language='en', extract_forma原创 2021-12-26 20:02:15 · 6106 阅读 · 0 评论 -
wikipedia使用指南
https://www.codenong.com/s-getting-started-with-pythons-wikipedia-api/安装pip install wikipedia 根据title搜索维基百科文章search()方法在Wikipedia中搜索作为其参数提供的查询,返回包含该查询的所有文章标题的列表。import wikipedia print(wikipedia.search("Bill"))# ['Bill', 'The Bill', 'Bill Nye', 'Bil原创 2021-12-26 20:01:26 · 2911 阅读 · 0 评论 -
使用BERT和GPT-2计算句子困惑度PPL
定义BERThttps://github.com/xu-song/bert-as-language-modelhttps://stackoverflow.com/questions/63030692/how-do-i-use-bertformaskedlm-or-bertmodel-to-calculate-perplexity-of-a-sentencehttps://github.com/ymcui/Chinese-BERT-wwm对于给定的sentence,按顺序依次mask掉一个token原创 2021-09-29 00:10:14 · 11357 阅读 · 13 评论 -
“Ran out of input” while use WikiExtractor
当使用Wikipedia Extractor(GitHub - attardi/wikiextractor: A tool for extracting plain text from Wikipedia dumps)工具处理所下载的wiki dump文件(https://dumps.wikimedia.org/zhwiki/latest/zhwiki-latest-pages-articles.xml.bz2)时,当我执行python命令:python Wikiextractor.py原创 2021-09-27 19:42:12 · 349 阅读 · 0 评论 -
python中jieba库使用教程
jieba是python的一个中文分词库,下面介绍它的使用方法。安装方式1:pip install jieba方式2:先下载 http://pypi.python.org/pypi/jieba/然后解压,运行 python setup.py install功能下面介绍下jieba的主要功能,具体信息可参考github文档:https://github.com/fxsjy/jieba分词jieba常用的三种模式:精确模式,试图将句子最精确地切开,适合文本分析; 全模式转载 2021-09-23 16:24:24 · 22998 阅读 · 0 评论 -
python中stanfordCorenlp使用教程
1 安装前言Stanford CoreNLP的源代码是使用Java写的,提供了Server方式进行交互。stanfordcorenlp是一个对Stanford CoreNLP进行了封装的Python工具包,GitHub地址,使用非常方便。安装依赖1:下载安装JDK 1.8及以上版本。2:下载Stanford CoreNLP文件,解压。3:处理中文还需要下载中文的模型jar文件,然后放到stanford-corenlp-full-2018-02-27根目录下即可(注意一定要下载这个文件,否转载 2021-09-22 16:12:46 · 8987 阅读 · 12 评论 -
Lucene构建索引与执行搜索小记
构建索引 1.创建Directory对象,指定索引库存放位置 2.创建Analyzer对象,指定分析器类型 3.基于1和2创建IndexWriter对象 4.创建Document对象 5.创建Field对象,并将Field对象添加到Document对象中 6.使用IndexWriter对象将Document对象写入到索引库 7.关闭IndexWriter对象Directory对象Lucene中,Directory抽象类有两个子类,分别是RAMDirectory和FSDire原创 2021-05-20 19:51:06 · 314 阅读 · 1 评论