#!/usr/bin/env python
# -*- coding:utf-8 -*-
#@Time : 2019/12/24 13:57
#@Author: 李现伟
#@File : TinyTokenizerTest.py
import os
os.environ['MECAB_PATH']='C:\\Program Files (x86)\\MeCab\\bin\\libmecab.dll'
os.environ['MECAB_CHARSET']='utf-8'
from tiny_tokenizer import WordTokenizer
sentence = '僕は李現偉と申します。日本語を勉強しています。'
tokenizer1 = WordTokenizer('MeCab')
print(tokenizer1.tokenize(sentence))
tokenizer = WordTokenizer(tokenizer="mecab", with_postag=False)
print(tokenizer.tokenize(sentence))
tokenizer = WordTokenizer('Sentencepiece', model_path="data/model.spm")
print(tokenizer.tokenize(sentence))
运行结果:
[僕, は, 李, 現, 偉, と, 申し, ます, 。, 日本語, を, 勉強, し, て, い, ます, 。]
[僕, は, 李, 現, 偉, と, 申し, ます, 。, 日本語, を, 勉強, し, て, い, ます, 。]
[▁, 僕, は, 李, 現, 偉, と, 申し, ます, 。, 日本語, を, 勉強, し, ています, 。]
Process finished with exit code 0


被折叠的 条评论
为什么被折叠?



