# -*- coding: utf-8 -*-
from hanziconv import HanziConv
from jieba import cut
from tflearn.data_utils import VocabularyProcessor
DOCUMENTS = [
'这是一条测试1',
'这是一条测试2',
'这是一条测试3',
'这是其他测试',
]
def chinese_tokenizer(documents):
"""
把中文文本转为词序列
"""
for document