1 .cut()函数,将句子进行分词
.cut(待处理的句子,处理时使用的模式)
全模式jieba.cut(sentence,cut_all =True):分的词比较全,但词汇可能有叠加
精准模式jieba.cut(sentence,cut_all=False),与全模式相对立,词汇无叠加
搜索引擎模式jieba.cut_for_search(语句)
对于输出,需要通过循环将其遍历出来
for item in w1:
print(item)
2 .posseg()函数,进行词性标注
a:形容词
c:连词
d:副词
e:叹词
f:方位词
i:成语
m:数词
n:名词
nr:人名
ns:地名
nt:机构团体
p:介词
r:代词
t:时间
u:助词
v:动词
vn:名动词
w:标点符号
un:未知词语
import jieba.posseg
w5 = jieba.posseg.cut(sentence)
#.flag词性
#.word词语
for item in w5:
print(item.word+"-----"+item.flag)