
python 自然语言处理
文章平均质量分 72
459817216
在读硕士,研究方向机器学习
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
python3.X 自然语言处理基础知识
import nltknltk.download()#下载nltk语料库如果没有安装nltk,请在cmd下用批 pip install nltk进行安装from nltk.book import *###搜索文本#搜索单词text1.concordance("monstrous")text2.concordance("affection")text3.原创 2017-11-22 14:14:57 · 1259 阅读 · 0 评论 -
python3.x如何从互联网获取想要的文章,及转化为nltk可以处理的文本
from urllib.request import urlopenfrom bs4 import BeautifulSoupfrom nltk import word_tokenizeimport nltk#2种方式解析HTML中的文本url = "http://news.bbc.co.uk/2/hi/health/2284783.stm"html = urlopen(u原创 2017-12-13 11:12:31 · 598 阅读 · 0 评论 -
python3.x正则表达式的含义及使用
import reimport nltk#正则表达式wordlist = [w for w in nltk.corpus.words.words('en') if w.islower()]print(wordlist)#查找ed结尾的词汇print([w for w in wordlist if re.search('ed$', w)])#匹配:8个字母,第3个原创 2017-12-13 16:52:51 · 462 阅读 · 1 评论 -
python 3.x 结巴(jieba)分词基础知识
# -*- coding: utf-8 -*-from __future__ import unicode_literalsimport syssys.path.append("../")import jiebaimport jieba.possegimport jieba.analyse#分词seg_list = jieba.cut原创 2017-12-19 15:59:05 · 1215 阅读 · 0 评论