nlp
文章平均质量分 92
陈為先
多发paper多锻炼。
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
朴素贝叶斯分类
train.py #!/usr/bin/env python # -*- coding: UTF-8 -*- import os import shutil import jieba import pickle from sklearn.datasets.base import Bunch from sklearn.feature_extraction.text import TfidfVecto...原创 2019-03-22 16:08:10 · 497 阅读 · 0 评论 -
自动摘要(抽取式)
wiki语料处理与word2vec语料训练 step1_wiki.py # -*- encoding:utf-8 -*- ''' Function: 解析.bz2格式语料包,得到.txt ''' import requests from gensim.corpora.wikicorpus import extract_pages, filter_wiki import bz2file impo...原创 2019-03-22 16:45:56 · 2690 阅读 · 0 评论 -
实体识别(corenlp)
# coding=utf-8 import json import logging from stanfordcorenlp import StanfordCoreNLP # nlp_entity = StanfordCoreNLP(r'stanford-corenlp-full-2018-02-27', lang='zh', quiet=False, logging_level=logging...原创 2019-03-22 16:52:22 · 1475 阅读 · 2 评论 -
实体消歧(链接到实体库)
disambiguation.py #!/usr/bin/python3 import pymysql import json import requests from SimilarityEN import similarity def findCandidates(entity): # 打开数据库连接 db = pymysql.connect(host=host, port...原创 2019-03-22 16:57:15 · 3324 阅读 · 2 评论 -
关键词提取
# -*- encoding:utf-8 -*- ''' Interface: KPextCN(text, keyphrasenum=4, stoppath='stopword.txt') SupportFile: stopword.txt Fuction: 中文关键短语提取 Algorithm: TextRank ''' import json from textrank4zh import...原创 2019-03-22 17:04:40 · 630 阅读 · 0 评论
分享