
NPL
lanlan_bupt
一只快乐的程序猿
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
ChineseNER——BILSTM-CRF 命名实体识别 (一)
部分内容转载自:https://www.jianshu.com/p/495c23aa5560 作者:炼己者 博客:https://www.cnblogs.com/lookfor404/ 序言: 感谢大佬!!!这位讲解的非常清楚,作为入门非常好。我针对这篇文章所引用的代码做了一些修改和使用。 本系列为学习记录。 先放上炼己者大佬的文章链接:https://www.jianshu.com/...转载 2020-03-27 13:28:22 · 2642 阅读 · 26 评论 -
NPL——xpath
瞎哔哔 写小爬虫用xpath取dom数据,直接re切太麻烦了,记录一下 import anaconda里面自带了,没有就自己pip一下 from lxml import etree 使用 #先爬一个网页下来,就百度吧 response=requests.get(url='https://www.baidu.com/') #做成dom树 baidu = etree.HTML(resp...原创 2019-11-19 11:16:38 · 165 阅读 · 0 评论 -
NPL——requests
瞎哔哔 我主要用这个发送请求,写一点小爬虫,爬一下没有反爬虫的网页数据 记录一下 import import requests post get #url是网址路径, #data是发送出去的json数据, #header是请求头,可有可无, #timeout是10s超时 response = requests.post(url=url,data=json.dumps(data,en...原创 2019-11-19 10:50:33 · 182 阅读 · 0 评论 -
NPL——nltk
import import nltk 清理html标签 clean=nltk.clean_html(html) 计算词频 先分词然后计算词频,中文分词用结巴,英文直接split空格分词 import jieba tokens=jieba.cut(text, cut_all=False) #获取词频 freq_dist_nltk=nltk.FreqDist(tokens) f...原创 2019-11-10 22:40:05 · 252 阅读 · 0 评论 -
NPL——jieba分词
import import jieba 精确模式 一般用这个 jieba.cut(text, cut_all=False) 全模式 扫描所有词,返回所有成词的语句,词会有重复包含关系,一般不用 jieba.cut(text, cut_all=True) 搜索模式 在精确模式的基础上对长词进行区分 适用于搜索引擎 jieba.cut_for_search(text) ...原创 2019-11-10 22:35:11 · 264 阅读 · 0 评论 -
NPL——re 正则
import import re 查找字符是否存在 根据正则查找字符,返回True False re.search('[0-9]*[A-Z]',mystring) 查找字符串 查找所有符合条件的字符串,返回列表 re.findall('<.*?>', mystring) 查找字符串并替换 创建模式并替换 pattrn=re.compile('<scr...原创 2019-11-10 22:21:21 · 178 阅读 · 0 评论