
nlp
DedicateToAI
这个作者很懒,什么都没留下…
展开
-
Python爬虫requests包和xpath包总结
import requests# 这里的headers就是我们上图框中的headersrequest_headers = { 'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8', 'Accept-Encoding': 'gzip,...原创 2019-02-01 10:53:32 · 1430 阅读 · 0 评论 -
python模拟登陆豆瓣网
import requestsurl = 'https://accounts.douban.com/j/mobile/login/basic'request_headers = { 'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8', ...原创 2019-02-01 17:18:11 · 707 阅读 · 1 评论 -
对HTML网页正文进行提取
写这么一个算法,能够从过滤html标签后的文本中找到正文文本的起止行号,行号之间的文本就是网页正文部分。有一个规律:正文部分的文本密度要高出非正文部分很多。我们按照这个特性就可以很容易将算法实现,那就是基于阈(读音:yu)值去分析正文所在的位置。那么接下来就需要解决一些问题:如何确定阈值? 如何分析,一行行的分析?还是?阈值的确定可以通过统计分析得出一个比较好的值,我在实际处理过程...原创 2019-02-02 16:47:41 · 3545 阅读 · 0 评论 -
【转】基于行块分布函数的网页正文提取
#! /usr/bin/env python3# -*- coding: utf-8 -*-import requests as reqimport reDBUG = 0reBODY =re.compile( r'<body.*?>([\s\S]*?)<\/body>', re.I)reCOMM = r'<!--.*?-->'reTRI...转载 2019-02-02 20:50:13 · 417 阅读 · 0 评论 -
python对数据的一些处理方法
with open('./cnews/cnews.train.txt', encoding='utf8') as file: label_list = [k.strip() for k in file.readlines()] #去两边的空格 train_label_list = [k.split()[0] for k in label_list] #标签 train_...原创 2019-02-18 16:55:49 · 479 阅读 · 0 评论