
爬虫
文章平均质量分 83
szZack
写一点过往的积累。
展开
-
【实用工具系列之爬虫】python爬取资讯数据
在大数据架构中,数据收集与数据存储占据了极为重要的地位,可以说是大数据的核心基础。而爬虫技术在这两大核心技术层次中占有了很大的比例。本文实现一种简单快速的爬虫方法,其中用了代理ip,代理ip的获取可以参考我的这篇文章【实用工具系列之爬虫】python实现爬取代理IP(防 ‘反爬虫’)。...原创 2022-09-01 17:29:06 · 1932 阅读 · 0 评论 -
NLP实战:财经新闻热点跟踪
前言随着网络舆情及预警机制研究的广泛深入和迫切性,话题发现和跟踪的研究已经成为当前的研究热点。本文给出一个财经新闻热点跟踪的技术架构。实战前一篇文章NLP实战:财经新闻热点发现涉及技术NLP爬虫技术架构要点说明爬虫、关键词、特征见我的上一篇文章:NLP实战:财经新闻热点发现时间间隔:可设为4小时或者6小时文章相似度计算1、tf-i...原创 2019-08-03 20:58:47 · 5006 阅读 · 0 评论 -
【实用工具系列之爬虫】python实现爬取代理IP(防 ‘反爬虫’)
本文使用python实现代理IP的爬取。环境Ubuntu16.04python3爬取方法代理IP网站:https://www.xicidaili.com步骤1、按照页面id顺序爬取页面内容2、使用正则表达式解析ip、port3、保存ip、port信息代码实战import sys, osimport urllib.requestimport timeimp.........原创 2019-07-27 15:02:51 · 5319 阅读 · 0 评论 -
处理python3爬虫问题:urlopen error [Errno 111] Connection refused 或 urlopen error timed out
问题爬虫时使用代理,经常会出现 <urlopen error [Errno 111] Connection refused> 或者 这类的错误,造成这类问题的原因是代理ip不可用或者质量差,解决方法如下:方法1、建立代理ip池2、使用try… except… 处理异常,删除无效ip,示例代码:def crawl_web_data(url, proxy_ip_list):...原创 2019-07-28 13:30:35 · 11192 阅读 · 0 评论