
爬虫
文章平均质量分 85
YiFoEr_Liu
大数据分析工程师,希望发布的东西大家能够用到
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
基于Python的微博数据采集
本系统通过逆向工程微博移动端API接口,实现了对热门板块微博内容及用户评论的自动化采集。系统采用Requests+多线程架构,支持递归分页采集和动态请求头模拟,每小时可处理3000+条数据记录。关键技术特征包括:1)基于max_id的评论分页递归算法 2)HTML标签清洗正则表达式 3)用户-评论关联存储模型。采集数据字段涵盖用户属性、社交行为、内容特征等12个维度,为社交网络分析、舆情监测、用户画像构建提供底层数据支持。经测试验证,系统在持续运行环境下数据捕获完整率达98.7%,具备良好的工程应用价值。原创 2025-04-05 23:57:00 · 2120 阅读 · 0 评论 -
基于Python的M3U8流媒体下载系统深度解析与工程实践
本文提出了一种基于Python的分布式流媒体下载解决方案,针对M3U8视频格式特点设计了多线程下载与智能合并系统。通过引入线程池技术实现网络I/O密集型任务的并行化处理,结合FFmpeg多媒体框架完成视频片段的无损合并,最终构建出具有高吞吐量、高容错性的视频采集系统。实验表明,本系统在典型网络环境下可实现较单线程模式提升8-12倍的下载效率,同时保证视频文件的完整性。原创 2025-04-02 16:44:21 · 1310 阅读 · 0 评论 -
基于DrissionPage的TB商品信息采集与可视化分析
本项目旨在通过使用DrissionPage工具,结合Python编程语言,实现对淘宝商品信息的自动化采集,并基于采集到的数据生成价格分布的可视化图表,帮助用户快速了解商品的价格区间。原创 2025-03-25 09:43:06 · 1959 阅读 · 0 评论 -
基于DrissionPage的DY无水印视频采集
基于DrissionPage的DY无水印视频采集原创 2025-03-21 14:56:35 · 1692 阅读 · 0 评论 -
Python实现WYY音乐下载
通过本文的逆向分析,我们不仅实现了网易云音乐的下载功能,更展示了如何突破前端加密限制的思路。在实际开发中,需持续关注目标网站的更新动态,及时调整加密算法参数。原创 2025-03-19 17:32:57 · 2287 阅读 · 0 评论 -
实时采集航班位置数据
我们将使用RadarBox24(RB24)提供的实时航班数据API来采集航班位置信息。RadarBox24是一个全球领先的航班跟踪平台,提供丰富的航班数据和API接口。RadarBox24提供了多种API接口,包括实时航班数据API、历史航班数据API和机场数据API。本文将重点介绍实时航班数据API的使用方法。原创 2024-11-25 17:23:03 · 1738 阅读 · 0 评论 -
利用Python爬取12306网站车次信息
采集12306官网车次信息原创 2024-11-25 16:33:18 · 1181 阅读 · 0 评论 -
利用微信小程序作为爬虫的目标URL进行全国手机号段归属地的数据采集
"""Version 1.1.0Author lkkEmail lkk199404@163.comdate 2019/2/14 11:09Desc TODO"""import requestsimport jsonimport timeimport toolsssurl = 'https://www.qqzeng-ip.com/api/phone'headers = ...原创 2019-02-21 15:46:36 · 890 阅读 · 2 评论 -
爬虫入门之验证码的处理--------------------------pytesseract库的使用
前言 目前有许多网站针对爬虫采取了多种多样的措施进行反爬虫,为了不降低用户的体验度同时还能将爬虫拦截在网站之外的一个简单的措施就是验证码。随着技术的发展,验证码的种类也越来越多了,图形拼接、数字组合、简单的数学问题、点击图中的文字等等以及在文字渲染的同时加入干扰线条来增大爬取信息的难度。验证码也随之变得越来越复杂了,爬虫工作也变得越来越有挑战性了。1.1 图形验证码的识别在...原创 2018-12-11 14:29:37 · 448 阅读 · 0 评论 -
python爬虫入门之————————————————第四节--使用bs4语法获取数据
1.装备工作:模块安装1.1命令安装方式:(开发环境:python3.6环境)官方文档:https://www.crummy.com/software/BeautifulSoup/bs4/doc/index.html官方文档中文版:https://www.crummy.com/software/BeautifulSoup/bs4/doc.zh/ pip install be...原创 2018-12-01 19:49:42 · 924 阅读 · 0 评论 -
python下使用scrapy-redis模块分布式爬虫的爬虫项目部署详细教程————————gerapy
1.使用gerapy进行分布式爬虫管理准备工作:首先将你使用scrapy-redis写的分布式爬虫全部完善模块准备:安装:pip install pymongo【依赖模块】pip install gerapy 2.在本地创建部署项目的文件夹2.1例如如图在本地创建workgreapy文件夹2.2进入该文件夹2.3输入cmd 回车2.4在命令...原创 2018-12-04 22:54:40 · 793 阅读 · 0 评论 -
python爬虫入门之————————————————案例演练
源码"""Version 1.1.0Author lkkEmail lkk199404@163.comdate 2018-11-25 18:39DESC 电影天堂"""# https://www.dy2018.com/from urllib import requestimport timefrom lxml import htmlfrom fake_userage...原创 2018-11-28 22:42:28 · 448 阅读 · 0 评论 -
python爬虫入门之————————————————案例演练
目标url https://www.qiushibaike.com/8hr/page/数据持久化源代码:"""Version 1.1.0Author lkkEmail lkk199404@163.comdate 2018-11-22 21:57DESC sqlalchemy存储"""from sqlalchemy import Column, String, cre...原创 2018-11-28 22:36:53 · 419 阅读 · 0 评论 -
python爬虫入门之————————————————第三节requests详解
1.下载安装(1)命令安装方式Windows:打开命令窗口行,直接运行包管理命令安装 pip install requests or essy_install requests(简易版) unix/linux:打开 shell 窗口,运行包管理命令安装 pip install requests (2)离线安装 下载离...原创 2018-11-28 22:18:11 · 635 阅读 · 0 评论 -
python爬虫入门之————————————————第二节--使用xpath语法获取数据
准备工作⚫了解爬虫的数据处理体系结构⚫ 处理数据的软件准备 采集到的结构化数据[如 html 网页文档数据] python 开发环境 lxml 第三方库 结构化数据基本理论:DOM 模型 1结构化数据具备有一定的结构,有预定义规则的数据模型,统称为结构化数据 如:数据进行格式化展示的 HTML 文档中的数据、数据进行格式化传输的 XML 文档中的数据、数据进行格式化整理的 Exce...原创 2018-11-25 18:38:12 · 2465 阅读 · 0 评论 -
python爬虫入门之————————————————第一节--了解爬虫
1.爬虫入门概述爬虫,又被称为网络爬虫,主要指代从互联网上进行数据采集的脚本后者程序,是进行数据 分析和数据挖掘的基础。 所谓爬虫就是指在给定url(网址)中获取我们对我们有用的数据信息,通过代码实现数据的大量获取,在经过后期的数据整理、计算等得出相关规律,以及行业趋势等信息。通常我们说的爬虫2.爬虫分类按照使用情况,主要分为两大类型:通用爬虫和聚焦爬虫 按照采集数据的过程进...原创 2018-11-25 18:12:30 · 2537 阅读 · 6 评论