
python
文章平均质量分 88
YiFoEr_Liu
大数据分析工程师,希望发布的东西大家能够用到
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
基于Python的微博数据采集
本系统通过逆向工程微博移动端API接口,实现了对热门板块微博内容及用户评论的自动化采集。系统采用Requests+多线程架构,支持递归分页采集和动态请求头模拟,每小时可处理3000+条数据记录。关键技术特征包括:1)基于max_id的评论分页递归算法 2)HTML标签清洗正则表达式 3)用户-评论关联存储模型。采集数据字段涵盖用户属性、社交行为、内容特征等12个维度,为社交网络分析、舆情监测、用户画像构建提供底层数据支持。经测试验证,系统在持续运行环境下数据捕获完整率达98.7%,具备良好的工程应用价值。原创 2025-04-05 23:57:00 · 2120 阅读 · 0 评论 -
基于Python的M3U8流媒体下载系统深度解析与工程实践
本文提出了一种基于Python的分布式流媒体下载解决方案,针对M3U8视频格式特点设计了多线程下载与智能合并系统。通过引入线程池技术实现网络I/O密集型任务的并行化处理,结合FFmpeg多媒体框架完成视频片段的无损合并,最终构建出具有高吞吐量、高容错性的视频采集系统。实验表明,本系统在典型网络环境下可实现较单线程模式提升8-12倍的下载效率,同时保证视频文件的完整性。原创 2025-04-02 16:44:21 · 1310 阅读 · 0 评论 -
基于DrissionPage的TB商品信息采集与可视化分析
本项目旨在通过使用DrissionPage工具,结合Python编程语言,实现对淘宝商品信息的自动化采集,并基于采集到的数据生成价格分布的可视化图表,帮助用户快速了解商品的价格区间。原创 2025-03-25 09:43:06 · 1959 阅读 · 0 评论 -
基于DrissionPage的DY无水印视频采集
基于DrissionPage的DY无水印视频采集原创 2025-03-21 14:56:35 · 1692 阅读 · 0 评论 -
Python实现WYY音乐下载
通过本文的逆向分析,我们不仅实现了网易云音乐的下载功能,更展示了如何突破前端加密限制的思路。在实际开发中,需持续关注目标网站的更新动态,及时调整加密算法参数。原创 2025-03-19 17:32:57 · 2287 阅读 · 0 评论 -
并发爬虫实战:多线程高效抓取王者荣耀全英雄皮肤
本文以王者荣耀英雄皮肤下载为例(日访问量超过1亿的热门游戏),演示如何通过Python并发编程实现高效数据抓取。原创 2025-03-12 18:03:44 · 218 阅读 · 0 评论 -
实时采集航班位置数据
我们将使用RadarBox24(RB24)提供的实时航班数据API来采集航班位置信息。RadarBox24是一个全球领先的航班跟踪平台,提供丰富的航班数据和API接口。RadarBox24提供了多种API接口,包括实时航班数据API、历史航班数据API和机场数据API。本文将重点介绍实时航班数据API的使用方法。原创 2024-11-25 17:23:03 · 1738 阅读 · 0 评论 -
利用Python爬取12306网站车次信息
采集12306官网车次信息原创 2024-11-25 16:33:18 · 1181 阅读 · 0 评论 -
Python算法系列之常见的排序算法-------------------冒泡排序、选择排序、插入排序、快速排序、希尔排序、归并排序
排序算法定义:是一种能将一串数据依照特定的顺序进行排列的一种算法。1.冒泡排序思路:比较相邻的元素。如果第一个比第二个大,就交换他们两个。以此类推,对每一对相邻元素做相同处理,从开始第一队到结尾的最后一对。这不做完之后最后的元素就会是最大的数。然后对所有的元素进行重复以上的步骤,每次都出去最后的一个。冒泡排序无序的序列:[54,26,93,17,77,31,44,5...原创 2018-12-17 21:46:26 · 410 阅读 · 0 评论 -
python爬虫入门之————————————————第四节--使用bs4语法获取数据
1.装备工作:模块安装1.1命令安装方式:(开发环境:python3.6环境)官方文档:https://www.crummy.com/software/BeautifulSoup/bs4/doc/index.html官方文档中文版:https://www.crummy.com/software/BeautifulSoup/bs4/doc.zh/ pip install be...原创 2018-12-01 19:49:42 · 924 阅读 · 0 评论 -
Python Web开发相关的面试题(Django )
Python Web开发相关的面试题(Django )解释一下 WSGI 和 FastCGI 的关系?CGI全称是“公共网关接口”(CommonGateway Interface),HTTP服务器与你的或其它机器上的程序进行“交谈”的一种工具,其程序须运行在网络服务器上。 CGI可以用任何一种语言编写,只要这种语言具有标准输入、输出和环境变量。如php,perl,tcl等。FastCG...原创 2018-12-01 11:56:46 · 2176 阅读 · 1 评论 -
python下使用scrapy-redis模块分布式爬虫的爬虫项目部署详细教程————————gerapy
1.使用gerapy进行分布式爬虫管理准备工作:首先将你使用scrapy-redis写的分布式爬虫全部完善模块准备:安装:pip install pymongo【依赖模块】pip install gerapy 2.在本地创建部署项目的文件夹2.1例如如图在本地创建workgreapy文件夹2.2进入该文件夹2.3输入cmd 回车2.4在命令...原创 2018-12-04 22:54:40 · 793 阅读 · 0 评论 -
python爬虫入门之————————————————第三节requests详解
1.下载安装(1)命令安装方式Windows:打开命令窗口行,直接运行包管理命令安装 pip install requests or essy_install requests(简易版) unix/linux:打开 shell 窗口,运行包管理命令安装 pip install requests (2)离线安装 下载离...原创 2018-11-28 22:18:11 · 635 阅读 · 0 评论 -
python爬虫入门之————————————————第一节--了解爬虫
1.爬虫入门概述爬虫,又被称为网络爬虫,主要指代从互联网上进行数据采集的脚本后者程序,是进行数据 分析和数据挖掘的基础。 所谓爬虫就是指在给定url(网址)中获取我们对我们有用的数据信息,通过代码实现数据的大量获取,在经过后期的数据整理、计算等得出相关规律,以及行业趋势等信息。通常我们说的爬虫2.爬虫分类按照使用情况,主要分为两大类型:通用爬虫和聚焦爬虫 按照采集数据的过程进...原创 2018-11-25 18:12:30 · 2537 阅读 · 6 评论 -
python3.0环境下利用tkinter模块的可视化编写的基于TCP的可视化社交平台(客户端)的实现
源代码:"""Version 1.1.0Author lkkEmail lkk199404@163.comDESC 基于TCP的界面社交平台(客户端)的实现"""import tkinterfrom tkinter import *import threadingimport socketimport time# 定义服务器信息HOST = '192.168.11.2...原创 2018-10-17 22:16:31 · 2919 阅读 · 3 评论 -
python 爬取指定图片并将图片下载到指定文件夹
"""Version 1.1.0Author lkkEmail lkk199404@163.comdate 2018-10-19 11:34DESC 下载指定网页的图片到指定文件夹"""import requestsimport osfrom urllib import requestimport reres = request.urlopen("http://www.27...原创 2018-10-19 13:55:22 · 5938 阅读 · 0 评论 -
python入门第一天环境搭建
2. 开发环境搭建[python开发环境]2.1. 确认安装什么环境:那个版本的环境[python2.x or python3.x]2.2. 课堂培训{第一阶段:python3.x环境}2.3. 软件的下载安装[官方网站:http://www.python.org]2.4. 下载:http://downloads.python.org2.5. 开始安装 windows系...原创 2018-07-10 08:55:57 · 276 阅读 · 0 评论