
Python/Spider/Analysis
文章平均质量分 92
Python/爬虫/数据分析
燕双嘤
程序辅导,毕业设计,课程作业,比赛代打等,wx:lvlvmp
展开
-
DataAnalysis:数据分析,数据清理,数据合并
在数据挖掘与机器学习项目中,数据预处理是至关重要的一环。本文将系统地介绍数据清洗、数据集成、数据归约与数据变换的核心方法与应用场景。包括如何应对缺失值(如删除法、均值或回归插补)、去除噪声(回归、均值平滑、小波去噪等)、识别离群点,以及如何通过数据集成、属性选择、样本抽样等方式提升数据质量与处理效率。此外,还将探讨数据标准化、离散化与语义转换等变换技术。原创 2019-10-15 09:25:16 · 1433 阅读 · 0 评论 -
DataAnalysis:索引,运算函数,统计函数,文件读写
Pandas的两种数据结构Series和DataFrame都是具备索引的。在创建pandas的两种数据结构时,可以通过选项参数index指定标签或行索引。Pandas的索引对象负责管理轴标签和其他元数据(轴名称)。在创建Series或DataFrame的时候所用到的任何数组或其他序列的标签都会被转换成一个Index对象。原创 2019-10-20 09:33:38 · 470 阅读 · 0 评论 -
DataAnalysis:Pandas数据结构(Series、DataFrame)
Pandas是以NumPy为基础进行设计的,因此Pandas不仅能与其他大多数模块兼容,而且还能借助NumPy模块强大的计算能力。因此,在数据分析中NumPy和Pandas这两个模块经常一起使用。另外, 为了数据分析的需要,pandas既不使用Python已有的内置数据结构,也不使用其他库的数据结构,而是专门设计了两中新型数据结构。原创 2019-09-06 22:29:01 · 604 阅读 · 0 评论 -
DataAnalysis:数组计算,矩阵计算,统计分析
在NumPy中,数组可以直接进行加、减、乘、除、指数、求倒数、取相反数、位运算等运算,而不需要使用烦琐的for循环之类的算法,并且在除法运算时,遇到除数为0时,会自动提示无效运算,但是仍会将计算结果显示出来,无效除值用NaN或inf表示。在组合运算中,相同形状的数组按元素级进行逐个元素运算,而不同形状的数组,则按照广播机制进行计算,并且在数组运算后,将返回包含运算结果的新数组。原创 2019-10-21 09:41:06 · 519 阅读 · 0 评论 -
DataAnalysis:NumPy概述,数组对象,数组操作、文件存取
NumPy、Pandas、Matplotlib被称为机器学习三剑客,其中NumPy是用Python实现科学计算的开源的扩展程序库,最重要的一个特点是具有一个快速而灵活的大数据容器N维数组对象(Ndarray)。原创 2019-09-06 16:00:14 · 551 阅读 · 0 评论 -
DataAnalysis:基本概念,环境介绍,环境搭建,大数据问题
所谓数据就是描述事物的符号,是对客观事物的性质、状态和相互关系等进行记载的物理符号或者是这些物理符号的组合。在计算机系统中,各种文字、字母、数字符号的组合,图形、图像、视频、音频等统称为数据,数据经过加工后就成了信息。原创 2020-03-11 15:42:50 · 2902 阅读 · 0 评论 -
SpiderMan:Selenium,模拟登录,APP&PC,其他案例
实际动态网页中,很多Ajax请求的参数是加密的,用户很难通过分析Ajax请求获取真实的URL,还有一些动态加载数据并不是Ajax生成的从,此时,可以使用Selenium模拟浏览器的方法来获取网页动态加载和渲染的数据。原创 2021-10-13 19:43:58 · 1090 阅读 · 1 评论 -
SpiderMan:异步加载,图片爬取,数据库存储,多进程爬虫,IP代理
本文介绍了构建高效爬虫项目的核心技术点:包括异步加载页面的处理方式、图片资源的批量爬取、数据入库(如存储至 SQLite 或 MySQL)、多进程加速爬取流程,以及通过配置 IP 代理实现反爬机制的突破。文章结合实战示例,帮助读者快速掌握从网页采集到数据落地的完整流程。原创 2021-10-10 07:14:17 · 2816 阅读 · 0 评论 -
SpiderMan:基本原理,BeautifulSoup,正则表达式,Lxml
爬虫通俗地讲就是通过程序去获取Web页面上自己想要的数据,也就是自动抓取网页数据的程序。一般来说,只要能通过浏览器访问到的数据都可以通过爬虫获取到。爬虫的本质就是模拟浏览器打开网页,然后获取网页中所需的那部分数据。原创 2020-10-16 17:24:17 · 1094 阅读 · 1 评论 -
Python:线程定义,生命周期,线程同步,线程通讯
几乎所有的操作系统都支持同时运行多个任务,一个任务通常就是一个程序,每一个运行中的程序就是一个进程。当一个程序运行时,内部可能包含多个顺序执行流,每一个顺序执行流就是一个线程。从执行方式上来看,每个任务都是交替执行的,但是,由于CPU的执行速度太快,给用户的感觉就像所有任务都在同时执行一样。真正的并行执行多任务只能在多核CPU上实现,但由于任务数量远远多于CPU的核心数量,所以,操作系统也会自动把很多任务轮流调度到每个核心上执行。原创 2021-10-04 21:30:04 · 617 阅读 · 0 评论 -
Python:文件读写,目录函数,数据库操作
本文系统介绍了 Python 在数据存取方面的核心能力,包括文件的读写操作(文本与二进制)、常用的目录与文件管理函数(如 os 和 shutil 模块),以及使用 sqlite3 进行基本数据库操作的方法。原创 2021-10-03 22:24:55 · 1220 阅读 · 0 评论 -
Python:异常处理,模块和包,正则表达式
Python的异常处理机制可以让程序具有极好的容错性,让程序更加健壮。当程序运行出现意外情况时,系统会自动生成一个Error对象来通知程序,从而实现将“业务实现代码”和“错误处理代码”分离,提供更好的可读性。原创 2021-10-03 18:46:56 · 574 阅读 · 0 评论 -
Python:面向对象程序设计
面向对象是相对于面向过程而言的,面向对象是一种编程思想,是以类的眼光来看待事物的一种方式。面向过程语言是一种基于功能分析的、以算法为中心的程序设计方法;而面向对象是一种基于结构分析的、以数据为中心的程序设计思想。面向对象有继承、封装和多态三大特性。原创 2019-05-18 20:57:31 · 3027 阅读 · 0 评论 -
Python:列表,元组,字典,集合
列表(list):是长度可变有序的数据存储器,可通过下标索引取到相应的数据。元组(tuple):固定长度不可变的顺序容器,访问效率高,适合存储一些长常量数据,可以作为字典的键使用。集合(set):无序,元素只出现一次,可以自动去重。字典(dict):长度可变的hash字典容器。存储方式为键值对,可以通过相应的键获取相应的值,key支持多种类型。key必须是不可变类型且唯一。原创 2019-03-26 17:38:39 · 10889 阅读 · 0 评论 -
Python:流程控制,函数定义,高级函数
本文介绍了 Python 中的核心编程概念,包括流程控制(如条件判断和循环)、函数定义的基本语法与使用技巧,以及函数式编程中的高级函数(如 map、filter、reduce 和 lambda 表达式)。原创 2021-09-28 22:38:25 · 375 阅读 · 0 评论 -
Python:简介,变量,字符串,运算符
Python是一种面向对象、解释型、弱类型的脚本语言,它也使一种功能强大而完善的通用性语言。相比其他编程语言(Java),Python代码非常简单,上手非常容易。比如我们想要完成某个功能,如果用Java需要100行代码,但用Python可能只需要20行代码,这是Python具有巨大吸引力的一大特点。原创 2021-09-21 19:47:26 · 650 阅读 · 0 评论