- 博客(23)
- 收藏
- 关注
原创 python网络爬虫开发实战之Ajax数据提取
目录1 什么是Ajax1.1 实例引入1.2 基本原理2 Ajax分析方法2.1 分析案例2.2 过滤请求3 Ajax分析与爬取实战3.1 爬取目标3.2 初步探索5.3 爬取列表页3.4 爬取详情页3.5 保存数据为什么使用Ajax?来源:
2025-04-02 15:07:54
206
原创 python网络爬虫开发实战之数据的存储
目录1 TXT文本文件存储1.1 实例1.2 打开方式1.3 简化写法2 JSON文件存储2.1 对象和数组2.2 读取JSON2.3 输出JSON3 CSV文件存储3.1 写入3.2 读取4 MySQL存储4.1 准备工作4.2 链接数据库4.3 创建表4.4 插入数据4.5 更新数据4.6 删除数据4.7 查询数据5 MongoDB 文档存储编辑5.1 准备工作5.2 连接MongoDB5.3 指定数据库5.4 指定集合5.5 插入数据集5.6 查询5.7 计数5.8 排序5.9 偏移编辑5.10
2025-04-02 14:52:44
528
原创 python网络爬虫开发实战之网页数据的解析提取
对于网页的节点来说,可以定义id、class或其他属性,而且节点之间还有层次关系,在网页中可以通过XPath或CSS选择器来定位一个或多个节点。相关的解析库也比较多,包括lxml、Beautiful Soup、pyquery、parsel等。
2025-03-21 15:06:49
1019
原创 python网络爬虫开发实战之爬虫基础
简单点说,爬虫就是获取网页并提取和保存信息的自动化程序。获取网页:等同于获取网页源代码。提取信息:分析源代码,提取想要的数据。最通用的方法是正则表达式。保存数据:可保存为txt或json文本,也可保存到mysql和mongobd数据库,也可保存至远程服务器,借助sftp进行操作。自动化程序。
2025-03-06 20:00:00
774
原创 python网络爬虫开发实战之基本库使用
使用urllib可以实现http请求的发送,著需要指定请求的url、请求头、请求体等。此外,urllib还可以把服务器返回的响应转换为python对象。
2025-03-05 18:07:34
840
原创 航空公司客户价值分析
其中,客户群1在特征C处的值最大,在特征 F、M 处的值较小,说明客户群 1 是偏好乘坐高级舱位的客户群:客户群2 在特征下和 M 上的值最大,且在特征R上的值最小,说明客户群 2的会员频繁乘机且近期都有乘机记录;根据客户飞行次数与总飞行公里数箱型图,客户的飞行次数与总飞行公里数也明显地分为两个群体,大部分客户集中在箱型图下方的箱体中,少数客户分收分布在箱体上界的上方,这部分客户很可能是高价值客户,因为其飞行次数和总飞行公里数明显超过箱体内的其他客户。重要发展客户:平均折扣率较高,乘坐次数和里程较低;
2025-02-18 21:22:14
778
原创 神经网络实验——MLP
由输出结果可见,通过 GridSearchCV 网格查到的最优参数为:隐藏层数为(100,30),最大池化层为 20,激活函数为sgd;通过观察数据结构可知,数据由 10000个样本组成,其中每一个样本是由784(28*28)个像素组成的图像,像素黑白用 0/1 进行表示,对应的label目标变量的每个字符图像的真实标签。②加载数据,数据文件保存在 mnist.gz 安装包中,因此需要对文件进行解压后对文件进行读取,且区分训练集、测试集与验证集。③构建多层感知机神经网络模型,并使用网格查找出最优参数;
2025-02-18 21:16:18
916
原创 python数据处理——史诗级最全版本!
本实验生成三组数据,对各组数据进行统计量计算,统计量计算公式有:总数x.count()、最小值 x.min()、最小值位置 x.idxmin()、25%分位数x.quantile(.25)中位数x.median()、75%分位数 x.quantile(.75)、均值 x.mean()、最大值 x.max()、最大值位数 x.idxmax()、平均绝对偏差 x.mad()、方差x.var()、标准差 x.std()、偏度x.skew()、峰度x.kurt();plt.show()方法是将所绘制的图显示出来。
2025-02-17 17:56:42
921
原创 kaggle房价预测
数据可以在kaggle官网下载,也可利用代码进行下载。kaggle_house_pred_train.csvkaggle_house_pred_test.csv代码包含两部分,一部分为基础版,另一部分为模型改进版。
2024-12-13 19:00:00
1716
原创 【网络信息资源】简易爬行器的设计
在爬取豆瓣电影 Top250 的网页中,每个电影的序号都是以 标签的形式嵌套在一个名为item的 标签内部的,因此可以通过 tag.find('em')来定位到序号这个元素。因此,运用find_all方法根据"title"的class属性提取出名为"title"的所有元素,将其存储在变量name中,接着从name中取出第一个元素并提取该元素的文本内容,即电影的中文名称。在本例中,attrs={"class":"item"}表示查找所有class属性值为"item"的HTML标签。
2024-11-28 19:00:00
1751
原创 图像处理算法识别手势
本项目目前使用到和未来可能使用的第三方库或者模块有:库介绍tkinterTkinter是Python内置的GUI库,它提供了一个简单、易于使用的界面设计工具,可以创建各种窗口和控件,如文本框、标签、按钮等,方便用户与程序交互。Tkinter是Tcl/Tk GUI工具包在Python中的接口,Tcl/Tk是一个跨平台的图形用户界面(GUI)工具包,它是在现代操作系统中提供标准GUI工具包的一种选择。
2024-11-24 18:30:00
1177
原创 【网络信息资源】HTTP协议的使用
在进行http请求时,对多个网站发送了http请求,其中包括“http://www.baidu.com/”、“https://www.taobao.com/”、“https://mooc2-ans.chaoxing.com/”、“http://www.iqiyi.com”等网站。淘宝的响应状态码为200,说明请求成功。也有输出为“utf-8”。在运用Java发送http请求时,需要引入java.io, java.net,java.util,java.sql包里的所有类,并且要定义一个s12类,引入主类。
2024-11-22 18:30:00
907
原创 【自然语言处理】word2vec
Word2Vec 是一个用于将单词表示为向量的算法,是由 Google 的研究人员在 2013 年开发的。它基于神经网络模型,通过训练大量的语料库数据来学习单词之间的语义和语法关系。它通过学习大量文本语料库中的单词上下文信息,将每个单词映射到一个连续的向量空间中。Word2Vec 可以生成高维空间中的向量表示,使得具有相似含义的单词在向量空间中距离较近,从而可以实现对单词的语义相似性分析和文本挖掘任务。它被广泛应用于自然语言处理和机器学习领域,包括词义相似度计算、文本分类、情感分析等任务。
2024-11-21 19:42:34
1368
1
原创 【自然语言处理】空间向量模型
空间向量模型的基本假设是,文本中的重要信息可以通过关键词的频率或权重来表示。TF-IDF是一个用来评估一个词语在文档集中的重要程度的统计量,它考虑了词频和词在文档集中的出现频率,并为其赋予一个权重。它将文本表示为向量,其中向量的每个维度都代表一个特征或关键词,并用该关键词在文本中的频率或权重来表示。通过计算向量之间的相似度,可以比较文本之间的相似程度。然而,它也有一些限制,比如无法处理词义的多义性和上下文信息的捕捉等问题。需要注意的是,以上步骤中的具体实现细节会根据具体的算法和工具不同而有所差异。
2024-11-18 18:50:43
786
原创 【机器学习】梯度下降算法
相比于批量梯度下降(BGD)和随机梯度下降(SGD),小批量梯度下降综合了两者的优点,既在计算效率上比BGD更高,又比SGD更稳定,能够获得较为准确的梯度信息。总结来说,梯度下降算法的几何解释是,在目标函数的等高线中,沿着梯度的反方向移动参数,通过不断迭代更新参数的路径,最终达到目标函数的最小值。为了克服SGD的问题,可以使用小批量梯度下降(Mini-Batch Gradient Descent),它是将一小批样本的梯度作为参数更新的依据,既兼顾了计算效率,又减小了参数更新的方差。
2024-11-17 19:00:00
1939
原创 【深度学习】Adam优化器
Adam(Adaptive Moment Estimation)是一种优化算法,广泛应用于神经网络的训练过程中。它结合了自适应学习率和动量的概念,旨在提高梯度下降算法的效率和收敛速度。Adam算法的核心思想是根据历史梯度的一阶矩估计(均值)和二阶矩估计(方差)自适应地调整学习率。具体来说,Adam算法会计算每个模型参数的梯度的指数移动平均值和指数移动平均值的平方根,然后使用这些平均值来调整每个参数的学习率。这样可以让学习率在训练过程中自适应地适应不同参数的梯度变化情况,从而提高训练的效果。
2024-11-16 22:30:00
4976
原创 【深度学习】多层感知机(MLP)
多层感知机(Multilayer Perceptron,简称MLP)是一种前向人工神经网络模型,由多个神经元组成的网络层间以全连接的方式连接。MLP由若干个神经元组成的多个层次组成,其中包括输入层、隐藏层和输出层。输入层接收输入数据,并将数据传递给隐藏层。隐藏层通过激活函数将输入值转换为输出值,并将其传递到输出层。输出层给出最终的预测结果。每个神经元在隐藏层和输出层中都有权重和偏置,可以看作一个非线性的函数,它接收来自上一层神经元的输入,并根据权重和偏置进行一系列的计算,最终产生输出。
2024-11-15 19:00:00
5739
原创 【深度学习】感知机模型
感知机是一种二分类的线性分类模型,属于最简单的人工神经网络之一。它基于感知机学习算法,通过调整权重和阈值来将输入的样本进行分类。它的输入是一个实例的特征向量,输出为实例的类别,属于两类之一。感知机的基本思想是通过训练数据集来学习一个判别函数,将实例空间划分为正负两个部分,从而实现分类。感知机的模型可以表示为:其中,w是权重向量,x是输入实例的特征向量,b是偏置值,sign是符号函数,当w·x + b大于零时输出为1,反之输出为-1。
2024-11-14 18:40:42
1096
原创 【机器学习】逻辑回归模型
逻辑回归(Logistic regression)模型是一种用于二分类问题的统计模型。它基于线性回归模型的基本思想,通过使用逻辑函数(如sigmoid函数)将输出值限制在0和1之间,将线性函数的输出转换为概率值,如下图。逻辑回归模型的输出可以理解为样本属于某个类别的概率。逻辑回归的目标是找到最佳的参数值,使得模型的预测结果与实际标签尽可能接近。为了达到这个目标,逻辑回归使用了最大似然估计方法来估计参数。最大似然估计的基本思想是选择使观测数据出现的概率最大的参数值。
2024-11-13 19:00:00
1444
原创 【机器学习】线性回归模型
通过最小化损失函数,可以找到最优的线性回归模型参数,使得预测值与实际值的差异最小化。在训练过程中,优化算法会根据损失函数的值来调整模型参数,持续优化模型的性能。需要注意的是,选择合适的损失函数与问题的性质和目标密切相关。有些问题可能更关注预测值的准确性,因此采用均方误差等平方型损失函数更为合适;有些问题可能更关注预测值的相对差异,因此采用绝对误差等绝对型损失函数更为合适。
2024-11-12 22:07:50
1408
1
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人