自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(23)
  • 收藏
  • 关注

原创 python网络爬虫开发实战之Ajax数据提取

目录1 什么是Ajax1.1 实例引入1.2 基本原理2 Ajax分析方法2.1 分析案例2.2 过滤请求3 Ajax分析与爬取实战3.1 爬取目标3.2 初步探索5.3 爬取列表页3.4 爬取详情页3.5 保存数据为什么使用Ajax?来源:

2025-04-02 15:07:54 206

原创 python网络爬虫开发实战之数据的存储

目录1 TXT文本文件存储1.1 实例1.2 打开方式1.3 简化写法2 JSON文件存储2.1 对象和数组2.2 读取JSON2.3 输出JSON3 CSV文件存储3.1 写入3.2 读取4 MySQL存储4.1 准备工作4.2 链接数据库4.3 创建表4.4 插入数据4.5 更新数据4.6 删除数据4.7 查询数据5 MongoDB 文档存储​编辑5.1 准备工作5.2 连接MongoDB5.3 指定数据库5.4 指定集合5.5 插入数据集5.6 查询5.7 计数5.8 排序5.9 偏移​编辑5.10

2025-04-02 14:52:44 528

原创 python网络爬虫开发实战之网页数据的解析提取

对于网页的节点来说,可以定义id、class或其他属性,而且节点之间还有层次关系,在网页中可以通过XPath或CSS选择器来定位一个或多个节点。相关的解析库也比较多,包括lxml、Beautiful Soup、pyquery、parsel等。

2025-03-21 15:06:49 1019

原创 python网络爬虫开发实战之爬虫基础

简单点说,爬虫就是获取网页并提取和保存信息的自动化程序。获取网页:等同于获取网页源代码。提取信息:分析源代码,提取想要的数据。最通用的方法是正则表达式。保存数据:可保存为txt或json文本,也可保存到mysql和mongobd数据库,也可保存至远程服务器,借助sftp进行操作。自动化程序。

2025-03-06 20:00:00 774

原创 python网络爬虫开发实战之基本库使用

使用urllib可以实现http请求的发送,著需要指定请求的url、请求头、请求体等。此外,urllib还可以把服务器返回的响应转换为python对象。

2025-03-05 18:07:34 840

原创 航空公司客户价值分析

其中,客户群1在特征C处的值最大,在特征 F、M 处的值较小,说明客户群 1 是偏好乘坐高级舱位的客户群:客户群2 在特征下和 M 上的值最大,且在特征R上的值最小,说明客户群 2的会员频繁乘机且近期都有乘机记录;根据客户飞行次数与总飞行公里数箱型图,客户的飞行次数与总飞行公里数也明显地分为两个群体,大部分客户集中在箱型图下方的箱体中,少数客户分收分布在箱体上界的上方,这部分客户很可能是高价值客户,因为其飞行次数和总飞行公里数明显超过箱体内的其他客户。重要发展客户:平均折扣率较高,乘坐次数和里程较低;

2025-02-18 21:22:14 778

原创 神经网络实验——MLP

由输出结果可见,通过 GridSearchCV 网格查到的最优参数为:隐藏层数为(100,30),最大池化层为 20,激活函数为sgd;通过观察数据结构可知,数据由 10000个样本组成,其中每一个样本是由784(28*28)个像素组成的图像,像素黑白用 0/1 进行表示,对应的label目标变量的每个字符图像的真实标签。②加载数据,数据文件保存在 mnist.gz 安装包中,因此需要对文件进行解压后对文件进行读取,且区分训练集、测试集与验证集。③构建多层感知机神经网络模型,并使用网格查找出最优参数;

2025-02-18 21:16:18 916

原创 python数据处理——史诗级最全版本!

本实验生成三组数据,对各组数据进行统计量计算,统计量计算公式有:总数x.count()、最小值 x.min()、最小值位置 x.idxmin()、25%分位数x.quantile(.25)中位数x.median()、75%分位数 x.quantile(.75)、均值 x.mean()、最大值 x.max()、最大值位数 x.idxmax()、平均绝对偏差 x.mad()、方差x.var()、标准差 x.std()、偏度x.skew()、峰度x.kurt();plt.show()方法是将所绘制的图显示出来。

2025-02-17 17:56:42 921

原创 学python?看这篇就够了!

学python,这一篇就够了!(内容参考《Python编程:从入门到实践(第三版)》)

2025-02-17 16:34:16 907

原创 kaggle房价预测

数据可以在kaggle官网下载,也可利用代码进行下载。kaggle_house_pred_train.csvkaggle_house_pred_test.csv代码包含两部分,一部分为基础版,另一部分为模型改进版。

2024-12-13 19:00:00 1716

原创 【网络信息资源】简易爬行器的设计

在爬取豆瓣电影 Top250 的网页中,每个电影的序号都是以 标签的形式嵌套在一个名为item的 标签内部的,因此可以通过 tag.find('em')来定位到序号这个元素。因此,运用find_all方法根据"title"的class属性提取出名为"title"的所有元素,将其存储在变量name中,接着从name中取出第一个元素并提取该元素的文本内容,即电影的中文名称。在本例中,attrs={"class":"item"}表示查找所有class属性值为"item"的HTML标签。

2024-11-28 19:00:00 1751

原创 【网络信息资源】ASP的使用

搭建ASP环境,编写一个可以保存用户提交内容的asp网页。

2024-11-27 19:01:35 1259 1

原创 图像处理算法识别手势

本项目目前使用到和未来可能使用的第三方库或者模块有:库介绍tkinterTkinter是Python内置的GUI库,它提供了一个简单、易于使用的界面设计工具,可以创建各种窗口和控件,如文本框、标签、按钮等,方便用户与程序交互。Tkinter是Tcl/Tk GUI工具包在Python中的接口,Tcl/Tk是一个跨平台的图形用户界面(GUI)工具包,它是在现代操作系统中提供标准GUI工具包的一种选择。

2024-11-24 18:30:00 1177

原创 【网络信息资源】HTML的使用

了解HTML的基本内容及主要标签的用法。

2024-11-23 18:30:00 992

原创 【网络信息资源】HTTP协议的使用

在进行http请求时,对多个网站发送了http请求,其中包括“http://www.baidu.com/”、“https://www.taobao.com/”、“https://mooc2-ans.chaoxing.com/”、“http://www.iqiyi.com”等网站。淘宝的响应状态码为200,说明请求成功。也有输出为“utf-8”。在运用Java发送http请求时,需要引入java.io, java.net,java.util,java.sql包里的所有类,并且要定义一个s12类,引入主类。

2024-11-22 18:30:00 907

原创 【自然语言处理】word2vec

Word2Vec 是一个用于将单词表示为向量的算法,是由 Google 的研究人员在 2013 年开发的。它基于神经网络模型,通过训练大量的语料库数据来学习单词之间的语义和语法关系。它通过学习大量文本语料库中的单词上下文信息,将每个单词映射到一个连续的向量空间中。Word2Vec 可以生成高维空间中的向量表示,使得具有相似含义的单词在向量空间中距离较近,从而可以实现对单词的语义相似性分析和文本挖掘任务。它被广泛应用于自然语言处理和机器学习领域,包括词义相似度计算、文本分类、情感分析等任务。

2024-11-21 19:42:34 1368 1

原创 【自然语言处理】空间向量模型

空间向量模型的基本假设是,文本中的重要信息可以通过关键词的频率或权重来表示。TF-IDF是一个用来评估一个词语在文档集中的重要程度的统计量,它考虑了词频和词在文档集中的出现频率,并为其赋予一个权重。它将文本表示为向量,其中向量的每个维度都代表一个特征或关键词,并用该关键词在文本中的频率或权重来表示。通过计算向量之间的相似度,可以比较文本之间的相似程度。然而,它也有一些限制,比如无法处理词义的多义性和上下文信息的捕捉等问题。需要注意的是,以上步骤中的具体实现细节会根据具体的算法和工具不同而有所差异。

2024-11-18 18:50:43 786

原创 【机器学习】梯度下降算法

相比于批量梯度下降(BGD)和随机梯度下降(SGD),小批量梯度下降综合了两者的优点,既在计算效率上比BGD更高,又比SGD更稳定,能够获得较为准确的梯度信息。总结来说,梯度下降算法的几何解释是,在目标函数的等高线中,沿着梯度的反方向移动参数,通过不断迭代更新参数的路径,最终达到目标函数的最小值。为了克服SGD的问题,可以使用小批量梯度下降(Mini-Batch Gradient Descent),它是将一小批样本的梯度作为参数更新的依据,既兼顾了计算效率,又减小了参数更新的方差。

2024-11-17 19:00:00 1939

原创 【深度学习】Adam优化器

Adam(Adaptive Moment Estimation)是一种优化算法,广泛应用于神经网络的训练过程中。它结合了自适应学习率和动量的概念,旨在提高梯度下降算法的效率和收敛速度。Adam算法的核心思想是根据历史梯度的一阶矩估计(均值)和二阶矩估计(方差)自适应地调整学习率。具体来说,Adam算法会计算每个模型参数的梯度的指数移动平均值和指数移动平均值的平方根,然后使用这些平均值来调整每个参数的学习率。这样可以让学习率在训练过程中自适应地适应不同参数的梯度变化情况,从而提高训练的效果。

2024-11-16 22:30:00 4976

原创 【深度学习】多层感知机(MLP)

多层感知机(Multilayer Perceptron,简称MLP)是一种前向人工神经网络模型,由多个神经元组成的网络层间以全连接的方式连接。MLP由若干个神经元组成的多个层次组成,其中包括输入层、隐藏层和输出层。输入层接收输入数据,并将数据传递给隐藏层。隐藏层通过激活函数将输入值转换为输出值,并将其传递到输出层。输出层给出最终的预测结果。每个神经元在隐藏层和输出层中都有权重和偏置,可以看作一个非线性的函数,它接收来自上一层神经元的输入,并根据权重和偏置进行一系列的计算,最终产生输出。

2024-11-15 19:00:00 5739

原创 【深度学习】感知机模型

感知机是一种二分类的线性分类模型,属于最简单的人工神经网络之一。它基于感知机学习算法,通过调整权重和阈值来将输入的样本进行分类。它的输入是一个实例的特征向量,输出为实例的类别,属于两类之一。感知机的基本思想是通过训练数据集来学习一个判别函数,将实例空间划分为正负两个部分,从而实现分类。感知机的模型可以表示为:其中,w是权重向量,x是输入实例的特征向量,b是偏置值,sign是符号函数,当w·x + b大于零时输出为1,反之输出为-1。

2024-11-14 18:40:42 1096

原创 【机器学习】逻辑回归模型

逻辑回归(Logistic regression)模型是一种用于二分类问题的统计模型。它基于线性回归模型的基本思想,通过使用逻辑函数(如sigmoid函数)将输出值限制在0和1之间,将线性函数的输出转换为概率值,如下图。逻辑回归模型的输出可以理解为样本属于某个类别的概率。逻辑回归的目标是找到最佳的参数值,使得模型的预测结果与实际标签尽可能接近。为了达到这个目标,逻辑回归使用了最大似然估计方法来估计参数。最大似然估计的基本思想是选择使观测数据出现的概率最大的参数值。

2024-11-13 19:00:00 1444

原创 【机器学习】线性回归模型

通过最小化损失函数,可以找到最优的线性回归模型参数,使得预测值与实际值的差异最小化。在训练过程中,优化算法会根据损失函数的值来调整模型参数,持续优化模型的性能。需要注意的是,选择合适的损失函数与问题的性质和目标密切相关。有些问题可能更关注预测值的准确性,因此采用均方误差等平方型损失函数更为合适;有些问题可能更关注预测值的相对差异,因此采用绝对误差等绝对型损失函数更为合适。

2024-11-12 22:07:50 1408 1

kaggle房价预测submission

kaggle房价预测submission

2024-12-13

kaggle房价预测submission-模型改进版

kaggle房价预测submission-模型改进版

2024-12-13

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除