九筠-优快云博客

原创 python网络爬虫开发实战之Ajax数据提取

目录1 什么是Ajax1.1 实例引入1.2 基本原理2 Ajax分析方法2.1 分析案例2.2 过滤请求3 Ajax分析与爬取实战3.1 爬取目标3.2 初步探索5.3 爬取列表页3.4 爬取详情页3.5 保存数据为什么使用Ajax？来源：

2025-04-02 15:07:54 460

目录1 TXT文本文件存储1.1 实例1.2 打开方式1.3 简化写法2 JSON文件存储2.1 对象和数组2.2 读取JSON2.3 输出JSON3 CSV文件存储3.1 写入3.2 读取4 MySQL存储4.1 准备工作4.2 链接数据库4.3 创建表4.4 插入数据4.5 更新数据4.6 删除数据4.7 查询数据5 MongoDB 文档存储编辑5.1 准备工作5.2 连接MongoDB5.3 指定数据库5.4 指定集合5.5 插入数据集5.6 查询5.7 计数5.8 排序5.9 偏移编辑5.10

2025-04-02 14:52:44 1230

原创 python网络爬虫开发实战之网页数据的解析提取

对于网页的节点来说，可以定义id、class或其他属性，而且节点之间还有层次关系，在网页中可以通过XPath或CSS选择器来定位一个或多个节点。相关的解析库也比较多，包括lxml、Beautiful Soup、pyquery、parsel等。

2025-03-21 15:06:49 1309

原创 python网络爬虫开发实战之爬虫基础

简单点说，爬虫就是获取网页并提取和保存信息的自动化程序。获取网页：等同于获取网页源代码。提取信息：分析源代码，提取想要的数据。最通用的方法是正则表达式。保存数据：可保存为txt或json文本，也可保存到mysql和mongobd数据库，也可保存至远程服务器，借助sftp进行操作。自动化程序。

2025-03-06 20:00:00 880

原创 python网络爬虫开发实战之基本库使用

使用urllib可以实现http请求的发送，著需要指定请求的url、请求头、请求体等。此外，urllib还可以把服务器返回的响应转换为python对象。

2025-03-05 18:07:34 932

原创航空公司客户价值分析

其中，客户群1在特征C处的值最大，在特征 F、M 处的值较小，说明客户群 1 是偏好乘坐高级舱位的客户群:客户群2 在特征下和 M 上的值最大，且在特征R上的值最小，说明客户群 2的会员频繁乘机且近期都有乘机记录;根据客户飞行次数与总飞行公里数箱型图，客户的飞行次数与总飞行公里数也明显地分为两个群体，大部分客户集中在箱型图下方的箱体中，少数客户分收分布在箱体上界的上方，这部分客户很可能是高价值客户，因为其飞行次数和总飞行公里数明显超过箱体内的其他客户。重要发展客户：平均折扣率较高，乘坐次数和里程较低；

2025-02-18 21:22:14 893

原创神经网络实验——MLP

由输出结果可见，通过 GridSearchCV 网格查到的最优参数为:隐藏层数为(100，30)，最大池化层为 20，激活函数为sgd;通过观察数据结构可知，数据由 10000个样本组成，其中每一个样本是由784(28*28)个像素组成的图像，像素黑白用 0/1 进行表示，对应的label目标变量的每个字符图像的真实标签。②加载数据，数据文件保存在 mnist.gz 安装包中，因此需要对文件进行解压后对文件进行读取，且区分训练集、测试集与验证集。③构建多层感知机神经网络模型，并使用网格查找出最优参数;

2025-02-18 21:16:18 1059

原创 python数据处理——史诗级最全版本！

本实验生成三组数据，对各组数据进行统计量计算，统计量计算公式有:总数x.count()、最小值 x.min()、最小值位置 x.idxmin()、25%分位数x.quantile(.25)中位数x.median()、75%分位数 x.quantile(.75)、均值 x.mean()、最大值 x.max()、最大值位数 x.idxmax()、平均绝对偏差 x.mad()、方差x.var()、标准差 x.std()、偏度x.skew()、峰度x.kurt();plt.show()方法是将所绘制的图显示出来。

2025-02-17 17:56:42 2240

原创学python？看这篇就够了！

学python，这一篇就够了！（内容参考《Python编程：从入门到实践（第三版）》）

2025-02-17 16:34:16 1088

原创 kaggle房价预测

数据可以在kaggle官网下载，也可利用代码进行下载。kaggle_house_pred_train.csvkaggle_house_pred_test.csv代码包含两部分，一部分为基础版，另一部分为模型改进版。

2024-12-13 19:00:00 1776

原创【网络信息资源】简易爬行器的设计

在爬取豆瓣电影 Top250 的网页中，每个电影的序号都是以标签的形式嵌套在一个名为item的标签内部的，因此可以通过 tag.find('em')来定位到序号这个元素。因此，运用find_all方法根据"title"的class属性提取出名为"title"的所有元素，将其存储在变量name中，接着从name中取出第一个元素并提取该元素的文本内容，即电影的中文名称。在本例中，attrs={"class":"item"}表示查找所有class属性值为"item"的HTML标签。

2024-11-28 19:00:00 1818

原创【网络信息资源】ASP的使用

搭建ASP环境，编写一个可以保存用户提交内容的asp网页。

2024-11-27 19:01:35 1335 1

原创图像处理算法识别手势

本项目目前使用到和未来可能使用的第三方库或者模块有：库介绍tkinterTkinter是Python内置的GUI库，它提供了一个简单、易于使用的界面设计工具，可以创建各种窗口和控件，如文本框、标签、按钮等，方便用户与程序交互。Tkinter是Tcl/Tk GUI工具包在Python中的接口，Tcl/Tk是一个跨平台的图形用户界面(GUI)工具包，它是在现代操作系统中提供标准GUI工具包的一种选择。

2024-11-24 18:30:00 1372

原创【网络信息资源】HTML的使用

了解HTML的基本内容及主要标签的用法。

2024-11-23 18:30:00 1065

原创【网络信息资源】HTTP协议的使用

在进行http请求时，对多个网站发送了http请求，其中包括“http://www.baidu.com/”、“https://www.taobao.com/”、“https://mooc2-ans.chaoxing.com/”、“http://www.iqiyi.com”等网站。淘宝的响应状态码为200，说明请求成功。也有输出为“utf-8”。在运用Java发送http请求时，需要引入java.io， java.net，java.util，java.sql包里的所有类，并且要定义一个s12类，引入主类。

2024-11-22 18:30:00 963

原创【自然语言处理】word2vec

Word2Vec 是一个用于将单词表示为向量的算法，是由 Google 的研究人员在 2013 年开发的。它基于神经网络模型，通过训练大量的语料库数据来学习单词之间的语义和语法关系。它通过学习大量文本语料库中的单词上下文信息，将每个单词映射到一个连续的向量空间中。Word2Vec 可以生成高维空间中的向量表示，使得具有相似含义的单词在向量空间中距离较近，从而可以实现对单词的语义相似性分析和文本挖掘任务。它被广泛应用于自然语言处理和机器学习领域，包括词义相似度计算、文本分类、情感分析等任务。

2024-11-21 19:42:34 1562 1

原创【自然语言处理】空间向量模型

空间向量模型的基本假设是，文本中的重要信息可以通过关键词的频率或权重来表示。TF-IDF是一个用来评估一个词语在文档集中的重要程度的统计量，它考虑了词频和词在文档集中的出现频率，并为其赋予一个权重。它将文本表示为向量，其中向量的每个维度都代表一个特征或关键词，并用该关键词在文本中的频率或权重来表示。通过计算向量之间的相似度，可以比较文本之间的相似程度。然而，它也有一些限制，比如无法处理词义的多义性和上下文信息的捕捉等问题。需要注意的是，以上步骤中的具体实现细节会根据具体的算法和工具不同而有所差异。

2024-11-18 18:50:43 993

九筠的博客

原创 python网络爬虫开发实战之Ajax数据提取

原创 python网络爬虫开发实战之数据的存储

原创 python网络爬虫开发实战之网页数据的解析提取

原创 python网络爬虫开发实战之爬虫基础

原创 python网络爬虫开发实战之基本库使用

原创航空公司客户价值分析

原创神经网络实验——MLP

原创 python数据处理——史诗级最全版本！

原创学python？看这篇就够了！

原创 kaggle房价预测

原创【网络信息资源】简易爬行器的设计

原创【网络信息资源】ASP的使用

原创图像处理算法识别手势

原创【网络信息资源】HTML的使用

原创【网络信息资源】HTTP协议的使用

原创【自然语言处理】word2vec

原创【自然语言处理】空间向量模型

原创【机器学习】梯度下降算法

原创【深度学习】Adam优化器

原创【深度学习】多层感知机（MLP）

原创【深度学习】感知机模型

原创【机器学习】逻辑回归模型

原创【机器学习】线性回归模型

kaggle房价预测submission

kaggle房价预测submission-模型改进版

空空如也