weixin_45325365-优快云博客

原创机器学习---主成分分析（PCA）

PCA(Principal components analysis)是数据降维中用的最多的方法，其目标是在n维数据中寻找k(k<n)维新数据，并能反映这n维数据的主要特征。----即n维投影到k维会形成一些空间向量u1,u2...uk，我们转变成寻找u1,u2...uk空间向量形成的空间。创建PCA对象，数据维度设置为2，并使用预处理的数据计算出var_ratio。使用预处理后的数据再次使用knn算法训练和预测，并和之前没有降维的数据训练和预测的准确度做对比。1.二维坐标点的数据都投影到红色的直线上；

2025-06-04 19:02:54 338

原创机器学习--异常检测

从样本中将不满足预期的数据识别和选出。对一维数据集{x1,x2,x3...xm}，异常检测就是从该数据集中寻找低概率（低密度）的数据。2.各个维度的高斯分布密度函数相乘就是该多维数据的高斯分布函数。概率密度定义：描述随机变量在某个确定的取值点附近的可能性函数。1.计算出每个维度的高斯分布密度函数p(x1)

2025-06-04 16:49:52 70

原创机器学习---决策树

是度量随机变量不确定性的指标，熵越大，变量的不确定性就越大。: 利用信息熵原理选择信息增益最大的属性作为分类属性，递归地拓展决策树的分枝并完成决策树的构造。决策树问题的核心：特征如何选择决定着不同的决策树，所以重点是如何选择最主要的特征。目标：划分后样本分布不确定性尽可能小，即划分后信息熵小，信息增益大。一种对实例进行分类的树形结构，是通过多层判断来区分目标所属的类别。Ent(D)------划分前的信息熵。V是根据属性a划分出的类别数，D为当前样本总数，------划分后的信息熵。决策树模型训练并预测。

2025-06-04 15:10:02 242

原创怎样在2维数组dataframe中删除指定值

2维数组dataframe删除指定值有很多种，比如根据指定行，列等。今天我们来讲通过筛选的方式来删除指定值。需求：在dataframe的数组x中删除其预测值y_predict_bad等于-1的数据。1.标记y_predict_bad不等于-1并赋予mask。2.在dataframe数组x中筛选mask的值。

2025-05-30 12:47:55 154

原创机器学习--KNN算法

这个比较好理解，但样本数量大时，k的值很小只能局部的预测，准确率不会太高。KNN算法是机器学习中监督学习中的一种分类的算法，KNN算法的全称是K Nearest Neighbors，即K个最近的邻居，什么意思呢？就是我们在预测一个新的值x的时候，我们根据x值最近的K个邻居来确定x是属于哪个类别。从这个图中我们可以看出k值的选取很重要，直接决定着其类别，下面就会看我们如何选取合适的k值，增加预测的准确性。例如：图中新增的绿色方块x需要判断它的类别，当k设置为3时，临近的三角形比圆形多，判定x是蓝色三角形。

2025-05-19 14:15:42 496

原创机器学习---继k-means算法的meanshift聚类算法

k-means算法和meanshift算法都是机器学习中的无监督式学习，k-means算法的不足点是需要给定中心簇点点个数k，meanshift算法不要给定中心簇点个数（属于无参数的算法）。k-means算法是基于与中心簇点的距离来归类的，meanshift是根据当前点的偏移均值向密度高的方向偏移，所以meanshift也叫均值漂移算法。Meanshift算法是一个迭代的过程，是先算出以h为半径的高维圆的中心C的偏移均值d，然后将该中心C按照偏移均值d移动。是指一个半径为h的高维球。

2025-05-17 14:15:36 843

原创如何使用pandas中的DataFrame将数据保存到csv文件中

需要创建一个dataframe，然后直接使用dataframe中的to_csv函数就可以了。x和y的类型都是numpy.ndarray的数组，怎样将x和y都写入到同一个csv文件呢？

2025-05-16 16:35:56 193

原创无监督学习--k-means算法实战

3.计算各个数据点到该k个聚类中心点的距离，并根据离哪个聚类中心点的距离最近来确定该点归属于哪个聚类。以空间中k个点为中心进行聚类，对最靠近他们的对象进行归类，是聚类算法中最为基础但也最为重要的算法。k-means算法是无监督学习中的一种最基础的，比较常用的聚类算法，即我们所说的k均值算法。4.划分出k个聚类后，根据各个聚类范围内的点在确定聚类中心并更新。2.根据距离归类，计算各个点所属的中心蔟点：x。1.创建并导入k-means的数据集。1.创建并导入k-means的数据集。2.初始化k个聚类的中心点。

2025-05-16 10:40:48 805

原创如何将生成的几组随机数存入csv文件中

不过，我发现了该方法失败的原因是因为直接使用writerow()函数调用2维数组的数据，那计算机就会直接将array[0]的数据直接写入csv文件中。test1和test2的数据分别代表对所有芯片测试test1和test2的合格率，如果test1和test2的合格率都大于等于0.5，那结果result是1，如果test1和test2中有一个小于0.5，那结果result是0。现在test1,test2和result的值以列表的形式生成了，后面需要将这3个列表的值写入到csv文件中。

2025-05-14 14:40:57 577

原创如何在jmeter中断言数字A=B+C

response assertion方法和Json assertion方法思路类似，不同的是购买后需要使用后置处理器将license数取出来并命名，然后在response assertion中选择JMeter Variable Name to use来对比${__longSum(${pre_licenceQuantityPurchased},${Register_Num})}的值是否相等。用户1之前有B个license，然后用户1又购买了C个license。

2025-04-10 14:30:12 342

原创如何在jmeter中使用json提取器提取筛选条件为A的节点相邻节点B的信息

json path提取

2025-04-09 14:39:03 660

原创通过session获取cookie来爬12306的余票信息

uab_collina，_jc_save_fromStation，_jc_save_wfdc_flag和_jc_save_toStation，_jc_save_fromDate，_jc_save_toDate字段是url产生的，其中_jc_save_fromStation，_jc_save_wfdc_flag和_jc_save_toStation，_jc_save_fromDate，_jc_save_toDate字段的含义和url的参数有关。_uab_collina是变化的，但是还没发现是怎么产生的。

2025-04-09 12:36:25 565

原创 Python爬取加密的m3u8视频文件

在确定电影资源的src_url时，我使用的是F12中的element来定位视频资源，使用element的原因是因为element的数据比较全，同时可以通过鼠标精准定位视频所在的具体标签。服务端返回的https的链接就是ts的资源链接，#EXT-X-KEY:METHOD=AES-128,URI="enc.key"说明ts视频加密，加密方式是AES-128，密钥是enc.key。如果没有加密就直接保存。2.从起始url返回信息中提取m3u8的url，同时对提取出的url做相应的处理，让其和期望的url相同。

2023-12-19 18:09:26 2393 1

原创 python 如何在js中提取url list

查看 new_match二维数组中的元素\\x22:\\x22https:\\\\\\/\\\\\\/t7.baidu.com\\\\\\/it\\\\\\/u=1819248061,230866778&fm=193&f=GIF\\x22,\\，这里的url信息和我们想要的比较接近了。但是除了t7.baidu.com域名的url外，还有其他我们不需要的url，如www.vcg.com域名的url信息。首先，我打印了下服务端返回的消息内容，发现这次图片的url不在html的标签中，而是隐藏在js的内容中。

2023-12-06 17:07:37 1055 1

原创 python中session.get()执行的流程

python中session.get()执行的流程

2023-11-29 17:29:54 1300 1

原创 python 2.7上执行 scrapy 1.8 框架的脚本遇到的错误

初步断定该问题应该不是无service_identity导致的，猜测该问题可能和我本机的service_identity的版本不兼容有关或者有可能和service_identity无关。后继续查询资料，才知该问题确实和service_identity的版本有关，通过命令“pip install service_identity --force --upgrade”对service_identity来强制升级解决了该问题。scrapy和我本机的service_identity的不兼容有关。

2023-11-24 11:42:33 506 2

weixin_45325365的博客