- 博客(16)
- 收藏
- 关注
原创 机器学习---主成分分析(PCA)
PCA(Principal components analysis)是数据降维中用的最多的方法,其目标是在n维数据中寻找k(k<n)维新数据,并能反映这n维数据的主要特征。----即n维投影到k维会形成一些空间向量u1,u2...uk,我们转变成寻找u1,u2...uk空间向量形成的空间。创建PCA对象,数据维度设置为2,并使用预处理的数据计算出var_ratio。使用预处理后的数据再次使用knn算法训练和预测,并和之前没有降维的数据训练和预测的准确度做对比。1.二维坐标点的数据都投影到红色的直线上;
2025-06-04 19:02:54
338
原创 机器学习--异常检测
从样本中将不满足预期的数据识别和选出。对一维数据集{x1,x2,x3...xm},异常检测就是从该数据集中寻找低概率(低密度)的数据。2.各个维度的高斯分布密度函数相乘就是该多维数据的高斯分布函数。概率密度定义:描述随机变量在某个确定的取值点附近的可能性函数。1.计算出每个维度的高斯分布密度函数p(x1)
2025-06-04 16:49:52
70
原创 机器学习---决策树
是度量随机变量不确定性的指标,熵越大,变量的不确定性就越大。: 利用信息熵原理选择信息增益最大的属性作为分类属性,递归地拓展决策树的分枝并完成决策树的构造。决策树问题的核心:特征如何选择决定着不同的决策树,所以重点是如何选择最主要的特征。目标:划分后样本分布不确定性尽可能小,即划分后信息熵小,信息增益大。一种对实例进行分类的树形结构,是通过多层判断来区分目标所属的类别。Ent(D)------划分前的信息熵。V是根据属性a划分出的类别数,D为当前样本总数,------划分后的信息熵。决策树模型训练并预测。
2025-06-04 15:10:02
242
原创 怎样在2维数组dataframe中删除指定值
2维数组dataframe删除指定值有很多种,比如根据指定行,列等。今天我们来讲通过筛选的方式来删除指定值。需求:在dataframe的数组x中删除其预测值y_predict_bad等于-1的数据。1.标记y_predict_bad不等于-1并赋予mask。2.在dataframe数组x中筛选mask的值。
2025-05-30 12:47:55
154
原创 机器学习--KNN算法
这个比较好理解,但样本数量大时,k的值很小只能局部的预测,准确率不会太高。KNN算法是机器学习中监督学习中的一种分类的算法,KNN算法的全称是K Nearest Neighbors,即K个最近的邻居,什么意思呢?就是我们在预测一个新的值x的时候,我们根据x值最近的K个邻居来确定x是属于哪个类别。从这个图中我们可以看出k值的选取很重要,直接决定着其类别,下面就会看我们如何选取合适的k值,增加预测的准确性。例如:图中新增的绿色方块x需要判断它的类别,当k设置为3时,临近的三角形比圆形多,判定x是蓝色三角形。
2025-05-19 14:15:42
496
原创 机器学习---继k-means算法的meanshift聚类算法
k-means算法和meanshift算法都是机器学习中的无监督式学习,k-means算法的不足点是需要给定中心簇点点个数k,meanshift算法不要给定中心簇点个数(属于无参数的算法)。k-means算法是基于与中心簇点的距离来归类的,meanshift是根据当前点的偏移均值向密度高的方向偏移,所以meanshift也叫均值漂移算法。Meanshift算法是一个迭代的过程,是先算出以h为半径的高维圆的中心C的偏移均值d,然后将该中心C按照偏移均值d移动。是指一个半径为h的高维球。
2025-05-17 14:15:36
843
原创 如何使用pandas中的DataFrame将数据保存到csv文件中
需要创建一个dataframe,然后直接使用dataframe中的to_csv函数就可以了。x和y的类型都是numpy.ndarray的数组,怎样将x和y都写入到同一个csv文件呢?
2025-05-16 16:35:56
193
原创 无监督学习--k-means算法实战
3.计算各个数据点到该k个聚类中心点的距离,并根据离哪个聚类中心点的距离最近来确定该点归属于哪个聚类。以空间中k个点为中心进行聚类,对最靠近他们的对象进行归类,是聚类算法中最为基础但也最为重要的算法。k-means算法是无监督学习中的一种最基础的,比较常用的聚类算法,即我们所说的k均值算法。4.划分出k个聚类后,根据各个聚类范围内的点在确定聚类中心并更新。2.根据距离归类,计算各个点所属的中心蔟点:x。1.创建并导入k-means的数据集。1.创建并导入k-means的数据集。2.初始化k个聚类的中心点。
2025-05-16 10:40:48
805
原创 如何将生成的几组随机数存入csv文件中
不过,我发现了该方法失败的原因是因为直接使用writerow()函数调用2维数组的数据,那计算机就会直接将array[0]的数据直接写入csv文件中。test1和test2的数据分别代表对所有芯片测试test1和test2的合格率,如果test1和test2的合格率都大于等于0.5,那结果result是1,如果test1和test2中有一个小于0.5,那结果result是0。现在test1,test2和result的值以列表的形式生成了,后面需要将这3个列表的值写入到csv文件中。
2025-05-14 14:40:57
577
原创 如何在jmeter中断言数字A=B+C
response assertion方法和Json assertion方法思路类似,不同的是购买后需要使用后置处理器将license数取出来并命名,然后在response assertion中选择JMeter Variable Name to use来对比${__longSum(${pre_licenceQuantityPurchased},${Register_Num})}的值是否相等。用户1之前有B个license,然后用户1又购买了C个license。
2025-04-10 14:30:12
342
原创 通过session获取cookie来爬12306的余票信息
uab_collina,_jc_save_fromStation,_jc_save_wfdc_flag和_jc_save_toStation,_jc_save_fromDate,_jc_save_toDate字段是url产生的,其中_jc_save_fromStation,_jc_save_wfdc_flag和_jc_save_toStation,_jc_save_fromDate,_jc_save_toDate字段的含义和url的参数有关。_uab_collina是变化的,但是还没发现是怎么产生的。
2025-04-09 12:36:25
565
原创 Python爬取加密的m3u8视频文件
在确定电影资源的src_url时,我使用的是F12中的element来定位视频资源,使用element的原因是因为element的数据比较全,同时可以通过鼠标精准定位视频所在的具体标签。服务端返回的https的链接就是ts的资源链接,#EXT-X-KEY:METHOD=AES-128,URI="enc.key"说明ts视频加密,加密方式是AES-128,密钥是enc.key。如果没有加密就直接保存。2.从起始url返回信息中提取m3u8的url,同时对提取出的url做相应的处理,让其和期望的url相同。
2023-12-19 18:09:26
2393
1
原创 python 如何在js中提取url list
查看 new_match二维数组中的元素\\x22:\\x22https:\\\\\\/\\\\\\/t7.baidu.com\\\\\\/it\\\\\\/u=1819248061,230866778&fm=193&f=GIF\\x22,\\,这里的url信息和我们想要的比较接近了。但是除了t7.baidu.com域名的url外,还有其他我们不需要的url,如www.vcg.com域名的url信息。首先,我打印了下服务端返回的消息内容,发现这次图片的url不在html的标签中,而是隐藏在js的内容中。
2023-12-06 17:07:37
1055
1
原创 python 2.7上执行 scrapy 1.8 框架的脚本遇到的错误
初步断定该问题应该不是无service_identity导致的,猜测该问题可能和我本机的service_identity的版本不兼容有关或者有可能和service_identity无关。后继续查询资料,才知该问题确实和service_identity的版本有关,通过命令“pip install service_identity --force --upgrade”对service_identity来强制升级解决了该问题。scrapy和我本机的service_identity的不兼容有关。
2023-11-24 11:42:33
506
2
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人