- 博客(20)
- 资源 (2)
- 收藏
- 关注
原创 SQL正则表达式
表示一个字符范围,匹配从 a 到 z 的任何字符 0 次或多次。:这个变量匹配从 a 到 z 或 A 到 Z 的任何字符。请注意,你可以在方括号内指定的字符范围的数量没有限制,您可以添加想要匹配的其他字符或范围。请注意,字符 ^ 用来否定字符范围,它在方括号内的含义与它的方括号外表示开始的含义不同。:表示一个字符范围,匹配从 a 到 z 的任何字符 1 次或多次。:表示一个字符范围,匹配从 a 到 z 的任何字符。:表示一个字符范围,匹配从 0 到 9 的任何字符。:表示一个字符串或行的结尾。
2024-07-25 12:07:13
254
原创 机器学习 三:欠拟合,过拟合 & 偏差-方差权衡(Bias-Variance Tradeoff)
对于符合某一模型(y = f(x))的数据,在实际获取数据的时候,不可避免的,数据点会受到噪音(z)影响(y = f(x) + z),导致实际得到的数据点并不完全按照该模型分布。bias即模型预测与真值之间的差异,variance即模型经过多组训练数拟合出来的结果之间的差异。此外,由上述公式还注意到,测试集上的误差同时考虑了bias与variance,因此也解释了模型在测试集的表现通常不如训练集的原因。因此,在训练模型时,所谓的最优解,即两者均相对较小的状态。,不仅适应了所有的训练数据,且。
2023-11-05 14:24:25
419
1
原创 机器学习 二:回归问题 之 普通最小二乘 Ordinary Least Squares(OLS) 与 闭式解
答:就是输入数据D = {X,y} 中X的具体某一行。
2023-10-13 00:34:34
637
原创 机器学习 一:最小点与梯度下降,Python实现
由特定输入,计算机经过某种模型自主学习优化模型参数,得到目标输出。输入数据(input data),目标输出(outputs),预测模型(hypothesis models),损失函数(loss function)和一个未知的最佳模型(true model)。机器学习就是通过输入数据获得预测输出,通过损失函数衡量获得的预测输出与真实情况的差异,从而将模型的参数进行调整,使得这种差异越来越小,直到“理论上的”最佳模型。为什么说“理论上”的呢?因为在实际应用中,几乎是不可能得到最优的模型(参数)
2023-10-03 14:40:50
223
原创 np.random.shuffle()+random.seed()设定随机种子,多次打乱,打乱规则固定
在打乱数据集的时候遇到了这样一个问题:我有两组数据集,一组是image,一组是mask(语义分割任务,与本文无关),image和mask里都是图片,且一一对应,即。注意,因为shuffle函数是在原数组上直接操作的,不是生成一个新的打乱的数组,因此一次shuffle(a)之后,a就变成了打乱后的样子。其实,三次shuffle(b)也是按相同的规则打乱的,但该规则不同于shuffle(a)的规则,因此,并不能保留a、b之间的对应关系。)的结论,但基于上面的结果,好像这句话又不完全对,还望大佬指正~
2023-01-31 22:35:32
8554
2
原创 python 导入sklearn时报错: no model named ‘murmurhash‘
最后,我看到评论里有人说可以更新一下sickit-learn的包,就抱着试试的心态,没想到成功了。(难道是scikit-learn就在一小时内悄咪咪更新了?可以把这些相关的包更新一下试试,(当然,对我没用)。或者直接pip install sklearn,在终端会显示你的包是不是满足条件的。今天在跑机器学习相关的代码,一小时前还好好的,一小时后突然在import sklearn这行代码上报错,报的就是没有murmurhash。搜了半天也不知道这是个啥问题,而且明明不久前代码还好好的。
2022-08-19 18:03:25
1697
原创 Python 数据处理数据挖掘(七):K-Means聚类算法
K-Means聚类算法,K-Means是非监督学习的聚类算法,将一组数据分为K类(或者叫簇/cluster),每个簇有一个质心(centroid),同类的数据是围绕着质心被分类的。数据被分为了几类就有几个质心。算法步骤:1、先从原始数据集中随机选出K个数据,作为K个质心。2、将剩余的数据分配到与之最相似的的质心的那个簇里。3、第一次分类完成后,计算每个簇内样本的均值,并根据这个均值生成新的质心4、重复2,3步,直至质心的变化距离小于某个值(主观设定),如果质心始终没法稳定下来肘部法则原理
2022-07-23 23:04:44
3726
2
原创 Python 数据处理数据挖掘(六):决策树模型 之 CART算法
基尼系数,分类/回归决策树,TPR,FPR,ROC,AUC, Gridsearch,k折交叉验证
2022-07-21 23:35:53
3416
原创 Python数据处理数据挖掘(三):关联分析(Apriori算法)
声明:本文为学习笔记,侵权删关联分析:参考啤酒与尿不湿的故事,啤酒和尿不湿本身没有关系,但通过调查买啤酒的人有大概率会买尿不湿,所以啤酒+尿不湿就成了一个销售组合。得出这个销售组合的过程就是关联分析。事务:每条购买信息就是一个事务。项集:一条事务中物品的随机组合产生的集合。一个集合里有几个项,就叫几项集。比如在下面这份数据中,有四个事务,{捏脚}是一项集,{捏脚,SPA}是二项集。支持度:support=一个项集出现的频率=项集出现的次数/事务总数。Support({捏脚})=4/4=1,Support({
2022-07-13 17:35:16
9725
2
原创 Python 数据处理数据挖掘(二):协同过滤
声明:本文仅为学习笔记,欢迎各位大佬的意见与建议,侵权删协同过滤算法,collaborative filtering(CF),通过挖掘用户历史行为信息,从而发现用户偏好。基于不同 的偏好,对用户或产品进行群组划分,最后为目标用户推荐对应的信息。“协同”即利用多个用户数据对数据进行挖掘,“过滤”即信息筛选的过程。主要功能及预测和推荐。协同过滤算法分为:1、基于用户的协同过滤算法;2、基于产品的协同过滤算法基于用户的协同过滤算法(userCF),通过挖掘用户的历史数据,寻找与目标用户具有相似喜好的用户,将相关的
2022-07-11 17:59:48
3174
原创 Python 数据处理数据挖掘(一):CSV文档数据处理
目录一、读取CSV文件二、数据清洗1、识别并处理缺失值 2、识别并处理异常值3、识别并处理重复值三、分组处理1、设置行索引:data.set_index("Index")2、数据分组统计:groupBy()声明:本文为学习笔记,侵权删所用函数:pandas.read_csv(file_path)数据挖掘时我们更多得会使用CSV文件,而不是Excel文件。如果数据本身以Excel的形式存储,只需打开,另存为CSV文件即可。读取CSV文件需要调用pandas包,没有的自行pip一下哦。举例:运行结果:如果
2022-07-06 16:58:00
8178
4
原创 python 文件处理(三):Excel相关操作 之 新建Excel文件与数据录入
引入:上一节我们讲到了怎么在已知的workbook中查询到我们想要的单元格的值,这一节我们将讲述如何新建一个空白的workbook、worksheet以及如何将数据录入其中。一、创建一个空白的工作簿和工作表1.1创建新的工作簿workbookopenpyxl.Workbook(name) 或 openpyxl.Workbook()首先要提醒一点的是,别忘了Workbook 的“W”要大写哦!!openpyxl.Workbook()函数中...
2021-12-03 15:44:09
1117
原创 python 格式化字符串实现对齐输出
这也是我在做课设的时候遇到的一个小问题,当时需要实现对齐输出,不然显得很杂乱。不过当时并没有发现这个功能(我学艺不精,我三脚猫 哈哈),所以用了很弱智的方法:for循环【当输出的字符串小于特定长度的时候,给他后面补空格】。这个方法虽然可行,但是实在是mdzz。所以,我在这里记录一下最近发现的一个新方法:首先,先来看一下Python格式化输出的语句:str1 = 'a'str2 = 'b'print(f"{str1} and {str2}") #输出 a a...
2021-12-03 15:29:20
1906
1
原创 python 双击打开文件那种效果,直接打开Excel表格
之前做课设的时候遇到的小问题,翻了好久的优快云才翻到的,现在想找出来感谢一下那位博主都翻不到了。这里的打开不是指在程序里的打开,而是像我们正常双击打开显示整个表格的那个打开!! 用到的语句是:os.system(file_path)举个例子,这是我在一个课程设计中的一小段代码,作用就是自动打开某个Excel文件。...
2021-12-03 00:08:08
4479
4
原创 python 表示金额时,将中文数字的大写的壹贰叁肆伍转换为阿拉伯数字:rmbTrans.trans
在处理表格或word文档时,有时候像金额这种数据,在比较正式的情况下会写成中文的形式,比如壹万叁仟陆佰伍拾元贰角这种,我们如何将它转换为阿拉伯数字表示的1365.2元这种形式呢? 此处介绍一个函数rmbTrans.trans(“”) 他的作用就是将输入的中文数字大写转换为阿拉伯数字。不过从字面意义上来看,他好像是专门用来转换 rmb 格式的(意思就是输入的中文大写数字的字符串末尾要有元,角,分 这种表示money的词),然鹅我试了一下,发现貌似当输入...
2021-12-02 20:22:24
1730
原创 python 文件处理(一):对文件路径的操作 【getcwd、chdir、listdir、join、exists、mkdir、isdir、move、getsize、splitext】
使用python对文件路径的一些基本操作,包括:os.path.join() os.path.isdir()等七个函数结合实例的详解
2021-11-29 23:51:30
3412
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人