
机器学习和数据处理
文章平均质量分 73
机器学习的常见方法和数据处理的常见方法
liulangzhehwm
这个作者很懒,什么都没留下…
展开
-
svm和决策树基本知识以及模型评价以及模型保存
svm和决策树基本知识以及模型评价以及模型保存。原创 2024-06-21 23:13:02 · 1141 阅读 · 0 评论 -
语音识别遇到的一些问题总结
语音识别遇到的一些问题总结1,问题一(recognition connection failed: [WinError 10060] )代码解决方案1,问题一(recognition connection failed: [WinError 10060] )recognition connection failed: [WinError 10060] 由于连接方在一段时间后没有正确答复或连接的主机没有反应,连接尝试失败。代码import speech_recognition as srr = sr原创 2022-03-31 12:47:52 · 9225 阅读 · 1 评论 -
正则表达式(基础)
1,概念正则表达式是对字符串操作的一种逻辑公式,就是用事先定义好的一些特定字符、及这些特定字符的组合,组成一个“规则字符串”,这个“规则字符串”用来表达对字符串的一种过滤逻辑。2,元字符字符描述.匹配除 “\n” 之外的任何单个字符.[xyz]匹配所包含的任意一个字符[^xyz]匹配未包含的任意字符[a-z]匹配指定范围内的任意字符[^a-z]匹配任何不在指定范围内的任意字符1.匹配前面的子表达式零次或多次。例如,zo 能匹配 “z” 以及原创 2022-03-27 10:09:51 · 312 阅读 · 0 评论 -
mysql基础操作
基础语法原创 2022-08-16 14:09:35 · 240 阅读 · 0 评论 -
windows下载dlib
windows下载dlib原创 2022-10-18 23:50:29 · 534 阅读 · 1 评论 -
机器学习或深度学习的数据读取工作(大数据处理)
机器学习或深度学习的数据读取工作(大数据处理)主要是.split和re.findall和glob.glob运用。读取文件的路径(为了获得文件内容)和提取文件路径中感兴趣的东西(标签)1,“glob.glob”用于读取文件路径2,“.split“用于字符串分割3,”re.findall“用于获取字符串里的感兴趣的东西。原创 2023-12-24 23:55:44 · 1811 阅读 · 3 评论 -
交叉验证的种类和原理(sklearn.model_selection import *)
前提:假设某些数据是独立且相同分布的 (i.i.d.),假设所有样本都源于同一个生成过程,并且假设生成过程没有对过去生成的样本的记忆。注意:虽然i.i.d.数据是机器学习理论中的常见假设,但在实践中很少成立。如果知道样本是使用瞬态过程生成的,则使用时间序列感知交叉验证方案会更安全(例一)。同样,如果我们知道生成过程具有组结构(从不同受试者、实验、测量设备收集的样本),则使用分组交叉验证会更安全(例二)。原创 2023-12-29 17:27:38 · 1610 阅读 · 0 评论 -
KFold解释和代码实现
例如:随着人工智能的不断发展,机器学习这门技术也越来越重要,很多人都开启了学习机器学习,本文就介绍了机器学习的基础内容。提示:以下是本篇文章正文内容,下面案例可供参考KFold:不考虑标签(class)和组(group)的影响。有时候测试集包含某一类的全部标签,而训练集不包含该类的样本。也就是说没经过训练,就要测试(KFold 第1折叠)。适用于数据比较平衡,数据来自同一组(同一个机器,不同故障)的时候。记住要打乱数据。原创 2024-01-01 11:01:11 · 2387 阅读 · 0 评论 -
StratifiedKFold解释和代码实现
StratifiedKFold:考虑了标签(class),但没考虑组(group)的影响。原创 2024-01-01 21:49:22 · 2641 阅读 · 0 评论 -
Group k-fold解释和代码实现
Group k-fold:不考虑标签(class)和组(group)的影响。有时候测试集包含某一类的全部标签,而训练集不包含该类的样本。也就是说没经过训练,就要测试(KFold 第1折叠)。适用于每一组的数据类型都很全的时候。原创 2024-01-01 22:35:23 · 1478 阅读 · 0 评论 -
sklearn.model_selection.learning_curve的详细介绍(包含ShuffleSplit()介绍)
提示:sklearn.model_selection.learning_curve的详细介绍。原创 2024-03-15 20:19:38 · 1452 阅读 · 0 评论 -
比较不同标准化对具有离群值的数据的影响
加州住房数据集的特征0(街区中的收入中位数)和特征5(平均住房入住率)具有非常不同的尺度,并且包含一些非常大的离群值。这两个特征导致数据难以可视化,更重要的是,它们会降低许多机器学习算法的预测性能。左侧图显示整个数据集(包含特征0和特征5),右侧放大以显示没有边缘离群值的数据集。绝大多数样本都被压缩到一个特定的范围,[0,10]是收入中位数,[0,6]是平均住房入住率。请注意,有一些边缘离群值(一些区块的平均入住率超过1200)。因此,根据应用,特定的预处理可能非常有益。原创 2024-05-30 15:57:21 · 794 阅读 · 0 评论 -
特征选择概述
特征选择是指从原始特征集中选择一些特征组成新的特征子集,选择特征时需要参照某个标准,根据这个标准去筛选特征,进而降低原始特征集的维度,用经过筛选后的特征集去辨识故障时要求其能达到比原始特征集更精确的识别度,同时能够降低计算复杂度。原创 2024-05-31 15:12:14 · 1108 阅读 · 0 评论 -
np.hstack()和np.vstack()函数解释
np.hstack()和np.vstack()函数解释。原创 2024-06-09 16:29:33 · 394 阅读 · 0 评论 -
sklearn.preprocessing.RobustScaler(解释和原理,分位数,四分位差)
1,由于中位数的选取和分位点的选取规则不一样,可能导致不同的结果,尤其在处理的数据较少时,可能影响较大。2,根据Q1,Q3的计算公式可得,有时候计算的为分数,所以在这个时候Q1和Q3的取法可能有很大的不同。3,当数据量足够,数据较密集时,可以看到和计算公式就很吻合。原创 2024-02-27 17:16:23 · 1057 阅读 · 0 评论 -
StratifiedGroupKFold解释和代码实现
StratifiedGroupKFold解释和代码实现。原创 2024-01-03 23:11:31 · 1554 阅读 · 0 评论 -
model.fit中的Epoch、Batch_Size和iteration详解
https://blog.youkuaiyun.com/xjp_xujiping/article/details/82953246https://blog.youkuaiyun.com/lafengxiaoyu/article/details/111602955文章目录一,原因二,epochs三,batch_size(每一批次数据的多少)四,Iterations(批次的多少)五,举个例子六,model.fit介绍一,原因我们接触到的机器学习和深度学习为了训练模型都需要庞大的数据,而对数据的处理(咋样将数据喂入模型)将是.原创 2022-04-26 11:05:30 · 6718 阅读 · 0 评论 -
CNN与RNN结合建立模型
文章目录前言一、课题描述二、课题分析三、问题解决方法前言最近在研究一个课题,在建模部分遇到了一些问题。下面是关于解决问题后的一些想法。一、课题描述课题给了K个心跳数据,数据是一维的,要求使用机器学习和深度学习对其进行分类。每个心跳数据作图如下(😏)。二、课题分析每个心跳数据的特征都包括空间特征和时间特征。空间特征有卷积神经网络(CNN),时间特征有循环神经网络(RNN)。但是两者是不是可以结合使用?如果可以结合使用,咋样结合呢?本文对以上两个问题做出详尽地解答。三、问题解决方法.原创 2022-04-23 20:47:54 · 1260 阅读 · 0 评论 -
tf.keras.layers.Conv2D,tf.keras.layers.SimpleRNN()主要参数讲解
文章目录一,tf.keras.layers.Conv2D()主要参数讲解1.1 参数filter1.2 输入,输出矩阵格式二,tf.keras.layers.SimpleRNN()主要参数:记忆体例如:tf.keras.layers.Conv1D(filters=128, # 卷积过滤器的数量,对应输出的维数kernel_size=50, # 整数,过滤器的大小,如果为一个整数则宽和高相同strides=3, #原创 2022-04-18 21:09:23 · 2487 阅读 · 0 评论 -
wfdb读取不同后缀的数据文件(ECG)
文章目录一,读取.hea文件(几乎没用)二,读取record数据(.dat)(数据)三,读取.art文件()四,读取.qrs文件一,读取.hea文件(几乎没用)from IPython.display import displayimport wfdbrecord = wfdb.rdheader('database/04015')display(record.__dict__)二,读取record数据(.dat)(数据)from IPython.display import display原创 2022-04-11 09:01:01 · 5010 阅读 · 3 评论 -
搭建神经网络(六步法)
六步法教你搭建简单的神经网络,适合大概的了解。原创 2022-04-09 15:25:24 · 6121 阅读 · 1 评论 -
CNN,RNN的一些注意事项
文章目录CNN注意事项法一法二RNN注意事项Embedding编码正常编码CNN注意事项tf.keras.layers.Conv1D()输入数据结构一定要是(数据条数,每条数据的个数,1)法一X = np.expand_dims(X, axis=2) # 给数据增加一个维度,使数据和网络结构匹配法二tensorflow.keras.layers.Conv2D()输入数据结构一定要是(数据条数,每条数据的长度,每条数据的宽度,1)x_train = x_train.res原创 2022-04-08 23:23:31 · 1265 阅读 · 0 评论