
深度学习基础
文章平均质量分 58
深度学习(DL,Deep Learning)是机器学习(ML,Machine Learning)领域中一个新的研究方向,它被引入机器学习使其更接近于最初的目标——人工智能(AI,Artificial Intelligence)。
阿波拉
这个作者很懒,什么都没留下…
展开
-
什么是AIGC技术
总的来说,AIGC技术在未来具有巨大的发展潜力,有望为个人和社会带来更多的便利和创新,但也需要认真应对其可能带来的挑战和风险,确保其健康发展并造福人类社会。为了规范和管理AIGC技术的应用,应采取一系列的监管措施和政策建议,包括加强数据隐私保护、防止算法偏见、明确责任主体和范围,以及促进就业和社会稳定等方面的措施。,如提高生产效率、降低成本、优化资源分配等。伦理与风险挑战:AIGC技术的应用可能引发一系列的伦理和风险问题,包括数据隐私、算法偏见、责任问题等,需要加强监管和规范,确保其健康发展和社会责任。原创 2024-04-26 23:21:55 · 774 阅读 · 0 评论 -
朴素贝叶斯分类方法的优点
对小样本数据表现良好:在数据量较小的情况下,朴素贝叶斯算法依然能够取得较好的分类效果,这是由于其基于概率模型的分类方式能够有效地利用有限的训练样本。总的来说,朴素贝叶斯算法具有简单高效、适用性广泛、对小样本数据和高维数据表现良好等优点,因此在实际应用中得到了广泛的应用和认可。对于高维数据表现良好:朴素贝叶斯算法在高维度数据上表现良好,即使在特征空间维度远大于样本量的情况下,仍然能够有效地进行分类。2)对小规模的数据表现很好,能处理多分类任务,适合增量式训练,尤其是数据量超出内存时,可以一批批的去增量训练。原创 2024-04-24 16:52:14 · 571 阅读 · 0 评论 -
解决过拟合的几种方法
5.数据增强:通过随机旋转、裁剪、平移、缩放等方式,生成更多、更丰富的数据,以扩大训练集的规模,对数据进行标准化、归一化等预处理操作,可以提高模型的稳定性和泛化能力。4.Dropout: Dropout是指在神经网络中随机选择一些节点,在训练时将其输出置为0,以减少节点之间的依赖关系,从而避免过拟合。2.特征选择,使用更少的特征,减少特征维度,通过特征选择方法,去除冗余特征和噪声特征,以提高模型的泛化能力。1.增加数据集,增加数据量可以降低模型对训练集数据的依赖程度,从而减少过拟合的风险。原创 2024-04-02 15:10:07 · 2105 阅读 · 0 评论 -
UnicodeDecodeError: ‘utf-8‘ code can‘t decode byte 0xcc in position 0: invalid continuation byte解决方法
3.最终,查看了excel文件的属性。把csv的文件用记事本打开,然后点击另存为,选择带有BOM的UTF-8,然后再运行程序就成功啦!在处理数据集的时候遇到了UnicodeDecodeError的问题,解决办法搜了很久才找到。df = pd.read_csv()中加了encoding = 'gbk'2. 尝试了其他的解码方式,encoding='gb18030'1. 因为写的是utf-不能解码,所以在。原创 2024-01-28 16:14:53 · 1161 阅读 · 0 评论 -
损失函数(Loss Function)与代价函数(Cost Function)、目标函数(Objective Function)区别
目标函数定义为最终需要优化的函数,等于经验风险 + 结构风险(也就是Cost Function + 正则化项)。代价函数定义在整个训练集上,是所有样本误差的平均,也就是损失函数的平均。损失函数定义在单个样本上,算的是一个样本的误差。原创 2023-11-18 23:24:04 · 259 阅读 · 0 评论 -
Python 训练集、测试集以及验证集切分方法:sklearn及手动切分
需求目的:针对模型训练输入,按照6:2:2的比例进行训练集、测试集和验证集的划分。当前数据量约10万条。如果针对的是记录条数达上百万的数据集,可按照98:1:1的比例进行切分。方法一:切分训练集和测试集,采用机器学习包sklearn中的train_test_split()函数方法二:切分训练集、测试集以及验证集,针对dataframe手动切分。原创 2023-10-26 19:31:51 · 7893 阅读 · 0 评论 -
python中的range()函数详解
start、stop、step 分别表示序列的起始值、终止值和步长。start 和 step 是可选参数,如果不指定则默认为 0 和 1。原创 2023-10-13 19:15:05 · 7240 阅读 · 0 评论 -
关于pytorch不区分行向量与列向量的理解
老师讲深度学习时候解释pytorch不区分行向量和列向量,只相当于是一维数组,一维张量一定是行向量,相当于数组,而行列向量可以放到矩阵中看。可以看出,在乘法中矩阵右乘向量可以得到正确结果,向量乘矩阵报错,因此在pytorch中还是倾向于将向量理解成列向量比较合适。再看看在矩阵与向量乘法中向量的角色。说明确实行和列向量没有区分。原创 2023-10-12 11:35:49 · 985 阅读 · 0 评论 -
y _hat[ [ 0, 1], y ]语法——pytorch张量花式索引
y_hat[[0,1],y]中的[0,1]指的是第一行和第二行的索引,后面的y等价于[0,2]。那么可以这么理解y_hat[0,0]和y_hat[1,2]。最后的结果也证明了我的理解。简单阐述我对第四行代码的理解。y_hat是一个2*3的数组。原创 2023-10-11 15:24:35 · 1651 阅读 · 0 评论 -
python中pytorch的广播机制——Broadcasting
从尾(即最右边)维度开始,然后向左逐渐比较。已知 a.shape 是(5,1),b.shape 是(1,6),c.shape 是(6,),d.shape 是(), d 是一个标量, a, b, c,和 d 都可以“广播”到维度 (5,6);首先用1将那个小的维度的tensor扩展成大的维度相同的维度,然后将1扩张成两者的相同维度,如果有两个维度不相同,并且都不是1的话,则不能broadcasting。也就是(2,3,4)+(2,3)是不可以的,(2,3,4)+(3,4)是可以的,因为他们是右看齐的。原创 2023-10-10 22:28:13 · 1677 阅读 · 0 评论 -
one-hot独热编码
虚拟变量背后的思想是将一个分类变量替换为一个或多个新特征,新特征取值为0或1.对于线性二分类(以及scikit-learn中其他所有模型)的公式而言,0和1这两个值是有意义的,我们可以像这样对每个类别引入一个新特征,从而表示任意数量的类别。此时,针对样本A(女,北京,老师)=>(1,0,2)先进行特征映射,然后采用独热编码使其转化成有序且连续。["演员","老师","公务员","工程师","消防员"] => 0,1,2,3,4 => 五维。["北京","上海,"深圳"] => 0,1,2 =>三维。原创 2023-10-08 16:54:38 · 265 阅读 · 0 评论