【神经网络和深度学习】学习笔记

本文介绍了二分分类问题及逻辑回归算法的基本概念。详细解释了如何通过逻辑回归解决二分分类问题,包括损失函数的定义及其最小化过程。同时,文章还探讨了梯度下降法等优化算法的应用。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >


神经网络基础

神经网络的计算过程中,通常有一个正向过程(正向传播步骤)计算损失函数,接着会有一个反向过程(反向传播步骤)计算神经网络中损失函数对各参数的梯度,配合优化方法更新参数,降低损失函数。

1. 二分分类

对于二分分类问题,其目标是训练出一个分类器。它以特征向量 xxx 作为输入,预测输出的结果标签 yyy(1或者0)。

(x,y)(x,y)(xy)表示一个单独的样本,其中,x∈Rnxx \in {R^{n_x}}xRnxnxn_xnx为特征值的个数,y∈{0,1}y \in\{0,1\}y{0,1}。训练集(training sets)由mmm个训练样本构成——{(x(1),y(1)),(x(2),y(2)),...,(x(m),y(m))}\{({x^{(1)}},{y^{(1)}}),({x^{(2)}},{y^{(2)}}),...,({x^{(m)}},{y^{(m)}})\}{(x(1),y(1)),(x(2),y(2)),...,(x(m),y(m))}

2. 逻辑回归

一种用在输出为0和1的二分分类问题的监督学习中的学习算法。其目标为最小化预测值与训练值之间的误差。

给出特征向量x∈Rnxx \in {R^{n_x}}xRnx以及逻辑回归的参数w∈Rnxw \in {R^{n_x}}wRnx和b,旨在得出一个预测值y^=wTx+b\hat{y} =w^{T}x+by^=wTx+by^\hat{y}y^是一个概率,y^=P(y=1∣x)\hat{y} =P(y=1|x)y^=P(y=1∣x))。为使0≤y^≤10\leq\hat{y}\leq10y^1,令y^=σ(wTx+b)\hat{y} =\sigma(w^{T}x+b)y^=σwTx+b,其中,σ(z)=11+e−z\sigma(z)=\frac1{1+e^{-z}}σ(z)=1+ez1

给出{(x(1),y(1)),(x(2),y(2)),...,(x(m),y(m))}\{({x^{(1)}},{y^{(1)}}),({x^{(2)}},{y^{(2)}}),...,({x^{(m)}},{y^{(m)}})\}{(x(1),y(1)),(x(2),y(2)),...,(x(m),y(m))},为了训练参数w和b,使得:y^(i)≈y(i)\hat{y} ^{(i)}\approx y^{(i)}y^(i)y(i),需要定义一个损失函数,且使得该损失函数最小。

2.1 Loss(Error)function

被用作衡量单个训练样本的误差。L(y^,y)=−[ylog⁡(y^)+(1−y)log⁡(1−y^)]ℒ(\widehat y,y)=-\lbrack y\log(\widehat y)+(1-y)\log(1-\widehat y)\rbrackL(y,y)=[ylog(y)+(1y)log(1y)]

2.2 Cost function

计算整体训练集的平均损失。最终需要找到使J(w,b)J(w,b)J(w,b)最小的参wwwbbbJ(w,b)=1m∑i=1mL(y^(i),y(i))=−1m∑i=1m[y(i)log⁡(y^(i))+(1−y(i))log⁡(1−y^(i))](凸函数)J(w,b)=\frac1m\sum_{i=1}^mℒ(\widehat y^{(i)},y^{(i)})=-\frac1m\sum_{i=1}^m\lbrack y^{(i)}\log(\widehat y^{(i)})+(1-y^{(i)})\log(1-\widehat y^{(i)})\rbrack(凸函数)J(w,b)=m1i=1mL(y(i),y(i))=m1i=1m[y(i)log(y(i))+(1y(i))log(1y(i))](凸函数)

使得损失函数最小,获得回归系数的算法有:

  • 梯度下降法
  • 牛顿迭代算法
  • 拟牛顿迭代算法(BFGS算法和L-BFGS算法)
2.3 梯度下降法

为得到最小的损失函数值,对w求偏导,并使其偏导为0,然后用随机梯度下降法求解方程组。梯度下降w的更新过程,走梯度方向的反方向:
θj:=θj−αδJ(w)δw{\mathrm\theta}_\mathrm j:={\mathrm\theta}_\mathrm j-\mathrm\alpha\frac{\mathrm{δJ}\left(\mathrm w\right)}{\mathrm{δw}}θj:=θjαδwδJ(w)
α\alphaα代表学习率,学习率可以控制每一次迭代或者梯度下降法中的步长。
其中:
δδwJ(w)=−1m∑i=1m(y(i)1y^(i)δδwy^(i)−(1−y(i))11−y^(i)δδwy^(i)) \frac{\mathrm\delta}{\mathrm{δw}}\mathrm J\left(\mathrm w\right)=-\frac1{\mathrm m}\sum_{\mathrm i=1}^\mathrm m(\mathrm y^{(\mathrm i)}\frac1{\widehat{\mathrm y}^{(\mathrm i)}}\frac{\mathrm\delta}{\mathrm{δw}}\widehat{\mathrm y}^{(\mathrm i)}-(1-\mathrm y^{(\mathrm i)})\frac1{1-\widehat{\mathrm y}^{(\mathrm i)}}\frac{\mathrm\delta}{\mathrm{δw}}\widehat{\mathrm y}^{(\mathrm i)})δwδJ(w)=m1i=1m(y(i)y(i)1δwδy(i)(1y(i))1y(i)1δwδy(i))
=−1m∑i=1m(y(i)1y^(i)−(1−y(i))11−y^(i))δδwσ(wTxi)=-\frac1{\mathrm m}\sum_{\mathrm i=1}^\mathrm m(\mathrm y^{(\mathrm i)}\frac1{\widehat{\mathrm y}^{(\mathrm i)}}-(1-\mathrm y^{(\mathrm i)})\frac1{1-\widehat{\mathrm y}^{(\mathrm i)}})\frac{\mathrm\delta}{\mathrm{δw}}\sigma(w^{T}x^{i})=m1i=1m(y(i)y(i)1(1y(i))1y(i)1)δwδσwTxi
=−1m∑i=1m[y(i)1y^(i)−(1−y(i))11−y^(i)]σ(wTxi)(1−σ(wTxi))δδwjwTxi=-\frac1{\mathrm m}\sum_{\mathrm i=1}^\mathrm m\lbrack\mathrm y^{(\mathrm i)}\frac1{\widehat{\mathrm y}^{(\mathrm i)}}-(1-\mathrm y^{(\mathrm i)})\frac1{1-\widehat{\mathrm y}^{(\mathrm i)}}\rbrack\mathrm\sigma(\mathrm w^\mathrm T\mathrm x^\mathrm i)(1-\mathrm\sigma(\mathrm w^\mathrm T\mathrm x^\mathrm i))\frac{\mathrm\delta}{{\mathrm{δw}}_\mathrm j}\mathrm w^\mathrm T\mathrm x^\mathrm i=m1i=1m[y(i)y(i)1(1y(i))1y(i)1]σ(wTxi)(1σ(wTxi))δwjδwTxi
=−1m∑i=1m[y(i)(1−σ(wTxi))−(1−y(i))σ(wTxi)]xji=-\frac1{\mathrm m}\sum_{\mathrm i=1}^\mathrm m\lbrack\mathrm y^{(\mathrm i)}(1-\mathrm\sigma(\mathrm w^\mathrm T\mathrm x^\mathrm i))-(1-\mathrm y^{(\mathrm i)})\mathrm\sigma(\mathrm w^\mathrm T\mathrm x^\mathrm i)\rbrack\mathrm x_{{}^\mathrm j}^\mathrm i=m1i=1m[y(i)(1σ(wTxi))(1y(i))σ(wTxi)]xji
=−1m∑i=1m[y(i)−σ(wTxi)]xji=-\frac1{\mathrm m}\sum_{\mathrm i=1}^\mathrm m\lbrack\mathrm y^{(\mathrm i)}-\mathrm\sigma(\mathrm w^\mathrm T\mathrm x^\mathrm i)\rbrack\mathrm x_{{}^\mathrm j}^\mathrm i=m1i=1m[y(i)σ(wTxi)]xji
=1m∑i=1m[y^(i)−y(i)]xji=\frac1{\mathrm m}\sum_{\mathrm i=1}^\mathrm m\lbrack\widehat{\mathrm y}^{(\mathrm i)}-\mathrm y^{(\mathrm i)}\rbrack\mathrm x_{{}^\mathrm j}^\mathrm i=m1i=1m[y(i)y(i)]xji
因此,
θj:=θj−α1m∑i=1m[y^(i)−y(i)]xji\theta_j:=\theta_j-\alpha \frac1{\mathrm m}\sum_{\mathrm i=1}^\mathrm m\lbrack\widehat{\mathrm y}^{(\mathrm i)}-\mathrm y^{(\mathrm i)}\rbrack\mathrm x_{{}^\mathrm j}^\mathrm iθj:=θjαm1i=1m[y(i)y(i)]xji

内容概要:该论文探讨了一种基于粒子群优化(PSO)的STAR-RIS辅助NOMA无线通信网络优化方法。STAR-RIS作为一种新型可重构智能表面,能同时反射传输信号,与传统仅能反射的RIS不同。结合NOMA技术,STAR-RIS可以提升覆盖范围、用户容量频谱效率。针对STAR-RIS元素众多导致获取完整信道状态信息(CSI)开销大的问题,作者提出一种在不依赖完整CSI的情况下,联合优化功率分配、基站波束成形以及STAR-RIS的传输反射波束成形向量的方法,以最大化总可实现速率并确保每个用户的最低速率要求。仿真结果显示,该方案优于STAR-RIS辅助的OMA系统。 适合人群:具备一定无线通信理论基础、对智能反射面技术非正交多址接入技术感兴趣的科研人员工程师。 使用场景及目标:①适用于希望深入了解STAR-RIS与NOMA结合的研究者;②为解决无线通信中频谱资源紧张、提高系统性能提供新的思路技术手段;③帮助理解PSO算法在无线通信优化问题中的应用。 其他说明:文中提供了详细的Python代码实现,涵盖系统参数设置、信道建模、速率计算、目标函数定义、约束条件设定、主优化函数设计及结果可视化等环节,便于读者理解复现实验结果。此外,文章还对比了PSO与其他优化算法(如DDPG)的区别,强调了PSO在不需要显式CSI估计方面的优势。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值