Echo_ldy-优快云博客

原创 POS 词性标注

来看一下 NLP 里面另外一个很经典的 task, POS 词性标注。

2022-12-30 21:45:42 897

原创统计

Fisher显著性检验思想：女士品茶实验先引进一个假设H: 该女士无鉴别能力当H 正确时，这个女士选对四杯的概率为1/70，此时，我们必须承认，下述两个情况必然发生其一：H 不成立，该女士有一定的鉴别力发生了一件概率只有1/70的事件。1/70 < 0.05, H不成立。原假设与备择假设我们称此假设的检验问题为假设检验问题...

2020-04-25 16:28:23 289

原创一些函数

zip转置矩阵>>>a = [1,2,3]>>> b = [4,5,6]>>> c = [4,5,6,7,8]>>> zipped = zip(a,b) # 打包为元组的列表[(1, 4), (2, 5), (3, 6)]>>> zip(a,c) # 元素个数...

2020-04-25 16:27:52 175

原创 LDA

Gamma函数，实际上就是一个超参数的阶乘。是一个定值。Gamma函数是阶乘在实数上的推广。Beta分布的概率密度：其中系数B为共轭先验分布在贝叶斯理论中，如果后验概率P(????|x)和先验概率P(????)满足同样的分布律，那么，先验分布和后验分布被叫做共轭分布，同时，先验分布叫做似然函数的共轭先验分布。...

2020-04-25 16:27:32 189

原创 HMM (Hidden Markov Model) 隐马尔科夫模型

HMM (Hidden Markov Model) 隐马尔科夫模型可用于标注问题，所以可以被应用到语音识别，NLP, 模式识别等领域。 HMM是关于时序的概率模型。 &n...

2020-04-25 16:27:15 234

原创 SVM

线性可分SVM硬间隔，完全分成两类（上图实线）线性SVM软间隔，分成两类，可以存在少量分错类的样本。（上图虚线）加上核函数：Gamma值越大，分类越倾向于非线性C越大，过渡带会越来越小目标函数：想要取到最安全的分类线，则需要距离最近的样本能够远一些，即离样本的最小距离取最大在约束条件下的极值问题：拉格朗日乘子法...

2020-04-25 16:26:50 172

原创 RNN

RNN结构One-hot encoding: SparseDistributed representation: Non-sparse/compactVanishing/Exploding Gradient 梯度消失/爆炸BPTT: Back propagation through timeht（隐藏）层对之前ht-1（隐藏）层的梯度Vanshing Gradient: <...

2020-04-25 16:26:29 219

原创 Leetcode152 Maximum Product Subarray 乘积最大子序列

利用动态规划，如果是累加，则只需要判断a[i]是否大于a[i]+total（a[i]之前所有数的加和）但是对于乘积，也需要考虑负数负负得正的情况。所以需要判断两次，a[i]是否大于max(total_min * nums[i],...

2020-04-13 18:18:06 186

原创 leetcode 31 Next Permutation 下一个排列

思路： lexicographically，可以理解成按照字典顺序排列，即如果把数组里的所有数字提取出来，变成一个数值，那么下一个排列组合就是用已有数值中已有数字排列组合，下一个比当前数值大的值。 &nb...

2020-04-13 15:30:53 298

原创错题

首先，理解一下什么是残差，然后，然后介绍残差服从的概率分布。残差：在回归分析中，测定值与按回归方程预测的值之差，即预测值和真实值之差。线性回归分析中，目标是残差最小化。残差平方和是关于参数的函数（可通过数学推导得到）。为了求残差极小值，令残差关于参数的偏导数为零，会得到残差和为零（偏导=0，计算得到），即残差均值为零。总结：线性回归中的残差服从均值（期望）为0的高斯分布（正态分布）...

2020-04-07 12:42:31 372

原创 Combing imageing biomarkers and AI on the medical records to shed light on Alzheimer's disease

2020-04-02 15:41:10 166

原创 pandas

pd.crosstab()1、缩小数据集范围DataFrame.query()2、处理日期数据pd.to_datetimepd.DatetimeIndex3、增加分割的日期数据4、删除没用的日期数据pd.drop

2020-03-25 12:59:24 196

原创莫名其妙的报错

链表中的cur.next问题： def append(self,num): cur=self.__head node=SingleNode(item=num) if self.is_empty(): cur.item=node.item else:# cur=self.__he...

2020-03-25 12:59:01 430

原创机器学习题库

正则化（regularization）：正则化是针对过拟合提出的。正则化可以防止训练模型过于复杂，有效降低过拟合的风险。 L1正则化 (Lasso)：可以得到稀疏的权值，它会自动进行特征选择，去掉一些没用的特征，即，...

2020-03-25 12:57:56 2991

原创 Xgboost

每一次保留原来的模型不变，加入一个新的函数f到模型中。将前面所有的函数合起来看成一个y_hat怎么构造新加进来的模型？树模型结构：会对树模型做一个惩罚，不让树模型过于庞大： 1.叶子个数限制 &nbsp...

2020-03-25 12:57:38 197

原创数据结构

算法的概念算法是计算机处理信息的本质，因为计算机程序本质上是一个算法来告诉计算机确切的步骤来执行一个指定的任务。一般地，当算法在处理信息时，会从输入设备或数据的存储地址读取数据，把结果写入输出设备或某个存储地址供以后再调用。算法是独立存在的一种解决问题的方法和思想。时间复...

2020-03-25 12:56:56 196

原创 numpy

2020-03-10 23:17:55 165

原创机器学习算法二

判别模型和生成模型：Discriminative Model：线性回归模型、线性判别分析、支持向量机SVM、神经网络、boosting、条件随机场等。先验概率Generative Model：隐马尔可夫模型HMM、朴素贝叶斯模型、高斯混合模型GMM、LDA、高斯、混合多项式、专家的混合物、马尔可夫的随机场。后验推先验集成思想分为两大流派：Boosting: 通过将弱学习器提升为强学习器...

2020-03-09 12:56:02 353

原创深度学习

神经元卷积核图像处理基本算子边界算子矩阵中间横排数/竖排列为0，找局部结构是横线/竖直的结构，使其产生的激励值比较大。还有角点算子，高斯算子等运行神经网络时，最开始会随机取一个算子，然后开始训练，逐渐生成有需要的算子。算子多为3*3的矩阵...

2020-03-08 10:34:53 263

原创机器学习算法

贝叶斯方法贝叶斯方法的特点是结合先验概率和后验概率，即避免了只使用先验概率的主观偏见，也避免了单独使用样本信息的过拟合现象。朴素贝叶斯朴素贝叶斯法是基于贝叶斯定理与特征条件独立假设的分类方法。 &nbs...

2020-03-06 00:25:30 750

原创特征工程

GIL 全称Global Interpreter Lock，保证了了同一时刻只有一个线程在一个CPU上执行字节码，无法将多个线程映射到多个CPU上numpy：释放了GIL数据集： scikit-learn: 数据...

2020-03-05 19:07:00 249

原创 Linux 常用命令

Linux 常用命令：cat (concatenate)读取文件内容并拼接文件i.e. cat t.txtrm (remove)rm filerm -rf foldercp (copy)cp path/file path/filetar解压tar -xf compressed file

2020-03-04 19:40:45 471

Echo_ldy的博客