- 博客(146)
- 收藏
- 关注
原创 面试常问系列(二)-神经网络参数初始化之自注意力机制
除以dk的本质是对点积结果进行方差归一化,确保Softmax的输入值不会随维度增大而失控,从而保持梯度稳定,提升训练效率和模型性能。这一设计是Transformer高效训练的关键细节之一。
2025-03-23 23:36:15
1145
原创 面试常问系列(一)-神经网络参数初始化
Xavier初始化解决的是饱和激活函数(sigmoid/tanh)\但是针对非饱和激活函数,relu等无效。那么针对于relu这种激活函数该怎么办呢?可以使用kaiming初始化。
2025-03-23 17:10:20
1086
原创 自编码/自回归/seq2seq 真的理解了吗?
宏观来讲,当今的天下,可以说是transformer的天下,今天下三分,分别是 自编码(Autoencoder),自回归(Autoregressive),和怎么理解呢?encoder(左派)自编码代表:bertseq2seq代表:bart自回归代表:gpt上面那个图大家看了可能就会首先有个宏观的了解,接下来,会稍微细节简单说一下,之后相关的文章也会跟进。
2024-03-25 23:45:15
1266
1
原创 排序指标解读-GAUC
AUC和GAUC其实是同一类物种,只不过GAUC是个更细心,会考虑到每一个人的更细心的物种,而AUC是更有全局观,以整体为主的物种。
2023-03-21 00:54:36
565
原创 第一章、part03-动态内存分配
动态内存分配存在的意义就是更高效的利用内存空间,简单来说,用多少给多少,而不是提前开辟很大的内存空间,但不用那么多,类似数组。动态分配出一片大小为N * sizeof(T)字节的内存空间,并且将该内存空间的起始地址赋值给P,示例如下。动态分配出一片大小为sizeof(T)字节的内存空间,并且将该内存空间的起始地址赋值给P,如下。万物皆有轮回,有new来创建,对应的就有delete来释放。用new创建的内存空间,一定要用delete来释放掉!T 是任意的类型名, P 是T * 的指针。他们的返回值都是T*
2022-09-14 02:06:43
706
1
原创 第一章、part01-引用
类型名 & 引用名 = 变量名;上面这个写法就定义了一个变量名的引用。举个例子:int x = 0;此时 y 引用了x, y的类型是int &变量的引用就等价于这个变量,简单来说,y就是x的别名。举个代码例子,如下一目了然。
2022-09-11 21:00:41
820
1
原创 内容id生成器
1、背景首先个人理解,赋予一个背景,比如推荐系统中抖音里面,每天都有很多的作者去上传很多的视频,量级可能非常大,并且之前的视频也会累积,那么如何区分不同的视频内容呢,就是id了,类似于我们的身份证件,但是如何做到唯一标识呢?2、实现框架这个就会用到传说中的---雪花算法。雪花算法(Snowflake)是twitter公司内部分布式项目采用的ID生成算法,开源后广受国内大厂的好评,在该算法影响下各大公司相继开发出各具特色的分布式生成器。名字很高大上哈,其实很简单,看下面这张图片,就是雪
2022-03-26 17:18:39
1203
2
原创 第二十篇:Summarisation摘要
摘要• 从文本中提取最重要的信息以生成缩短或删节的版本• 例子 ‣ 文档大纲 ‣ 科学文章摘要 ‣ 新闻标题 ‣ 搜索结果片段
2021-06-20 19:31:14
174
4
原创 第十九篇:主题建模Topic Modelling
理解文本• 英文维基百科:600 万篇文章• Twitter:每天 5 亿条推文• 纽约时报:1500 万篇文章• arXiv:100 万篇文章• 如果我们想了解有关这些文档集的一些信息,我们可以做什么?
2021-06-20 17:54:31
2949
2
原创 第十五篇:依存语法Dependency Grammar
上下文无关语法(回顾)• CFG 假设有一个选区树来标识句子中的短语‣ 基于这些短语可以互换(例如,将一个 NP 换成另一个 NP)并保持语法性的想法
2021-06-19 17:42:34
3604
2
原创 第十四篇:有概率的上下文无关语法Probabilistic Context-Free Grammar
解析中的歧义• 上下文无关文法为语言分配层次结构 ‣ 公式化为生成语言中的所有字符串 ‣ 预测给定字符串的结构
2021-06-19 15:28:00
971
原创 第十二篇:形式语言理论与有限状态自动机
我们到目前已经介绍了什么?• 处理单词序列的方法: ‣ N-gram 语言模型 ‣ 隐马尔可夫模型 ‣ 循环神经网络• 这些模型没有任何基本的语言学
2021-06-19 11:11:39
621
原创 第十一篇:Discourse 话语/论述
话语• 我们学到的大多数任务/模型都在单词或句子级别运行: ‣ 词性标注 ‣ 语言模型‣ 词法/分布语义• 但 NLP 经常处理文档• 话语:了解文档中句子之间的相互关系
2021-06-19 10:00:15
1240
原创 第十篇:上下文表示
词向量/嵌入• 每种词类型都有一种表示 ‣ Word2Vec• 无论单词的上下文如何,始终使用相同的表示• 无法捕捉词的多种含义• 上下文表示 = 基于上下文的单词表示• 预训练的上下文表示非常适合下游应用程序!...
2021-06-18 23:54:00
1058
1
原创 第八篇:CAP理论
CAP定理分布式数据库的局限性可以用所谓的 CAP 定理来描述一致性:每个节点在任何给定实例上总是看到相同的数据(即严格一致性)
2021-06-17 18:52:13
196
原创 第九篇:分布式语义
词法数据库(上一篇提到)- 问题• 手动构建 ‣ 昂贵的 ‣ 人工标注可能存在偏差和噪声• 语言是动态的 ‣ 生词:俚语、术语等。‣ 新感官• Internet 为我们提供了大量文本。 我们可以用它来获得词义吗?...
2021-06-15 23:43:47
2024
8
原创 第八篇:词汇语义
情感分析• 词袋,kNN 分类器。 训练数据: ‣ “This is a good movie.” → ☺ ‣ “This is a great movie.” → ☺‣ “This is a terrible film.” → ☹• “This is a wonderful film.” → ?• 两个问题:‣ 模型不知道“电影”和“电影”是同义词。 由于“film”仅出现在负面示例中,因此模型了解到它是一个负面词。‣ “精彩”不在词汇表中(OOV – 词汇外)。...
2021-06-15 17:11:52
873
3
原创 第七篇:循环神经网络
循环神经网络 (RNN)• RNN 允许表示任意大小的输入• 核心思想:通过应用递推公式一次处理一个输入序列• 使用状态向量来表示先前已处理过的上下文
2021-06-15 12:26:18
378
2
原创 第六篇:Feedforward Networks 前向网络
深度学习• 机器学习的一个分支• 重新命名神经网络• 神经网络:历史上受到大脑计算方式的启发 ‣ 由称为神经元的计算单元组成• 为什么深? 许多层在现代深度学习模型中链接在一起...
2021-06-14 21:48:42
2181
6
原创 第七篇:并发-恢复机制
复习ACID 属性❖ A tomicity:Xact 中的所有动作都发生,或者不发生。❖ 一致性:如果每个 Xact 是一致的,并且 DB 开始一致,则它最终一致。❖ 隔离:一个 Xact 的执行与其他 Xact 的执行隔离。❖ 持久性:如果 Xact 提交,其效果将持续存在。...
2021-06-14 16:52:06
1019
2
原创 第六篇:并发-粒度锁
并发事务 – 冲突和性能问题多个并发运行的事务可能会导致冲突- 我们仍然尽量允许并发运行以获得更好的性能,同时尽可能避免冲突
2021-06-14 09:38:28
334
原创 第三篇:事务
数据库事务事务 - 数据库中的工作单元- 交易中可以包含任意数量和类型的操作- 要么整体发生要么不发生- 事务最好有四个属性,通常称为 ACID 属性
2021-06-12 17:45:25
574
2
原创 第二篇:故障容忍
故障容忍使系统能够在其某些组件发生故障时继续正常运行的属性。从统计的角度出发P(A) = probability of an event A is happening in a certain period.
2021-06-12 11:13:44
524
2
原创 第五篇:协调和协定之选举算法
选举选择独特的流程来扮演领导者的角色,承担特殊的任务例如基于服务器的互斥算法需要选举一个服务器进程 伯克利算法基础任何进程都可以要求选举一个进程一次最多可以进行一次选举选举的结果不取决于哪个进程发起的当选的进程是唯一的允许多个进程同时调用一次选举所有这些进程在一起只能产生一个领导者进程具有唯一标识符在任何时间点,一个进程是参与者,意味着它参与了选举算法的某些运行 非参与者,意味着它目前没有参与任何选举领导者具有最大标识符的进程被选中标识符可以是任何东...
2021-06-09 10:57:33
398
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人