- 博客(8)
- 收藏
- 关注
原创 历史学模型
人类历史发展并不是像马路一样一直笔直的往前开,更像是一块拼图一样,东拼一块,西拼一块,有的时候世界上发生了一些表面上毫无关联的事情,但当拼图越来越完整的时候,突然间就可能会出现某个清晰的脉络,仿佛这个趋势或者转折点是瞬间就到来的。很多拼图在不起眼的时候就开始慢慢构建了但是普通人无法观察,因为人是观察线性变化的,而历史的发展是曲折迂回,反反复复。
2025-04-02 12:52:29
356
原创 大模型学习笔记之Dense模型与MOE模型比较
全连接特性:在 Dense 模型中,每一层的每个神经元都与下一层的所有神经元相连,形成一个完全互联的结构[5例如,在一个典型的 Dense 层中,输入数据的每个元素都会被传递到输出数据的每个元素[8全激活模式:对于每个输入数据点,网络中的所有参数(包括连接权重和偏置项)都会被激活并参与计算[5。
2025-04-01 11:55:24
300
原创 ipv4详解
最小值为5(20字节无选项),最大值为15(60字节含选项)。:实际使用中多被DiffServ(区分服务)或ECN(显式拥塞通知)机制替代。:最大值为65535字节,但受MTU限制(如以太网MTU通常为1500字节)。:数据部分最大长度 = MTU - IP头长度(通常为1480字节)。:限制数据包经过的最大路由器跳数(每经过一跳减1,归零则丢弃):指示当前分片在原始数据包中的位置(单位:8字节块):指示整个IP数据报的长度(头+数据,单位:字节):表示IP头部的长度(单位:32位字,即4字节)
2025-04-01 11:50:04
797
原创 了解词嵌入
词嵌入是自然语言处理的一项核心技术,由于计算机无法理解人类的语言,词嵌入手段将词语转换成计算机能够理解的向量形式,同时也克服了传统方法中词语表示的稀疏性和高维度问题。词嵌入是将自然语言中的词语映射为实数向量的过程。在这个过程中,每个词语都被转换成一个固定长度的稠密向量,这些向量构成了词语的向量空间模型。在该模型中,语义或语法性质相似的词语的向量会彼此靠近。N-gram是一种基于统计的语言模型,用于建立一个项与其前面项序列之间的关联。
2024-04-02 17:43:27
1893
1
原创 《统计学习方法》学习笔记
参考: 【机器学习】判别模型vs生成模型、概率模型vs非概率模型(1)建立在计算机及其网络上的(2)研究对象是数据(3)目的是对数据进行预测与分析(4)以方法为中心,构建模型->应用模型(5)多学科的交叉,包括概率论,统计学,信息论,计算理论,最优化理论等多个领域。统计学习会将同类数据具有一定的统计规律性作为基本假设。例如一堆看似杂乱无章的数据但是假设其具有某种分布概率考虑学习什么样的模型和如何学习模型,以使模型能对数据进行准确的预测与分析,并且还需尽可能的提高学习效率。主要包括监督学习,无监督学
2024-03-31 12:48:31
1827
2
原创 如何简单利用pytorch搭建一个简单的神经网络?
print("训练次数:{},loss:{}".format(total_train_step,loss))print("-------第{}轮训练开始--------".format(i+1))print('整体测试集上的正确率',total_accuracy/test_size)print('运行时间:',end_time-start_time)print("整体测试集上的loss:",total_test_loss)print('测试集数据长度为',test_size)print("模型已保存")
2024-01-23 17:04:10
1241
2
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人