- 博客(712)
- 收藏
- 关注
原创 深入理解深度学习中的【卷积】和 feature map
深入理解深度学习中的卷积和feature map 虽然深度学习的概念已经传遍大街小巷,本文还是说一说CNN中的卷积。 本文主要介绍卷积层的结构。下图显示了CNN中最重要的部分,这部分称之为过滤器(filter)或内核(kernel)。因为TensorFlow官方文档中将这个结构称之为过滤器(filter),故在本文中将统称这个结构为过滤器。如下图所示,过滤器可以将当前层网络上的一个子节点矩
2017-12-09 18:10:18
23831
1
转载 简单易懂的softmax交叉熵损失函数求导
简单易懂的softmax交叉熵损失函数求导 本博客转自:http://m.blog.youkuaiyun.com/qian99/article/details/78046329 来写一个softmax求导的推导过程,不仅可以给自己理清思路,还可以造福大众,岂不美哉~ softmax经常被添加在分类任务的神经网络中的输出层,神经网络的反向传播中关键的步
2017-11-21 13:58:34
20901
转载 卷积神经网络中feature map的含义
卷积神经网络中feature map的含义 在每个卷积层,数据都是以三维形式存在的。你可以把它看成许多个二维图片叠在一起,其中每一个称为一个feature map。在输入层,如果是灰度图片,那就只有一个feature map;如果是彩色图片,一般就是3个feature map(红绿蓝)。层与层之间会有若干个卷积核(kernel),上一层和每个feature map跟每个卷积核做卷积,
2017-10-23 09:59:56
31969
4
原创 c\c++中比较两个字符串或string对象是否相等
c\c++中比较两个字符串或string对象是否相等 在写程序的过程中,经常会遇到要比较两个字符串是否相等的情况。如果要比较的对象是char*字符串,则利用int strcmp(const char* s1,const char* s2) 当s1<s2时,返回为负数; 当s1==s2时,返回值= 0; 当s1>s2时,返回正数。 ...
2017-10-16 21:32:18
115143
3
转载 从解题到建模:算法工程师如何在日常工作中建立真正的逻辑性
并没有使用什么复杂的方法论也没有写更多代码只是在每一个关键节点,多思考了一层不急着解题,而是先建模问题不满足于结论,而是理解因果机制不只关注短期指标,而是系统长期演化不让经验自然流失,而是沉淀为可复用判断成长不是做更多事,而是用同样的事,训练更高级的思维方式。逻辑性不是表达技巧,而是你如何做决策、如何复盘决策。当你开始用这样的方式对待日常工作时,能力的提升往往是“悄然发生、但不可逆的”。
2026-01-05 05:42:03
7
转载 算法工程师如何在面试中答出“高级感”?——避免叙事,掌握 STAR,抽象方法论
【1】定义问题 → 为什么重要?难点是什么?【2】拆解问题 → 本质矛盾是什么?【3】制定策略 → 3~4 个高杠杆动作(强调“为什么这样做”)【4】呈现结果 → 指标 + 可复用价值【5】抽象方法论 → 体现你的思考能力这套结构的价值:把你的经历包装成“体系化能力”面试官能迅速判断你的段位让你听起来像“带团队的人”而不是“调参的人”算法工程师面试不是在比“谁做过更多模型”,而是:谁能更清楚地理解问题本质,谁能更快找到解空间,谁能把经验抽象成方法论。
2026-01-05 05:09:35
5
原创 算法工程师成长经验
来自知乎:https://www.zhihu.com/people/jaysoon/posts算法工程师的成长:反直觉决策能力算法工程师的真正分水岭:敢决策、敢担责、敢迈大步算法工程师的决策底气:不是性格,而是知识密度
2026-01-05 05:05:37
156
原创 Part9.第15章:Transformer--实现翻译模型源码
如何利用BPE算法构建NLP模型的词典。这里我们就来实际构建一次。首先你需要安装sentencepiece这个包,然后运行下边代码来分别生成英文和中文的词典。【参数说明】–character_coverage参数是覆盖多少用字符集,因为英文单个字符有限,所以我们设置为1.0。但是中文有很多生僻字,所以我们设置为0.9995防止词表被大量生僻词占用。vocab_size=16000参数是设置词表的大小,我们都设置为16000。因为英语基本字符有限,中文基本字符较多,字符组合可能较多,需要分别统计频
2025-12-08 02:59:04
919
转载 跳槽真的是涨薪最快的方式吗?
觉得没必要学和研究,虽然是打工但是以打工的心态做事,可能打工的机会可能都没了,那些大厂砖头很难在小厂生存下来的原因,技能太单一,以为p8-p10随便空降,小厂为啥是小厂,其中原因不说也知, 给你钱没本事未必敢拿。链接:https://www.zhihu.com/question/1906016474461606133/answer/1981106691002110280。,频繁跳槽可能最后早早的去送外卖了(不要学我,毕竟不把自己当普通人,个人要求贼高),当然一直待着也避免不了。
2025-12-08 00:42:06
22
原创 职场成长:一定要一边工作,一边变得很强大
很多人一进职场,他们就被忙给绑架了,几年过去职位没有变,能力没有涨,但焦虑越来越大了,这是典型的被工作消耗;而不是通过工作去成长。真正聪明的人都在一边工作,一边变强大;他们不会把上班变成谋生手段的全部,只会把上班当成修炼的场所。
2025-11-29 02:24:10
111
原创 Part8.第15章:Transformer(上)
Transformer与全连接前馈网络(FFN)、卷积神经网络(CNN)、循环神经网络(RNN)并称为深度学习的四大核心架构。
2025-11-09 03:58:44
202
原创 两条工作经验
后续大家纷纷印证:留有“未完结的任务”会带来巨大的心理负担,就像电脑的内存被占满,影响后续工作的效率。这背后的核心,是“速度”和“责任感”——快速完成比完美缓慢更重要,遇到问题立刻解决,不给拖延留余地。大公司常常因为堆积的“烂摊子”失去客户信任,而创业公司在这方面的灵活敏捷是致胜关键。它要求你既是行动者,也是清理者,像对待“微故事”一样,每件事都有主角、对手、高潮和结局。如果你想成为一名“顶尖玩家”,这两条原则值得反复体会与践行。它们不仅塑造了高效的创业文化,也是一种“混乱管理”的实战智慧。
2025-11-03 21:06:43
164
原创 信息量和信息熵
信息量越大-抽到这个结果的概率很低-不确定性越高-信息价值越高信息量:抽到当前事件带来的信息价值,一般是概率越小,带来的价值越大,这次抽样所能排除法的不确定也就越大信息熵:一个系统信息量的数学期望。一般一个系统的期望信息量越大,代表单次抽样抽到这个期望的概率很小,代表系统越混乱,不确定性越高。一个系统如果在样本种类确定的情况下,抽样概率越平均,信息熵越大,因为每次抽样结果都有最大的概率与其他几次不同,所以增大了抽样结果的不确定性信息的作用是消除不确定性。一句话的信息量和它能消除的不确定性有关。
2025-11-03 00:56:47
464
原创 运筹学之整数规划之 分支定界 + 割平面法
运筹学之整数规划之 分支定界 + 割平面法,参考:https://zhuanlan.zhihu.com/p/1965719847984936778
2025-10-27 01:34:51
407
原创 掌握机器学习算法及其关键超参数
深度理解并针对具体任务调整这些超参数,不仅能有效提升模型的泛化能力,还能避免过拟合或欠拟合问题。建议结合交叉验证和网格搜索等方法系统调优,助力精准建模。机器学习中,不同算法对应着各自关键的超参数,合理调优这些超参数是提升模型性能的关键。
2025-10-26 23:53:10
334
原创 Part3.第7章
千万不要被逻辑回归里的“回归”误导,逻辑回归是一个问题的算法。通过上边的学习,我们知道一元逻辑回归模型的假设函数为:其中的w和b参数会对标准的Sigmoid函数曲线进行平移,翻转,缩放等。最终将输出映射到[0,1]。。这个Sigmoid函数叫做激活函数。这个非线性的函数我们就叫做激活函数。激活函数的作用就是在线性函数的基础上增加了非线性。
2025-09-14 20:50:57
878
原创 Part2.第6章
PyTorch把对数据的存储和操作都封装在Tensor里。PyTorch里的模型训练的输入输出数据,模型的参数,都是用Tensor来表示的。Tensor在操作方面和NumPy的ndarray是非常类似的。不同的是Tensor还实现了像等PyTorch的核心功能。Tensor是PyTorch里对。:单个数,比如 torch.tensor(3.14):一列数,比如 torch.tensor([1,2,3]):行列数据,比如 torch.tensor([[1,2],[3,4]])
2025-09-14 01:49:18
888
转载 运筹学目前最具潜力或生命力的方向有哪些?
来自知乎:https://www.zhihu.com/question/648061702/answer/1948804735286085408
2025-09-10 01:22:12
40
转载 校招转正答辩突出什么样的能力更受青睐?
组里排第一的同学,来了做的第一个任务是让其做一个用户意图聚类,一开始mt给了一个方案,其实并不复杂,大模型抽取q,然后emb聚类,大模型总结和统一,反复进行,最后得到结果。现在的学生水平都很高,很快就做出来了。但是他自己聚类出来之后,人工check了所有数据,然后自己也不懂,无法评价好坏,其实mt只是要求他给聚类结果就行,但是他自己去把原始数据抽验了一遍,发现mt给的数据还不足以总结出客户真实的意图,于是自己设计了一个覆盖率评测标准,做了一版本评估,给出了数字告诉mt这个方案不可行,需要换数据方案。
2025-08-28 02:21:23
79
转载 第一性原理
忽略现有经验、行业惯例的干扰,将问题拆解为无法再分割“基础要素”,再从这些要素出发,重新推导、构建解决方案。要理解第一性原理,核心是跳出 “经验类比” (一种通过参考已有的类似经验、先例或普遍做法来理解新问题、做出决策或预测结果的思维方式)的惯性,回归事物的底层本质,通过拆解基础要素、重构逻辑来解决问题。它并非否定经验,而是在经验失效、需要创新或突破时,提供 “从根上解决问题” 的思维工具。运用第一性原理思考,需遵循一个清晰的“破而后立”的过程,如下图所示:这个过程看似简单,实则反人性,因为它。
2025-08-21 19:58:48
321
原创 双重机器学习DML介绍
正交化:通过残差化剥离协变量X的影响,确保T~ 和 Y~ 与X正交。交叉拟合:避免过拟合,提高估计的稳健性。Neyman正交性:对第一阶段模型偏误不敏感,保证无偏性。机器学习灵活性:支持非线性模型(如随机森林、神经网络),适应复杂数据结构。
2025-08-21 15:30:31
2281
原创 因果推断中的元学习器:T-learner、S-learner、X-learner
特性T-learnerS-learnerX-learner因果森林模型数量2个独立模型1个模型3个模型(初始+2残差)多棵决策树处理组不平衡敏感(小样本组效果差)鲁棒(共享参数)改进(残差加权)鲁棒(自动划分亚组)计算效率高(并行训练)高(单模型)中(分阶段训练)低(需多棵树)适用场景处理组/对照组均衡特征与T强相关处理组/对照组不均衡存在效应异质性典型库自定义实现econml/grf。
2025-08-20 15:38:21
1005
转载 逆概率加权(IPW)
参考:https://blog.youkuaiyun.com/xiang_gina/article/details/149710556
2025-08-19 17:30:08
156
转载 什么样的人一眼看去前途无量?
每个成年人貌似都在随着自己的心意做选择,但其实不是的,大多数人虽然脑子是自己的,但做决策的方式却是外界灌输的,看似是个人意志,实则是对外的无意识继承。这就是典型的没有自建价值体系,所以对待自己最宝贵的时间和心力资产是不重视的,会挥霍,缺乏目标,野心也只不过是膨胀过后的欲望,不是自己内心真正的渴求。你要是能搞定自己的身体,不乱造不自我毁灭,保持持久高效的战斗力,那生活中的一切挑战基本都算是鸡毛蒜皮。真正的强者,很擅长搞定自己的身体,精力是一切的起点,一个人事业前途的高度,约等于自我经营的能力的强度。
2025-08-17 02:42:14
41
原创 RCT数据 vs 观测数据 vs A/B数据
通过严格的随机分配消除混杂变量,确保处理组与对照组在基线特征上均衡可比。研究者主动控制干预(如药物、政策)。示例:新药临床试验中,患者随机分入药物组或安慰剂组。验证干预效果(选RCT/A/B测试) vs. 探索自然关联(选观测数据)。
2025-08-14 11:28:21
701
原创 pandas.DataFrame中axis参数
例如:df.sum(axis=0) 会对列 A 和列 B 分别求和,结果是 A=4, B=6。例如:df.sum(axis=1) 会对行 0 和行 1 分别求和,结果是 0=3, 1=7。明确axis=0与axis=1的区别和联系,
2025-07-08 14:51:47
286
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅