
学习笔记
文章平均质量分 94
J-JunLiang
一个热爱挖掘的数据从业者,勤学好问、动手达人,公仔厂的一位码农,期待与大家一起交流探讨机器学习相关内容~
展开
-
假设检验总结
1.符合正态分布,总体均值和方差已知的单个样本假设检验:均值差异的显著性检验例子:有一个婴儿服用维他命后8个月会走路,检验服用维他命对加快婴儿走路是否有效2.一组样本的假设检验例子:有25个学生学完传播学,检验传播学是否会改变填充词的频率这里不是关注单个人在总体的分布中的位置,而是关注一群人,所以不能把整体的分...原创 2020-03-22 23:09:43 · 4205 阅读 · 0 评论 -
TensorFlow之循环神经网络&自然语言处理 学习总结
作者:jlianghttps://blog.youkuaiyun.com/jliang3junliang 20190303说明:以下所有代码使用版本TensorFlow1.4.0或1.12.0版本import tensorflow as tfprint(tf.__version__)1.12.08. 循环神经网络TensorFlow中实现LSTM结构的循环神经网络的前向...原创 2019-03-07 19:52:19 · 3182 阅读 · 2 评论 -
TensorFlow之高层封装(TensorFlow-Slim、TFLearn、Keras、Estimator)学习总结
作者:jlianghttps://blog.youkuaiyun.com/jliang3说明:以下所有代码使用版本TensorFlow1.4.0或1.12.0版本import tensorflow as tfprint(tf.__version__)1.12.010.TensorFlow高层封装TensorFlow的高层封装有很多10.1 TensorFlow高层封装总...原创 2019-03-09 17:18:29 · 2460 阅读 · 0 评论 -
TensorFlow之变量管理及模型持久化 学习总结
作者:jlianghttps://blog.youkuaiyun.com/jliang3TensorFlow实战Google深度学习框架学习笔记说明:以下所有代码使用版本TensorFlow1.4.0或1.12.0版本import tensorflow as tfprint(tf.__version__)1.12.05. MNIST数字识别问题5.1 MNIST数据处理MNIST数据集是...原创 2019-03-03 16:53:56 · 398 阅读 · 0 评论 -
TensorFlow之深层神经网络 学习总结
作者:jlianghttps://blog.youkuaiyun.com/jliang3TensorFlow实战Google深度学习框架学习笔记说明:以下所有代码使用版本TensorFlow1.4.0或1.12.0版本import tensorflow as tfprint(tf.__version__)1.12.04. 深层神经网络4.1 深度学习与深层神经网络维基百科对深度学习的精...原创 2019-03-02 17:26:20 · 358 阅读 · 0 评论 -
TensorFlow入门 学习总结
junliang 20190301说明:以下所有代码使用版本TensorFlow1.4.0或1.12.0版本import tensorflow as tfprint(tf.__version__)1.12.03.TensorFlow入门3.1TensorFlow计算模型–计算图TensorFlow是一个通过计算图的形式来表述计算的编程系统,每一个计算都是计算图上的一个节点,而节点...原创 2019-03-01 20:49:23 · 2075 阅读 · 0 评论 -
《深度学习工程师-吴恩达》04结构化机器学习项目--机器学习(ML)策略1 总结 (如何进一步优化系统的方法论)
作者:jlianghttps://blog.youkuaiyun.com/jliang3《深度学习工程师-吴恩达》04结构化机器学习项目--机器学习(ML)策略1 学习总结1.重点归纳1)ML策略(机器学习策略)就是如何构建你的机器学习项目,目的是快速有效的方法能够判断哪些想法是靠谱的,或者甚至提出新的想法,判断哪些值得一试的想法,哪些是可以放心舍弃的。2)正交化(1)正交...原创 2019-02-17 16:36:04 · 3695 阅读 · 0 评论 -
《深度学习工程师-吴恩达》04结构化机器学习项目--机器学习(ML)策略2 笔记(如何进行误差分析)
作者:jlianghttps://blog.youkuaiyun.com/jliang3《深度学习工程师-吴恩达》04结构化机器学习项目--机器学习(ML)策略2 学习笔记1.重点归纳1)误差分析:如果算法还达不到理想效果,那么人工检查一下算法所犯的错误,也许可以让你了解接下来应该做什么,这个过程称为误差分析。(1)例子:一个取得90%准确率猫分类器,注意到有部分狗样本被识别为猫,使...原创 2019-02-21 20:39:06 · 7539 阅读 · 0 评论 -
《深度学习工程师-吴恩达》03卷积神经网络—特殊应用:人脸识别和神经风格转换 总结
作者:jlianghttps://blog.youkuaiyun.com/jliang3《深度学习工程师-吴恩达》03卷积神经网络—特殊应用:人脸识别和神经风格转换 学习总结1.重点归纳1)人脸识别(1)人脸验证:输入图片以及某人ID/姓名,系统会验证输入图片是否这个人,1对1问题(2)人脸识别:1对多问题,输入图片验证图片是否为已有用户。比验证问题复杂多了,准确率为99%的验证...原创 2019-01-22 21:19:04 · 1871 阅读 · 0 评论 -
特征选择/筛选方法总结
作者:jlianghttps://blog.youkuaiyun.com/jliang31.特征选择介绍1)特征分类相关特征:对于学习任务(例如分类问题)有帮助,可以提升学习算法的效果; 无关特征:对于我们的算法没有任何帮助,不会给算法的效果带来任何提升; 冗余特征:不会对我们的算法带来新的信息,或者这种特征的信息可以由其他的特征推断出;2)特征选择的目的对于一个特定的学习算法...原创 2019-03-30 14:51:16 · 83784 阅读 · 6 评论 -
降维算法总结
作者:jlianghttps://blog.youkuaiyun.com/jliang31.降维简介1)相关背景(1)在许多领域的研究与应用中,通常需要对含有多个变量的数据进行观测,收集大量数据后进行分析寻找规律。多变量大数据集无疑会为研究和应用提供丰富的信息,但是也在一定程度上增加了数据采集的工作量。 更重要的是在很多情形下,许多变量之间可能存在相关性,从而增加了问题分析的复杂性。 ...原创 2019-03-30 19:35:50 · 31589 阅读 · 3 评论 -
特征工程系列:数据清洗
特征工程系列:数据清洗原创:JunLiang 木东居士前天特征工程系列:数据清洗本文为数据茶水间群友原创,经授权在本公众号发表。关于作者:JunLiang,一个热爱挖掘的数据从业者,勤学好问、动手达人,期待与大家一起交流探讨机器学习相关内容~0x00 前言数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。由此可见,特征工程在机器学习中占有相当重要的地...原创 2019-08-02 19:14:54 · 1334 阅读 · 0 评论 -
数据挖掘之统计学基础(1):【理论】描述性统计
0x00前言描述性统计是一种汇总统计,用于定量描述或总结信息集合的特征。描述性统计的对象既可以是总体,也可以总体的一部分即是样本。描述性统计分为集中趋势和离散趋势。0x01集中趋势集中趋势又称 “数据的中心位置”,集中趋势反映了数据向其中心值聚集的程度,是对数据一般水平的概括性度量,主要通过平均值、中位数和众数来表示。1.众数出现频次最高的观测值。例子:数据集[...原创 2019-07-17 12:39:14 · 4326 阅读 · 0 评论 -
卡方检验学习总结
1.卡方检验概念1)卡方检验是一种用途很广的计数资料的假设检验方法,由卡尔·皮尔逊提出。(1)它属于非参数检验的范畴,主要是比较两个及两个以上样本率( 构成比)以及两个分类变量的关联性分析。(2)其根本思想就是在于比较理论频数和实际频数的吻合程度或拟合优度问题。(3)卡方值描述两个事件的独立性或者描述实际观察值与期望值的偏离程度。卡方值越大,表名实际观察值与期望值偏离越大,也...原创 2019-07-11 21:34:57 · 26255 阅读 · 1 评论 -
《数据驱动 从方法到实践》 之数据驱动产品和运营决策 学习总结
1.数据驱动运营监控1)创业公司需要关注的指标:Acquisition(触达)、Activation(激活)、Retention(留存)、Referral(引荐)、Revenue(营收),简称AARRR。2)用户获取(Acquisition)(1)衡量各渠道ROI是重中之重,甄选出最优渠道才能实现营销资源和营销渠道的把控。(2)通过用户行为数据分析,可以科学评估数字营销各渠道...原创 2019-05-29 12:57:31 · 3346 阅读 · 0 评论 -
《硅谷增长黑客实战笔记》我的制定增长作战计划 学习总结
作者:jlianghttps://blog.youkuaiyun.com/jliang31.制定增长作战计划1)增长成功的秘诀不在于同时做很多事,而在于找到目前影响增长率的最关键的那一两件事。找到“做什么”和“怎么做”比“做”本身要重要得多。2)增长作战计划的关键(1)方向标:北极星指标(2)路线图:增长模型(3)仪表盘:关键指标看板(定量数据)(4)参考书:用户心理决策...原创 2019-04-18 10:14:55 · 1004 阅读 · 0 评论 -
《硅谷增长黑客实战笔记》我的增长黑客旅程 学习总结
作者:jlianghttps://blog.youkuaiyun.com/jliang31.增长经理的职责1)搭建数据基础设施,定义增长目标,提供用户洞察,排序增长项目,设计并上线实验。将原先各自为政的产品开发和营销智能有机整合起来。2)传统产品经理与增长产品经理的区别(1)传统产品经理负责产品开发流程,他们更多的是以解决方案为导向;(2)增长产品经理,虽然遵循类似的流程,来上线功能或...原创 2019-04-11 20:25:04 · 2207 阅读 · 0 评论 -
P-R曲线与ROC曲线使用总结
P-R曲线与ROC曲线总结作者:jlianghttps://blog.youkuaiyun.com/jliang31.P-R曲线1)实际预测时二分类的四种情况 真阳性/真正类(True Positive,TP):预测为正类,实际是正类; 假阳性/假正类(False Positive,FP):预测为正类,实际是负类;误报,给出的匹配是不正确的; 真阴性/真负类(Tr...原创 2019-03-28 23:51:02 · 6812 阅读 · 0 评论 -
《深度学习工程师-吴恩达》05序列模型—序列模型和注意力机制 学习总结
《深度学习工程师-吴恩达》05序列模型—序列模型和注意力机制 学习笔记作者:jlianghttps://blog.youkuaiyun.com/jliang31.重点归纳1)基础模型(1)Sequence to sequence翻译模型 (2)Image to sequence图像描述模型:输入一张图片,它能自动地输出图片的描述 2)机...原创 2019-04-07 16:21:38 · 1071 阅读 · 0 评论 -
《深度学习工程师-吴恩达》05序列模型--自然语言处理与词嵌入 总结
作者:jlianghttps://blog.youkuaiyun.com/jliang3《深度学习工程师-吴恩达》05序列模型--自然语言处理与词嵌入 学习总结1.重点归纳1)词汇表征 (1)词嵌入是语言表示的一种方式,可以让算法自动理解一些类似的词,...原创 2019-02-01 16:30:56 · 2184 阅读 · 0 评论 -
《深度学习工程师-吴恩达》05序列模型--循环序列模型 总结
作者:jlianghttps://blog.youkuaiyun.com/jliang3《深度学习工程师-吴恩达》04序列模型--循环序列模型 学习总结1.重点归纳1)循环神经网络(RNN)(1)循环神经网络(RNN)之类的模型在语音识别、自然语言处理和其他领域中一起变革,它属于监督学习,X和Y有时会不一样长,有时候会一样长。(2)例子:语音识别、音乐生成、文本情感分...原创 2019-01-26 18:34:47 · 1082 阅读 · 0 评论 -
《推荐系统三十六式》内容推荐 学习总结
作者:jliang https://blog.youkuaiyun.com/jliang3 1.重点归纳1)用户画像是对用户信息的向量化表示,而且用户画像是给机器看的,而不是给人看的。2)用户画像的关键元素是维度和量化,用户画像是跟着使用效果走,用户画像本身不是目的。3)构建用户画像的手段:查户口做记录、堆数据作统计、机器学习黑盒子。4)文本数据用户画像过程(1)分析用户...原创 2018-12-25 12:47:18 · 2707 阅读 · 0 评论 -
《统计学习方法(李航)》集成学习(内容有拓展)学习总结
作者:jlianghttps://blog.youkuaiyun.com/jliang3 1.自助法(Bootstrap)1)自助法是一种有放回的抽样方法。核心思想是从原样本集有放回抽取N个子集,训练N个分类器,进行集成。2)Bagging和Boosting都是Bootstraping思想的应用。2. 袋装法(Bagging)1)特点:各个弱学习器之间没有依赖关系,可以并行拟合...原创 2018-12-23 22:22:47 · 596 阅读 · 0 评论 -
《统计学习方法(李航)》支持向量机学习总结
作者:jlianghttps://blog.youkuaiyun.com/jliang3 1.重点归纳1)支持向量机(SVM)是一种二分类模型 (1)它的基本模型定义在特征空间上的间隔最大化的线性分类器,间隔最大使它有别于感知机(感知机的损失函数只判断是否正确分类)。(2)SVM还包含核技巧,使它称为实质上的非线性分类器。(3)学习策略:间隔最大化,最终可转化为一个凸二次规划问题进...原创 2018-12-23 22:11:31 · 460 阅读 · 0 评论 -
《统计学习方法(李航)》逻辑斯蒂回归与最大熵模型学习总结
作者:jlianghttps://blog.youkuaiyun.com/jliang3 1.重点归纳1)线性回归(1)是确定两种或以上变量间相互依赖的定量关系的一种统计分析方法。(2)模型:y=wx+b(3)误差函数:(4)常见求解方法最小二乘法 梯度下降法 其它算法:牛顿法或拟牛顿法(5)最小二乘与梯度下降法关系最小二乘法看作优化方法的话,那么梯度下降法是求解...原创 2018-12-23 21:49:39 · 475 阅读 · 0 评论 -
《统计学习方法(李航)》决策树学习方法 学习总结
作者:jliang https://blog.youkuaiyun.com/jliang3 1.重点归纳 1)特征选择依据 ID3:信息增益最大: C4.5:信息增益比最大: ,n为特征A的取值个数,Di为特征A第i个取值的集合 CART:基尼指数/平方误差最小 对于特征A的基尼指数: 基尼指数: 平方误差: 2)损失函数 ID3/C4.5:(各结点的熵) CAR...原创 2018-12-23 21:45:32 · 974 阅读 · 0 评论 -
《统计学习方法(李航)》朴素贝叶斯学习总结
作者:jlianghttps://blog.youkuaiyun.com/jliang3 1.重点归纳1)朴素贝叶斯(naive Bayes)法只能用于分类,先基于特征条件独立假设学习输入/输出的联合概率分布,然后对给定的输入x,利用贝叶斯定理求出后验概率最大的输出y。2)损失函数:0-1损失函数3)目标函数:后验概率最大化4)属于生成式模型5)联合概率分布:6)贝叶斯...原创 2018-12-23 21:16:34 · 584 阅读 · 0 评论 -
《统计学习方法(李航)》k近邻 学习总结
作者:jlianghttps://blog.youkuaiyun.com/jliang3 1.重点归纳 1)k近邻是一种基本分类与回归方法,不具有显式的学习过程。2)模型由三个基本要素决定:距离度量、k值选择和分类决策规则。3)k近邻法最简单的实现方法是线性扫描,当训练集很大时,计算非常耗时。为提高搜索效率,可以使用特殊的结构(kd树)存储训练数据,以减少计算距离的次数。2.k近邻...原创 2018-12-23 21:08:59 · 381 阅读 · 0 评论 -
《统计学习方法(李航)》感知机学习总结
作者:jlianghttps://blog.youkuaiyun.com/jliang31.重点归纳1)感知机是二分类的线性分类模型2)经验风险函数/损失函数, M为误分类点3)学习策略, M为误分类点4)感知机是误分类驱动的,具体采用随机梯度下降法求解。5)感知机存在许多解,这些解依赖于初值的选择,也依赖于迭代过程中误分类点的选择顺序。2.感知机模型1)感知机是二分类的线...原创 2018-12-23 21:03:14 · 356 阅读 · 0 评论 -
推荐系统三十六式:近邻推荐 学习总结
作者:jliang https://blog.youkuaiyun.com/jliang3 1.重点归纳1)协同过滤算法分两类:(1)基于记忆的协同过滤:就是记住每个用户消费过的物品,然后给他推荐相似的东西,或者推荐相似的人消费的东西。(2)基于模型的协同过滤:从用户物品关系矩阵中学习一个模型,从而把矩阵空白处填满。2)基于人的协同过滤的步骤(1)准备用户向量,构造稀疏矩...原创 2018-12-25 12:57:44 · 1209 阅读 · 0 评论 -
推荐系统三十六式:矩阵分解 总结
作者:jliang https://blog.youkuaiyun.com/jliang3 1.重点归纳1)评分预测问题只是很典型,其实并不大众,毕竟在实际的应用中,评分数据很难收集到;与之相对的另一类问题是行为预测才是平民级推荐问题。在真正的推荐系统的实际应用中,评分预测实际上场景很少,而且数据很少,相比预测评分,预测“用户会对物品干出什么事”会更加有效。2)矩阵分解(1)矩阵...原创 2018-12-25 13:09:06 · 2474 阅读 · 0 评论 -
《深度学习工程师-吴恩达》03卷积神经网络—深度卷积网络:实例探究 总结
作者:jlianghttps://blog.youkuaiyun.com/jliang3《深度学习工程师-吴恩达》03卷积神经网络—深度卷积网络:实例探究 学习总结1.重点归纳1)计算机视觉领域经典的神经网络(1)LeNet-5(2)AlexNet(3)VGG2)LeNet-5 这个网络很小只有60k个参数,而现代网络含有一千万到一亿个参数...原创 2019-01-15 19:44:38 · 3513 阅读 · 2 评论 -
《深度学习工程师-吴恩达》02改善深层神经网络--超参数优化、batch正则化和程序框架 总结
作者:jlianghttps://blog.youkuaiyun.com/jliang3《深度学习工程师-吴恩达》02改善深层神经网络--超参数优化、batch正则化和程序框架 学习总结1.重点归纳1)经常需要调试的神经网络参数,重要性由高至低罗列 学习率α Momentum算法参数β、mini-batch size、隐藏单元数量 层数、学习率...原创 2019-01-09 20:15:31 · 1096 阅读 · 2 评论 -
《深度学习工程师-吴恩达》03卷积神经网络—目标检测 总结
作者:jlianghttps://blog.youkuaiyun.com/jliang3《深度学习工程师-吴恩达》03卷积神经网络—目标检测 学习总结1.重点归纳1)目标定位(1)只是检测图像类型时,只需要使用softmax输出每种类型的概率即可。当需要检测图像类型并且其在图像中的位置时,还需要输出被检测对象的边界框参数bounding box。(2)输出label定义(图像...原创 2019-01-19 19:04:32 · 2850 阅读 · 0 评论 -
《深度学习工程师-吴恩达》03卷积神经网络—卷积神经网络 总结
作者:jlianghttps://blog.youkuaiyun.com/jliang3《深度学习工程师-吴恩达》03卷积神经网络—卷积神经网络 学习总结1.重点归纳1)神经网络解决的视觉问题(1)图片分类(2)目标检测(3)图片风格迁移2)卷积神经网络的padding(1)不进行padding时存在的问题图像会缩小 在边缘区域的像素点在输出中采用较少,意...原创 2019-01-12 18:36:02 · 1753 阅读 · 0 评论 -
《深度学习工程师-吴恩达》02改善深层神经网络--优化算法 总结
《深度学习工程师-吴恩达》02改善深层神经网络--优化算法 学习总结1.重点归纳1)Mini-batch梯度下降法(1)把训练集划分为多个子集,每个子集为一个mini-batch,使用每个mini-batch的数据进行训练,每次只需要处理一个mini-batch的训练集就能进行一步梯度下降法。(2)mini-batch梯度下降法比batch梯度下降法运行更快。(3)...原创 2019-01-07 13:25:38 · 812 阅读 · 0 评论 -
《深度学习工程师-吴恩达》02改善深层神经网络--深度学习的实用层面 总结
深度学习的实用层面 学习总结1.重点归纳1)数据划分(1)一般情况下我们会把数据分为训练集、验证集和测试集,但有些时候不需要无偏估计时只划分为训练集和测试集。(2)数据集比较少时,可以按60%,20%,20%的比例划分数据集。(3)数据集很大时,并不需要大量的数据(验证集)来选择模型,也不需要大量的数据(测试集)来评估模型。如100万的数据集可以按98%,1%,1%来划分...原创 2019-01-05 17:14:05 · 638 阅读 · 0 评论 -
DeepFM模型 学习总结
作者:jlianghttps://blog.youkuaiyun.com/jliang3 1.重点归纳1)CTR预估重点在于学习组合特征,包括二阶、三阶甚至更高阶,阶数越高越难学习。Google的论文研究结论:高阶和低阶的组合特征都非常重要,同时学习到这两种组合特征的性能比只考虑其中一种性能要好。2)模型演进历史(1)线性模型:LR、FTRL无法提取高阶的组合特征,依赖人工的...原创 2018-12-25 13:20:35 · 1967 阅读 · 0 评论 -
FM/FFM模型 学习总结
作者:jlianghttps://blog.youkuaiyun.com/jliang31.重点归纳1)FM和FFM模型凭借在数据量较大并且特征稀疏的情况下,仍然能够得到优秀的性能和效果,屡次在各大公司举办的CTR预估比赛中获得不错的战绩。2)FM旨在解决稀疏数据下的特征组合问题,使用矩阵分解的方法来求解参数,从而降低计算复杂度为线性。(1)模型:(2)损失函数回归问题:最小平...原创 2018-12-25 13:17:32 · 2322 阅读 · 0 评论 -
《统计学习方法(李航)》统计学习方法概论 学习总结
作者:jliang https://blog.youkuaiyun.com/jliang3 1.重点归纳1)统计学三要素(1)模型:就是所要学习的条件概率分布或决策函数(2)策略:从假设空间中选取最优模型,需要考虑按照什么样的准则学习或选择最优的模型(3)算法:求解最优化问题的算法2)损失函数(loss function)或代价函数(cost function)用来度量预...原创 2018-12-23 20:57:11 · 742 阅读 · 0 评论