- 博客(20)
- 资源 (1)
- 收藏
- 关注
原创 《商务与经济统计》贝叶斯定理笔记
不合格零件更可能来自哪个供应商?开始分析前,对所关心的事件给出初始估计,称为先验概率。然后,从样品等消息源获取新信息对先验概率修正,得到后验概率。问题: 假设制造厂从两个不同的供应商处购买零件,该工厂有65%的零件来自供应商1,35%的零件来自供应商2. 不合格产品历史情况如下表,不合格产品更可能来自哪个供应商?供应商合格产品百分率不合格产品百分率供应商1982...
2020-02-01 09:57:19
454
原创 《如何用数据解决实际问题》笔记(下)
《如果用数据解决实际问题》笔记(上)里写到数据分析流程包括:明确问题 —> 大致把握形状—> 锁定问题的关键—> 锁定原因 —> 讨论对策我们以tableau超市示例数据为例练习书中内容,数据包括订单日期、客户名称、产品类别、销售额、地区及利润等字段。第一步:锁定问题关键观察数据发现西北地区销售额一直较低,我们就来找找原因。第二步:锁定原因根据分解法,猜测西北...
2020-01-31 16:40:21
1967
原创 《如何用数据解决实际问题》笔记(上)
全书以找到汽车销量下降原因为例,总结了数据分析的流程。解决问题,你需要“流程”数据分析的目的是针对“原因是什么,需要采取什么行动”等问题得出结论。解决问题的流程:明确问题 —> 大致把握形状—> 锁定问题的关键—> 锁定原因 —> 讨论对策分解数据,找到问题的关键划定范围,即what型假设,从所有数据中找到问题的关键。不划定对象数据多个因素一起很难找...
2020-01-31 14:25:35
1329
原创 完美解决cuda安装 could not find compatible graphics hardware问题
为安装tensorflow-gpu,真是踩了很多坑。我的笔记本安装cuda10.0没问题,但是tensorflow-gpu怎么也安不上,放弃。改安装cuda9.0但是显示找不到图像硬盘,遂youtube翻到解决方案。设备管理器–显示适配器–详细信息–硬件id中找到硬件id,保存到一个txt文件中备用。出现cuda安装问题的页面不要关,最小化。找到cuda/display.driver文...
2019-04-09 15:21:06
13067
8
原创 mysql+python+pyecharts电商数据分析
数据来自天池数据集,淘宝2004年11月18日至12月18日用户行为数据,本文导入446000条数据到本地mysql用于分析。数据下载地址:https://tianchi.aliyun.com/dataset/dataDetail?dataId=46数据包括字段为user_id、item_id、behavior_type(1–点击,2–收藏,3–加购物车,4–支付)、user_geohash、...
2019-04-04 11:28:54
5072
1
原创 python+word2vec+随机森林 微博文本情感极性分析(一)
数据源:36万条微博文本,已标注情感。0:开心,1-3:低落或忧伤。本文只考虑情感正负极性。项目思路:分词后利用gensim.models.word2vec训练词向量,词向量表示训练集文本,分别用sklearn训练SVM及tensorflow训练CNN模型,模型调优、比较及评估。加载相关python包:import jiebaimport reimport pandas as pdfr...
2019-03-21 11:39:25
6441
5
原创 论文笔记1:《基于跨文章答案验证的多文章机器阅读理解》(ACL 2018) Yizhong Wang等
0 摘要真实网络数据的机器阅读理解(MRC)往往需要机器通过分析搜索引擎检索到的多个文章来回答问题。与单文章MRC相比,多文章MRC更具有挑战性,因为可能从不同文章得到多个混淆候选答案。为了解决者问题,本文提出端到端的神经网络,使得不同文章得到的候选答案可以基于它们代表的内容互相验证。具体地讲,我们的模型联合训练三个模块,即基于三个因素预测答案:答案的边界、答案内容及多文章间答案验证。实验结果...
2019-03-20 14:39:47
621
原创 kaggle笔记03:Google Analytics Customer Revenue Prediction
1. 定义问题预测顾客销售额综合的对数函数。yuser=∑i=1ntransactiony_{user} = \sum_{i=1}^{n}transactionyuser=i=1∑ntransactiontarget=ln(yuser+1)target = ln(y_{user} +1)target=ln(yuser+1)2. 数据准备把json格式的数据变成多个列json_...
2018-10-18 11:02:50
1728
原创 kaggle笔记02: Titanic: Machine Learning from Disaster(二)
参考:https://www.kaggle.com/ldfreeman3/a-data-science-framework-to-achieve-99-accuracy5. 模型建立。如何选择模型?sklearn官网上算法粗略选择图:根据上图,考虑SVC和ensemble clasifiers。本例建议从决策树、bagging、随机森林和boosting开始,因为好理解好调试,然...
2018-10-15 15:16:47
327
原创 kaggle笔记01: Titanic: Machine Learning from Disaster(一)
参考:https://www.kaggle.com/ldfreeman3/a-data-science-framework-to-achieve-99-accuracy1. 定义问题: 预测是否存活。as the saying goes, don’t put the cart before the horse. This sensational tragedy shocked the inter...
2018-10-12 10:59:01
292
原创 cs231n笔记05:神经网络训练(下)
lecture7梯度检查梯度检查很简单,将分析梯度与数字梯度相比较。事实上,很容易出错。 - 利用中心化梯度公式。 df(x)dx=f(x+h)−f(x−h)2hdf(x)dx=f(x+h)−f(x−h)2h\frac{df(x)}{dx}=\frac{f(x+h)-f(x-h)}{2h} 计算两次损失函数耗时更久一些,但梯度计算准确。 - 利用相对误差比较 如果数字梯度f′...
2018-08-28 11:54:36
250
原创 cs231n笔记04:神经网络训练(上)
lecture6前向传播计算举例。神经网络按层组织的重要原因是,这个结构可以通过矩阵运算简单高效评估神经网络。所有样本会被并行化高效计算出来。表达能力。神经网络全连接层定义了权重向量的函数族,这些函数表达能力是什么?不能用神经网络建模吗?事实上,一个隐含层的神经网络可以近似任何函数。那为什么采用更多层数的原因是,数学上可以近似,但实践中效果较差。实践中深度网络效果比单层网络好。3层比2层好...
2018-08-25 12:14:48
343
原创 cs231n笔记03:卷积神经网络
lecture5 CNN结构CNN与一般神经网络类似,特点就是图像在卷积网络中大幅减少了网络中的参数。普通神经网络是全连接结构,数据量大的话参数太多。既浪费资源,又容易过拟合。卷积层神经元按三维排列,深度、宽度、高度。卷积网络包含卷积层、池化层和全连接层。以CIRAR-10为例,Input是[32*32]的RGB图,维度为32*32*3。卷积层计算一小部分区域与权重的点积,如果...
2018-08-24 09:50:45
410
原创 cs231n 笔记02:反向传播与2-NN示例
lecture4 反向传播 反向传播链式计算梯度。常用激活函数:sigmoid函数将实数压缩到[0,1],tanh函数将实数压缩到[-1,1]。 sigmoid缺点:sigmoid函数饱和时梯度消失,神经元的激活在接近0或1处梯度几乎为0;sigmoid输出不是零中心的。如果输入神经元的数据总是正数,那么w的梯度在反向传播的过程中,要么全部是正数,要么全部是负数这会导致...
2018-08-23 11:15:29
358
原创 cs231n笔记01:线性分类、最优化
lecture1 课程介绍David Maris70年代阐述对计算机视觉的理解,首先是边缘和曲线,然后是2.5D,将深度信息或场景的不连续结合起来,最终将所有信息组合起来组成3D模型。计算机视觉,最早用几何体去识别物体,然后是图像分割,90年代用adaboost算法面部识别。21世纪前十年,基于特征识别图像,识别关键特征。开始出现重要的数据集用来做目标识别。2012年多伦多大学研发的七层...
2018-08-20 11:37:58
342
原创 西瓜书笔记05:聚类
聚类聚类性能评价外部指标,与某个参考模型进行比较。 定义聚类给出的簇划分C,参考模型簇划分C∗C∗C^{*},定义 ⎧⎩⎨⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪a=|SS|,b=|SD|,c=|DS|,d=|DD|,SS=(xi,xj)|λi=λj,λ∗i=λ∗jSS=(xi,xj)|λi=λj,λ∗i≠λ∗jSS=(xi,xj)|λi≠λj,λ∗i=λ∗jSS=(xi,xj)|λi≠λj,λ∗i...
2018-08-17 11:42:45
445
原创 西瓜书笔记04:集成学习
集成学习集成学习分为两大类: - 代表:boosting,个体学习器间存在强依赖,串行生成序列化方法。 - 代表:bagging,个体学习器间不存在强依赖,同时生成的并行化方法。Boosting先从训练集训练基学习器,根据基学习器的表现对训练样本进行调整,使先前基学习器做错的训练样本在后续受到更多关注,调整后的样本分布训练下一个基学习器,最终将基学习器加权结合。代表是Ada...
2018-08-16 16:27:02
222
原创 西瓜书笔记03:贝叶斯分类
贝叶斯分类@[后验概率|最大似然估计|贝叶斯分类|吉布斯采样]贝叶斯决策论 贝叶斯决策考虑如何基于概率和误判损失来选择最优的类别标记。贝叶斯判定准则:最小化总体风险,只需在每个样本上选择使条件风险R(c|x)最小的类别标记,即h∗(x)=argminR(c|x)h∗(x)=argminR(c|x)h^{*}(x)=argminR(c|x),R(c|x)为样本x分类为c的期...
2018-08-16 10:43:03
446
原创 西瓜书笔记02:支持向量基
支持向量基@[拉格朗日乘子法|对偶问题|KKT条件|核函数|hinge损失] 存在多个超平面将样本划分的情况下,选择对训练样本局部扰动容忍性最好的。间隔与支持向量划分超平面的法向量为w=(w1;w2;...;wd)w=(w1;w2;...;wd)w=(w_{1};w_{2};...;w_{d}),则超平面为wTx+b=0wTx+b=0w^{T}x+b=0。任一点x到超平面...
2018-08-15 15:26:21
259
原创 西瓜书笔记01:logistic回归、决策树
logistic回归@[回归|分类|极大似然|泰勒级数|牛顿法|Hessian矩阵|sigmoid函数] 线性模型可以用来回归学习,若要做分类就要找一个单调可微函数将分类标记y与线性回归预测值联系起来。如何求w和b?二分类任务中,sigmoid函数即可将预测值z转换为0/1值。其中,sigmoid function:y=11+e−zy=11+e−zy=\frac{1}{...
2018-08-15 09:22:37
759
Spark高级数据分析(完整高清)
2018-08-15
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人