
ML实战
JAVA技术分享官-乐乐
zzz
展开
-
数据挖掘竞赛总结——津南数字制造算法赛
用十天左右的时间参加了阿里天池最近的津南数字制造算法赛的赛场一,名次159,复赛都没进去,但是通过这次比赛,了解到了理论如何应用于实际,也发现了算法理论并不是实际应用唯一的部分。以下是我认为实际应用中重要的几个点: 1、异常值检测、处理。 2、特征的连续值和离散值处理。 3、特征工程——根据领域知识制造特征。 4、特征选择。 5、算法选择、参数调优。 在实...原创 2019-01-24 17:14:22 · 1509 阅读 · 17 评论 -
特征处理之一——如何处理连续型特征
对于传统的机器学习、数据挖掘问题,在CV、NLP领域之外,一般而言特征工程是很重要的。 对特征进行异常处理亦或是组合的时候往往需要考虑实际业务,但是在实际业务之外,也有那么一些常规的技巧可以遵循。 特征中的一大类别——连续型特征如何处理? 1、原始特征 没错,来句废话……连续型特征的原始形态就可以作为模型的输入,无论是linearRegression、神经网络,...原创 2019-01-31 00:28:01 · 3616 阅读 · 0 评论 -
jieba分词+wordcloud——《斗破苍穹》词云
效果图:环境:python、jieba、wordcloud。材料:《斗破苍穹》、背景图(背景图需要保证除了图案之外,其他地方是‘空白’,友情提示:空白是空白,不是看起来白,要保证像素值为0)jieba和wordcloud都可以通过pip install 来安装,很省事。结巴分词千言万语抵不过官方一句:https://github.com/fxsjy/jie...原创 2019-02-28 15:34:10 · 1493 阅读 · 0 评论 -
tensorflow高阶API——Estimator
tensorflow在DL社区火热,无论写个什么算法都要搞在tensorflow上面。我喜欢tensorflow的两个地方,一是分布式方便,二是跑GPU方便,然而tensorflow终究是个科学计算库,要在上面进行算法的研发和工程化,还是有点儿裸奔的感觉。 所以,我选择Estimator。 这是某tensorflow内部大佬公开演讲时拿出来的一个架构图,最底层一个分布式ten...原创 2019-02-25 14:31:58 · 1012 阅读 · 0 评论 -
推荐系统笔记之六——python实战LFM、BasicSVD、SVD++
上一章节讨论了数学中的SVD、机器学习中的SVD以及推荐系统中的SVD系列算法,今天我们用python来实战一下,知道原理,究竟该如何实现。LFM 首先是最简单的LFM(即 Funk SVD),首先原理我们是知道的,LFM的基本思想是使用两个矩阵P、Q的乘积来近似原始评分矩阵的。如何实现呢?(完整代码可以直接在我的github中下载或复制:https://github.com/...原创 2019-03-20 22:04:28 · 2149 阅读 · 0 评论 -
深度学习笔记之四——feature_column
1、numeric_column —— 代表连续数值类型的特征列。2、bucketized_column——将连续数值分箱,如:输入(1,2,3,4,5)按照(0,34,5)两个区间分箱,分箱成为(0,0,0,1,1)的onehot形式,即最终结果为:),( [1,0] #1 [1,0] #2 [1,0] #3 [0,1] #4 [0,1] #53、categor...原创 2019-04-22 08:51:06 · 1544 阅读 · 0 评论 -
深度学习笔记之三——tensorflow实现wide&deep模型
wide&deep模型原理十分简单,说白了就是wide类模型与deep类模型的组合(借鉴google paper,但是选用模型不同)。提出两个问题:1、什么是wide类、deep类?wide类模型一般指的是复杂度不高的线性模型,以LR最为常见。deep类模型一般指的是复杂度比较高、拟合数据能力强的神经网络,boosting、bagging类模型应该也是可以的。2、为什么...原创 2019-04-19 17:08:44 · 2725 阅读 · 4 评论 -
深度学习笔记之五——tensorflow的多值离散值特征的embedding
Embedding embedding是取代onehot的比较好的一种方式,与NLP中的word embedding有所区别,我们这里的embedding,仅仅是因为该特征unique值过多,onehot产生的矩阵过宽,所以取而代之使用embedding来减少维度。单值 回到题目,对于一般情形下的离散特征,我称之为单值离散值特征,如下: ...原创 2019-04-24 17:05:53 · 4822 阅读 · 1 评论 -
工作日常之 caffe+windows7+GPU 编译安装
caffe作为facebook的两大开源深度学习框架,其实早已经和facebook另一大深度学习框架pytorch合并了。但是我们作为学习者,了解这些著名框架的来龙去脉、原理使用还是有必要的。最近刚好有这方面的需求,顺便在我们的小服务器上编译了一个三年前版本的caffe。环境准备操作系统 :Windows 7 旗舰版GPU设备:NVIDIA Quadro M2000GPU...原创 2020-04-26 09:46:35 · 336 阅读 · 0 评论