2014 总结
印象中一年的结尾以春节为标志,2014的春节却特别晚,如果算上放年假,过完春节已经是三月了,一个季度已经过去了,如果等到那个时候再写写2014的总结未免也太迟了虽然一直都是拖延症.突然发现已经半年没有更新过了,无比汗颜......
好像才刚刚习惯写日期的时候用2014,可是日历已经翻到2015了,每年都会感觉时间过的如此的快,时间就在这种不断的习惯中流走吧。
每次都希望能好好写一下年终总结,每次都以忙为接口一拖再拖,最后就没有最后了,这一次无论如何还是动笔了,希望这也是希望2015有一个好的开始吧
如果要总结也需要回顾太多的零碎,好像有很多但是又不知道从哪里开始,记忆一直不好,按照时间顺序可能还是要容易一些吧
2014元旦,正式从一家公司离职了,总的说来这家还是不错,虽然环境还不错,但是工作内容还是比较枯燥,和在我看来有点变态的管理但是既然有了自己的选择还是坚持自己的选择吧。
不过2014的事情还是能找到明显的分界线,经过了一阵迷茫之后终于还是有所决定。
在上家公司的工作内容主要是Java,但是同时有不少量的C代码,据说现有的java是那帮做C的人写的,因此看到的都是结构化的JAVA代码,这可能是看过这么多的JAVA中最奇葩的一次了。
倒是C写的很不错。然后有搞了一下.NET. 现在已经一点都记不起.net 要怎么写了。 总之,代码很多,很杂,好多都看不懂,业务也不熟悉。总之感觉实在是建立不起来什么兴趣吧。
倒是C写的很不错。然后有搞了一下.NET. 现在已经一点都记不起.net 要怎么写了。 总之,代码很多,很杂,好多都看不懂,业务也不熟悉。总之感觉实在是建立不起来什么兴趣吧。
一直以来都对machine learning 有很大的兴趣,正好朋友的公司需要做大数据的人员,那么就去试一试的态度去看了,感觉正好符合自己的兴趣,那么就去谈了谈,下来感觉还不错,于是决定离开去做自己喜欢的事情了。
2014元旦后,终于离开了这个公司,但是同事们都非常的nice,合作也算愉快.
就是用这样一种方式开始了我的2014.
过了春节已经是2月份了,中间的这段时间,猛补数学基础,把andrew ng 在2007年的机器学习课程学习完了。这算是感觉做的最有成就感的一件事情了吧。
2014元旦后,终于离开了这个公司,但是同事们都非常的nice,合作也算愉快.
就是用这样一种方式开始了我的2014.
过了春节已经是2月份了,中间的这段时间,猛补数学基础,把andrew ng 在2007年的机器学习课程学习完了。这算是感觉做的最有成就感的一件事情了吧。
从稍微简单的logistic 回归做分类开始,到指数分布的一般形式,开始还算比较容易。
然后是k-means 算法做引子,引出了mix gaussion ,最后是EM算法的思想,这部分的公式推导花了大概2个星期吧,到编码实现完成,大概又用了3个星期吧。总之是非常长的时间了
然后是因子分析,然后是主成分分析,以及SVD等东西。
然后又做了蒙特卡罗采样分析,对任意概率分布进行采样的,最后也写了一个小东西来模拟多元高斯分布的采样,其实也就只是二元啦。中间还看了一下决策树的做法。
等这些东西搞完,课程进入到了reinforce learning. 通过对环境的适应自动学习到参数。这部分看视频的时间是最多的了,公式的推导也比较多,同时这部分是最有趣的部分吧
搞完这些东西,又发现还有更多的东西还没有搞然后又陆续看了HMM模型,当然推导也是相当的繁琐,只看了原理,代码也没有自己写了,在网上找了一些源码调试一下,现在看来,还是要自己动手写写,这样理解的要深刻的多。
再后面又去凑热闹,看了深度学习的内容,有 hinton 的RBM模型,也看了ng 的自编码模型介绍,同时关注了 pluskid 和 Rachel-Zhang的博客,当然还有很多其他很棒的博客。然后就继续挖自编码的坑,知道了压缩感知、稀疏编码,然后是陶哲轩等牛人,然后矩阵填充,然后关注了N多的博客。
这些做完的时候,差不多已经到7月份了。路越走越远,坑越来越多,却发现虽然都看过了,但是在应用上还是没有迈出去一步。同时理论上的东西也掌握不深,只是了解,最多的是有点熟悉了吧。
NLP 的处理这部分没有深入了解过,只看了52nlp的博客,对LDA模型有个基本的认识,或者可以做为2015的一个计划吧。
在工作层面,因为涉及到做大数据产品,其实一直都是处在预研阶段,虽然一直没有出产品,也许领导门也没想好方向吧,但是这段时间也是非常宝贵的,基本上都是围绕hadoop生态体系来做了解和做demo.
最开始做日志采集,做了 flume + elasticsearch .然后就是 solr 的研究,因为正好有一个项目做数据库查询非常慢,需要把数据做全文索引加快查询速度。
然后是hadoop 的核心部分,yarn 的原理分析与应用,当时想的是可以把多种系统可以部署在yarn 上面运行,因此研究了yarn 的架构以及部分源码,同时搞了一下apache的孵化项目slider. 目标是可以在yarn 上面部署多套hbase.以及多套storm. 最后把hbase部署成功了,storm 多套还有点问题。正好此时项目需要,研究就到此为止了。
中间也搞过一段时间的storm ,准备用来做日志分析,但是最后也不了了之。在整个这个过程中,预研的项目非常多,几乎看过了所有的hadoop体系的东西,像hbase、hive、pig、impala、presto oozie 等等等,弄完了hontorworks ,又弄了cloudera. 总之,涉及的面非常广泛。
从个人的层面来说,这也好事。到这个时候已经9月了。但是从公司的层面来说,确实还是属于没有找到方向。
9月后,有了项目,然后整个计划从产品上调整到项目上。好像似乎已经忘记了要做产品吧。总之就是定制化的需求吧。
9月后,有了项目,然后整个计划从产品上调整到项目上。好像似乎已经忘记了要做产品吧。总之就是定制化的需求吧。
项目说起来也不复杂,主要的目标就是把关系数据库的数据抽取到hadoop上,基本上都用的sqoop工具吧。当然各种版本,各种bug。
后面的时间然后就是一直忙碌的状态。没有时间去做machine learning. 没有时间做应用,甚至没有太多的时间去思考。或许在公司就是这样身不由己吧。
中间会过几次前同事、朋友,大部分都还是正常上班,也有好几波人去搞手游公司了,据说其中还有月入百万的,人跟人差别还是挺大的。只是朋友的聚会时间越来越少了吧。
2014可以分为明显的上半年和下半年,从上半年的闲暇状态切换到下半年的紧张模式,还是真的挺难适应。
2014 开始学会去认真听喜欢的歌,练过几天二胡,还去买了一把吉他,可惜也没时间练习,好吧,我又找借口了,总之,时间就是这样就流走了。
后面的时间然后就是一直忙碌的状态。没有时间去做machine learning. 没有时间做应用,甚至没有太多的时间去思考。或许在公司就是这样身不由己吧。
中间会过几次前同事、朋友,大部分都还是正常上班,也有好几波人去搞手游公司了,据说其中还有月入百万的,人跟人差别还是挺大的。只是朋友的聚会时间越来越少了吧。
2014可以分为明显的上半年和下半年,从上半年的闲暇状态切换到下半年的紧张模式,还是真的挺难适应。
2014 开始学会去认真听喜欢的歌,练过几天二胡,还去买了一把吉他,可惜也没时间练习,好吧,我又找借口了,总之,时间就是这样就流走了。
2014 看过的书
《 PRML 模式识别与机器学习 》,这本算是看得比较多的吧,其实好多也没看懂。
《 Convex 凸优化》,发现机器学习算法里面用到的基本上都是这些东西,特别是梯度下降,线搜索这些,当然还没有看完。
《Numeration optimization 》数值优化 大多也是跟凸优化相关的吧。
都是淘宝上买的复印版,买正版可太贵了,都是上千人民币。 其他的也买了不少,但是看的还是比较少。
当然也看了不少的电影,不知道从什么时候起,对看电影电视剧有这么大的瘾
能有印象的,貌似也只有几部吧
超验黑客
美国队长2
X-MAN
貌似都跟大数据,机器学习有关才记得住吧,可能是看的太多了。
其他的还看了
猿星崛起一、二
大多都是科幻片吧
星运里的错 , 一部比较悲催的爱情电影,但是特喜欢,或者跟自己的经历有关吧, 也因此觉得特幸福。
2014 ,开始习惯做笔记了,这是值得继续的地方。其实也是因为记忆力越来越差了吧。
《 PRML 模式识别与机器学习 》,这本算是看得比较多的吧,其实好多也没看懂。
《 Convex 凸优化》,发现机器学习算法里面用到的基本上都是这些东西,特别是梯度下降,线搜索这些,当然还没有看完。
《Numeration optimization 》数值优化 大多也是跟凸优化相关的吧。
都是淘宝上买的复印版,买正版可太贵了,都是上千人民币。 其他的也买了不少,但是看的还是比较少。
当然也看了不少的电影,不知道从什么时候起,对看电影电视剧有这么大的瘾
能有印象的,貌似也只有几部吧
超验黑客
美国队长2
X-MAN
貌似都跟大数据,机器学习有关才记得住吧,可能是看的太多了。
其他的还看了
猿星崛起一、二
大多都是科幻片吧
星运里的错 , 一部比较悲催的爱情电影,但是特喜欢,或者跟自己的经历有关吧, 也因此觉得特幸福。
2014 ,开始习惯做笔记了,这是值得继续的地方。其实也是因为记忆力越来越差了吧。
2015, 希望有一个好的开始吧!!!