项目相关的深度学习
深度学习:图像识别和自然语言处理。
虽然深度学习领域的研究人员相比其他机器学习领域更多的受到了大脑工作原理的启发,而且媒体界也经常强调深度学习算法和大脑工作原理的相似性,但现代深度学习发展并不拘泥于模拟人脑神经元和人脑的工作原理。模拟人脑也不再是深度学习研究的主导方向。不应该认为深度学习是在试图模仿人类的大脑。目前科学家对人类大脑学习机制的理解还不足以为当下的深度学习模型提供指导。
现代的深度学习已经超越了神经科学的观点,它可以更广泛地适用于各种并不是由神经网络启发而来的机器学习框架。有一个领域的研究者试图从算法层理解大脑的工作机制,它不同于深度学习领域,被称为“计算神经学”(computational neuroscience)。深度学习领域主要关注如何建立更准确的模型来模拟人类大脑的工作。
项目相关方面:
一、图像识别
图像标注:根据图片生成描述文字(例如标注图片:“两个小孩在玩玩具”),借助“语义概念”检索感兴趣图像,在图像搜索领域有广泛应用,主要实现方法有CNN,RNN等。
设想:当用深度学习直接对图片进行聚类效果不好的话,尝试利用图片生成文字,然后再利用机器学习算法或者深度学习进行聚类。
图像标注是图到文字,还可以实现文字到图。(感觉用不上)
1、 知乎用户头像聚类
知乎用户情况(60万用户,核心用户为种子爬取):知乎是2010年12月开放,截止至2017年3月,已拥有6900万注册用户,创造了1500万个问题、5500万个回答和25万个话题了。男性过半,IT、互联网、大学生为主,互联网和计算机软件和超50%,加上电子商务和电子游戏几乎是全部了。企业主要是BAT等著名的互联网企业,城市主要是北上广深杭。爬取知乎60万用户信息之后的简单分析 - 知乎
知乎头像情况:默认头像和人物头像居多,还有一些卡通人物头像、风景、公司logo等。
数据集可以自动生成,打算利用深度学习分类图片,改进所用算法中某一层的函数,替换成其他高效的函数等。网上对图片进行聚类可以利用自动编码机或者RBM(受限玻尔兹曼机)来做。或者利用网上的一些有标签的数据来做。
RBM: http://blog.youkuaiyun.com/mytestmy/article/details/9150213/
图片分类用CAFFE做:有标签如何用caffe训练图像分类深度学习模型 - 知乎
CVPR2016 Paperlist:论文阅读:CVPR2016 Paper list_一亩半分地-优快云博客
深度学习资料大全http://www.360doc.com/content/15/1013/23/2459_505464437.shtml#
2、 存在的问题
头像和用户行为之间的联系并没有那么直接,通过头像做推荐意义不大。不如直接分析用户相关行为来进行推荐更有针对性。比如QQ进行好友推荐会根据共同好友个数、手机通讯录、距离(附近的人)等进行推荐,而不会根据头像来推荐好友(如果根据头像来做,我想和根据摇一摇来找好友差不到哪儿去,认识同一类头像的陌生人?)。除非用户其余信息空白,只有头像,那倒是可以用头像来进行推荐,但是这种情况毕竟很少。或许会有奇迹,但是会很艰辛。
但是头像或许能作为一个因素和其他因素一起进行学习。大致能提高一点。如果把结点的各种属性综合起来。
既然是根据图片来推荐,那做跟图片关系很大的事物的推荐比较有效吧。比如说给淘宝用户推荐商品,根据用户浏览的商品的图片来推荐相似商品?(但是实际上淘宝商品应该是商品->文字->图片)但是数据集是一个问题。总是在产生各种各样的想法,假设,论证,推翻,否定推翻…..停不下来。实践出真知,先把能做的做了再看。
二、自然语言处理
参照一。
三、总结
深度学习并不是黑盒子,只不过能从海量数据中提取一般机器学习所不能提取的复杂特征罢了,不过调参方面的确很靠经验,但是也有相关的文献。