3.13.2019 开题报告进展
特征:蛮力(brute-force)
样本:需解决正负样本不均衡问题(抽样)
数据:categorical features(os、app | time 等),count feature
需了解:LDA/NMF/LSA(应用、区别)
疑惑:
1.广告流量分析里,恶意、非主动的流量和因为推送了不适合广告的流量的基本区别在哪?感觉都是不会买的,为什么要进行区分呢?
后记:写个开题报告把自己写迷茫了也是无语。
3.19.2019 开题报告后续
导师问:用什么神经网络。
我懵了一下,然后疯狂的搜索了一波。第一感觉是怀疑智商,有的都是以前看得懂的东西,现在要看的时间翻倍了。然后在我考研的一年出了很多新东西,被迫输入过多信息的感觉。我大概是win系统,而不是mac os,希望有朝一日能够变成linux。
CNN,RNN都是非常经典的神经网络,但在广告算法的应用上,似乎并不是很好。
现在见的很多的又ANN,专注神经网络。是在CNN上发展起来的,看起来更加接近人本身的思维。
也有连续化的问题,毕竟信息流本身是离散的。
此时大概能够理解为什么大多数人都是用的lightGBM了,因为决策树对离散的数据非常友好。但是决策树如何处理同一用户前后时间的因果影响呢?
3.18.2019 宣讲会已经变成我的答疑广场了?
今天就着宣讲会,问了下推荐系统的问题。
知道了下一步应该进行轨迹分析。
(为什么都是我原来听说过的东西但是我没有深入研究过我到底干嘛了时间都去哪里了)
以及被说要用聚类,但是我的论文题目是要用神经网络,所以试试ANN吧。感觉某种程度上有异曲同工之妙?
最后,今天被身后的硕士震惊到了,果然硕士还是学的深。还需要继续努力,在数学和底层理解上。
以及被吐槽了有关分类的离散问题。
果然学习还是不够系统。刷书吧。
下一步:搜集轨迹分析的相关资料,看懂搜集的代码,模仿。
3.28.2019 神经网络的鲁棒性问题
可以寻找一些经典神经网络进行验证。然后知道关键点以后进行调整。
需要研究某一特征对最终结果的影响度。
问题:如何验证影响度。