Learning path

Topic model +

  1. SVD、LSI和pLSI、LDA +
  2. Bayesian inference +
  3. Gibbs sampling (MCMC) +

潜在话题的自动发现,有助于对大规模的文档进行自动分类。对于若干的应用场景有着重要意义。

Elasticsearch +

  1. Elasticsearch基本的DSL的使用 +
  2. 增加中文分词系统,提高灵活性和速度 +
  3. Lucene +
  4. inverted index +
  5. Tfidf model +

ES是强大的开源搜索系统,快速且方便。发展也很迅猛。分布式的架构可以让ES的可扩展性非常厉害。可以自动地增加节点,并动态的分配角色。

Machine learning +

  1. regression +
  2. Naive Bayesian +
  3. Decision Tree +
  4. SVM +
  5. feature engineering +
  6. Grid search and cross validation +
  7. PCA +

基本的机器学习算法的训练,数据的清理实际是最重要的一步,但是确实最繁杂的一步。 对于初学者,容易迷失在众多算法之中。实际上,使用一个熟悉的数据集,然后去尝试不同的算法,这样可以快速地了解大多数基本的算法。机器学习算法的效果比较是非常有意思的地方,不过要能理解很多类型的图形才可以理解不同算法的差异。当然只有简单而肤浅的认识是不够,对于机器学习理论的学习还是最为关键的。

NLP基础 -

  1. Viterbi algorithm -
  2. POS tag

  3. 经典的HMM计算方法,动态规划算法,可以找出最可能的隐藏状态路径

Recommendation system +

  1. content based +
  2. user based +

Learning to rank -

compared with recommendation-view search

Complex networks -

  1. Community detection -
  2. Page rank algorithm -

尽管社交性容易造成用户的反感,但是使用合适的方式可以给出体验很好的写作和阅读场景。

Language +

  1. Ruby +
  2. python +
  3. jruby +
  4. java -
  5. C++ -

使用Ruby之后发现,代码可以写得很快。结合jruby,可以完成更多有趣的任务。python在数据科学领域应用较强,并且涌现了大量的。

Fundamental theory

数学和统计物理是两把利刃,在现在这样一个相当依赖技术的时代,仗剑走天涯必备。
矩阵理论是目前众多数据科学技术的基础,若干高效的方法也都是针对矩阵进行的优化。比如numpy,theano这样的python库,都是这样的。
物理学,目前谈论的主要是统计物理。若干解决NPhard问题的方法都是出自其中。Gibbs sampling,Spin system,Boltzmann machine 等等都是已经在几十年前开始研究的统计物理问题。而现在也已经发挥出其强大的实力了。

学习工具和资源

目前 deep learning 领域出现了好多(可能有上百个独立的研究团体,著名的会有十几个)
1. 众多行业领军公司:Google,Yahoo,Facebook,Microsoft,Baidu都有相关的 research 团队在推动这个领域的发展
2. 众多知名高校:Stanford,
他们大多数会把相关的资料放在公开的地方,鼓励大家去尝试。

在线公开课有很多
MMDS 和 neural networks

主要还是需要提供推导和代码实现能力
好 去学习theano吧

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值