Topic model +
- SVD、LSI和pLSI、LDA +
- Bayesian inference +
- Gibbs sampling (MCMC) +
潜在话题的自动发现,有助于对大规模的文档进行自动分类。对于若干的应用场景有着重要意义。
Elasticsearch +
- Elasticsearch基本的DSL的使用 +
- 增加中文分词系统,提高灵活性和速度 +
- Lucene +
- inverted index +
- Tfidf model +
ES是强大的开源搜索系统,快速且方便。发展也很迅猛。分布式的架构可以让ES的可扩展性非常厉害。可以自动地增加节点,并动态的分配角色。
Machine learning +
- regression +
- Naive Bayesian +
- Decision Tree +
- SVM +
- feature engineering +
- Grid search and cross validation +
- PCA +
基本的机器学习算法的训练,数据的清理实际是最重要的一步,但是确实最繁杂的一步。 对于初学者,容易迷失在众多算法之中。实际上,使用一个熟悉的数据集,然后去尝试不同的算法,这样可以快速地了解大多数基本的算法。机器学习算法的效果比较是非常有意思的地方,不过要能理解很多类型的图形才可以理解不同算法的差异。当然只有简单而肤浅的认识是不够,对于机器学习理论的学习还是最为关键的。
NLP基础 -
- Viterbi algorithm -
- POS tag
-
经典的HMM计算方法,动态规划算法,可以找出最可能的隐藏状态路径
Recommendation system +
- content based +
- user based +
Learning to rank -
compared with recommendation-view search
Complex networks -
- Community detection -
- Page rank algorithm -
尽管社交性容易造成用户的反感,但是使用合适的方式可以给出体验很好的写作和阅读场景。
Language +
- Ruby +
- python +
- jruby +
- java -
- C++ -
使用Ruby之后发现,代码可以写得很快。结合jruby,可以完成更多有趣的任务。python在数据科学领域应用较强,并且涌现了大量的。
Fundamental theory
数学和统计物理是两把利刃,在现在这样一个相当依赖技术的时代,仗剑走天涯必备。
矩阵理论是目前众多数据科学技术的基础,若干高效的方法也都是针对矩阵进行的优化。比如numpy,theano这样的python库,都是这样的。
物理学,目前谈论的主要是统计物理。若干解决NPhard问题的方法都是出自其中。Gibbs sampling,Spin system,Boltzmann machine 等等都是已经在几十年前开始研究的统计物理问题。而现在也已经发挥出其强大的实力了。
学习工具和资源
目前 deep learning 领域出现了好多(可能有上百个独立的研究团体,著名的会有十几个)
1. 众多行业领军公司:Google,Yahoo,Facebook,Microsoft,Baidu都有相关的 research 团队在推动这个领域的发展
2. 众多知名高校:Stanford,
他们大多数会把相关的资料放在公开的地方,鼓励大家去尝试。
在线公开课有很多
MMDS 和 neural networks
主要还是需要提供推导和代码实现能力
好 去学习theano吧