之前就有想过要开博客记录下自己的NLP之路,不过可能是因为懒惰的原因 一直都没有实施。这几天在跑数据,过程真的很漫长,有的时候电影都看完一部了 cross validation还没做完 不得不抱怨下java的效率。于是想趁着这个机会 开始做些学习笔记吧,说不定一旦开始 就停不下来。
要说明下,之前的几个月都在用python +NLTK在做 twitter sentiment analysis 也是导师推荐的工具。 只是后来新加入一位导师,玩weka的 提出的问题我自己用NLTK很难解决,再加上NLTK的包也不是那么稳定 于是坚决的转到了weka上。
其实工具不是主要的,理解整个过程及方法论才最为重要。前期用NLTK熟悉了分词 特征提取 以及特征选取,只需要把格式转一下,转成weka可以识别的输入就可以,所以上手也快。 在这里推荐一个博主:http://rzcoding.blog.163.com/blog/static/222281017201310193504714/ 之前的工作也是阅读完他的博客之后完成的,十分感谢。
开幕式就到这里,接下来整理下最近的笔记吧。