下周二要向老板汇报工作,系统全做出来不大可能了,只好讲讲框架,以及里面的一些小问题和调研结果及解决方案。 抽取分析做过很多尝试,实现没什么问题,代码要重写,交给师弟了。 Topic Models也用Author-Topic Model想凑合着,也没什么好的想法(或者想过的别人都做过了),有空把Topic over Time实现一下。另外有篇Zhai Chengxiang关于给Multinomial Topic Model做自动Label的文章可以讲讲,不过觉得方法没啥意思。 Zhai去年暑假来学校做过一个IR/NLP的课程,听了两次,感觉比较基础,也没讲什么新鲜的东西,而且徐雷也来讲课,也就没听下去了。
另外用Citation来给文章做Summary的文章竟然有人做过了,发在ACL上,哎,早知道自己抓紧点也许也能做出来,这次只好讲讲这篇文章,看看有没有改进的地方。
还有一个Duplicate Detection的小问题,最近看了一些文章,但发现效率都不高,今天晚上突然想到一个比较好的算法,兴奋了半天,讨论班讲一讲想法,看看行不行。