1【参考资料】
https://github.com/phunterlau/dga_classifier
https://paper.seebug.org/papers/Archive/drops2/%E7%94%A8%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0%E8%AF%86%E5%88%AB%E9%9A%8F%E6%9C%BA%E7%94%9F%E6%88%90%E7%9A%84C%26amp%3BC%E5%9F%9F%E5%90%8D.html
2【检测思路】
主要从语法分析的角度检测dga域名。包括使用n-gram和正常域名对比词频,使用hmm和正常域名对比域名字符组合的概率,分析域名的熵,辅音字母,数字等特征,作为dga域名的检测特征,之后使用svm算法进行模型训练。
3【实现方法】
3.1【数据文件】
【输入】
top-100k.csv:alexa top10万域名
conficker_alexa_training.txt:训飞客蠕虫和alexa top10万域名训练样本
tld_list.txt:tld list
private_tld.txt : n-gram处理域名的时候使用
【临时文件】
training_w_tld.txt:提出域名的tld字段