豆丁网文档有自己的格式(docin),,所以需要下载下来后再解密。。。。
common.py文件在http://blog.youkuaiyun.com/qq506657335/article/details/20004903
docinDownloader.py
import re;
import os;
import common;
import docinParse;
reg_getDocinPageID = re.compile("http://www\.docin\.com/p-(\d+)\.htm");
def getPageID(url):
try:
return reg_getDocinPageID.findall(url)[0];
except:
return None;
class docinDownloader():
def __init__(self):
pass;
def download(self, url, savePath = "./tmpDocin"):
common.createDir(savePath);
self._pageID = getPageID(url);
self._title = common.getTitle(url).replace(" - 豆丁网", "");
for i in range(1, 100): #具体也不知道会有多少个文件, 所以只能一个个判断。。