python爬虫：爬取医药数据库drugbank

最新推荐文章于 2025-06-24 20:01:08 发布

bit小兵

最新推荐文章于 2025-06-24 20:01:08 发布

阅读量3.8k

点赞数 1

CC 4.0 BY-SA版权

文章标签：数据库爬虫 python

原文链接：http://www.cnblogs.com/miranda-tang/p/5508359.html

本文分享了一次使用Python爬虫爬取医药数据库DrugBank的经历，重点讲述了如何通过Selenium规避反爬策略，将网页保存为本地HTML文件后再进行解析，成功获取数据。

这个是帮朋友做的，难点就是他们有一个反爬虫机制，用request一直不行，后面我就用selenium直接把网页copy下来，然后再来解析本地的html文件，就木有问题啦。

现在看来，写得有点傻，多包涵。

# -*- coding:utf-8 -*-

import os
import time
import datetime
import codecs
from lxml import etree
from selenium import webdriver
import csv
#控制编码，全英文网页，用不着
# import sys
# reload(sys)
# sys.setdefaultencoding('utf-8')

# # date格式转为string格式
today = datetime.date.today()
today_string = today.strftime('%Y-%m-%d')

#通过浏览器得到网页页面--反反爬虫
def html_getter(site,file_name):
 driver = webdriver.Firefox()
# chromedriver = r'C:\Program Files (x86)\Google\Chrome\Application\chromedriver.exe'
 # os.environ['webdriver.chrome.driver'] = chromedriver
 # driver = webdriver.Chrome(chromedriver)
 driver.get(site)
 driver.maximize_window() #