python爬虫记录（一）

最新推荐文章于 2025-09-22 19:30:00 发布

原创

最新推荐文章于 2025-09-22 19:30:00 发布 · 674 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#python #爬虫

博主分享了自己学习Python爬虫的经历，通过编写爬虫程序抓取数据并存入数据库。在实践中遇到的主要挑战是Python2的编码问题，给工作带来了一些困扰。

最近在学习python以及利用python爬虫，公司项目需要：

爬虫并入库：代码如下

过程碰到最多的就Python2的编码问题，太烦人了。。。。。。。。

#!/user/bin/python
# -*- coding: UTF-8 -*-

import urllib
import urllib2
import lxml
import re
import MySQLdb
import time
from bs4 import BeautifulSoup

import httplib
httplib.HTTPConnection._http_vsn = 10
httplib.HTTPConnection._http_vsn_str = 'HTTP/1.1'

user_agent = 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_5) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/59.0.3071.109 Safari/537.36'  
hdr = { 'User-Agent' : user_agent }

db = MySQLdb.connect(host="localhost", port=3306, user="root", passwd="123456", db="xiaoshuo", charset="utf8")
str_sql = '''INSERT INTO `xiaoshuo`.`book1` (`bookName`, `author`, `url`, `classifyName`, `brief`, `updateTime`,
            `status`) VALUES'''

def getBookInfoBaseOnUrl(url):

    global str_sql

    request = urllib2.Request(url, headers=hdr)
    response = urllib2.urlopen(request)
    html_data = response.r