最近在学习python以及利用python爬虫,公司项目需要:
爬虫并入库:代码如下
过程碰到最多的就Python2的编码问题,太烦人了。。。。。。。。
#!/user/bin/python
# -*- coding: UTF-8 -*-
import urllib
import urllib2
import lxml
import re
import MySQLdb
import time
from bs4 import BeautifulSoup
import httplib
httplib.HTTPConnection._http_vsn = 10
httplib.HTTPConnection._http_vsn_str = 'HTTP/1.1'
user_agent = 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_5) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/59.0.3071.109 Safari/537.36'
hdr = { 'User-Agent' : user_agent }
db = MySQLdb.connect(host="localhost", port=3306, user="root", passwd="123456", db="xiaoshuo", charset="utf8")
str_sql = '''INSERT INTO `xiaoshuo`.`book1` (`bookName`, `author`, `url`, `classifyName`, `brief`, `updateTime`,
`status`) VALUES'''
def getBookInfoBaseOnUrl(url):
global str_sql
request = urllib2.Request(url, headers=hdr)
response = urllib2.urlopen(request)
html_data = response.r

博主分享了自己学习Python爬虫的经历,通过编写爬虫程序抓取数据并存入数据库。在实践中遇到的主要挑战是Python2的编码问题,给工作带来了一些困扰。
最低0.47元/天 解锁文章
2280

被折叠的 条评论
为什么被折叠?



