Python3爬取网络数据
最近开始对Python感兴趣了,所以就对Python做了一些尝试,用Python爬取了一些数据。这次写这篇的目的是为了整理我现在所学的知识,供以后自己查看或者其他小白学习。目前我还是小白,爬取数据的方法也有点low,各位大神要是有更好更优秀的办法,记得评论或私信告诉我。
对了,小白我刚入门Python,希望各位给我一些Python学习路线图,感激不尽!!
好了,接下来开始讲一下我是如何爬取数据的。
1.准备
(1)安装了Python3
(2)安装了Beautifulsoup4
(3)要爬取的网站
(4)mysql数据库(如果要把数据保存到数据库中)
2.导入需要的包
import urllib.request,re
from bs4 import BeautifulSoup
3.接下来就贴上实现代码
#网址
url = "你要爬取的地址"
#请求
request = urllib.request.Request(url)
#爬取结果
response = urllib.request.urlopen(request)
data = response.read()
#设置解码方式
data = data.decode('utf-8')
soup=BeautifulSoup(data,'lxml')
dataa = soup.select("属性选择器")
for tag in dataa:
name_tag=(tag.get_text())
print(name_tag)
4.连接数据库(需要可以查看)
#host1为数据库连接地址
#port为端口号(别在端口号两边加双引号)
#user和passwd就不用说了
#db1为数据库名字
#charset是编码方式
connectdb = pymysql.connect(host=host1,port=3306,user=user1,passwd=passwd1,db=db1,charset='utf8')
#获取游标
cursor = connectdb.cursor()
for tag in dataa:
sql1 = "你的sql语句"
name_tag=(tag.get_text())
cursor.execute(sql1 % name_tag)
print("插入成功")
connectdb.commit()
cursor.close()
connectdb.close()
print('数据库连接关闭')
5.其他
如果需要例子,我这边有一个爬取姓氏的脚本,可以作为例子,大家可以去下载
下载地址:http://download.youkuaiyun.com/download/ma853756059/10161253