
爬虫
文章平均质量分 75
让路
勤学苦练,不负韶华。
展开
-
Python爬虫工程师-从菜鸟到大师03
爬取网站思路 1、先确定是否为动态加载网站 2、找URL规律 3、正则表达式 4、定义程序框架,补全并测试代码 数据持久化 - csv import csv with open('xxx.csv','w') as f: writer = csv.writer(f) writer.writerow([]) writer.writerows([(),(),()]) 数据持久化 - MySQL import pymysql # __init__(self): self.db = pymysql原创 2021-08-01 20:54:59 · 869 阅读 · 0 评论 -
Python爬虫工程师-从菜鸟到大师02
请求模块(urllib.request) req = request.Request(url,headers=headers) res = request.urlopen(req) html = res.read().decode('utf-8') 编码模块(urllib.parse) 1、urlencode({dict}) urlencode({'wd':'美女','pn':'20'}) 编码后 :'wd=%E8%D5XXX&pn=20' 2、quote(string) qu原创 2021-08-01 20:49:35 · 525 阅读 · 0 评论 -
Python爬虫工程师-从菜鸟到大师01
网络爬虫概述 定义 网络蜘蛛、网络机器人,抓取网络数据的程序 其实就是用Python程序模仿人点击浏览器并访问网站,而且模仿的越像越好,让Web站点无法发现你不是人 爬取数据目的 1、公司项目测试数据 2、公司业务部门及其他部门所需数据 3、数据分析 企业获取数据方式 1、公司自有数据 2、第三方数据平台购买(数据堂、贵阳大数据交易所) 3、爬虫爬取数据 Python做爬虫优势 1、Python :请求模块、解析模块丰富成熟,强大的Scrapy网络爬虫框架 2、PHP原创 2021-08-01 20:43:58 · 250 阅读 · 0 评论