- 博客(9)
- 收藏
- 关注
原创 代理头部代理ip获取网页内容
import requests from bs4 import BeautifulSoup import chardet import random import time def getHtml(url): #准备一个网址 url=‘http://www.baidu.com’ #获取响应网页 response=requests.get(url) #获取编码 code=chardet.detect...
2018-11-28 15:57:05
3269
原创 爬取蛋壳数据
#!/usr/bin/env python # -- coding: utf-8 - from gethtml import getHtml from urllib import request from bs4 import BeautifulSoup import re lv=[] for i in range(108): print(‘正在...
2018-11-28 15:53:22
586
原创 存储csv数据到mysql
#!/usr/bin/env python -- coding: utf-8 - import csv import pymysql conn = pymysql.connect(host=‘localhost’, user=‘root’, password=‘1234’, db=‘danke’, charset=“utf8”) cursor = conn.cursor() with open(‘...
2018-11-28 15:52:40
318
原创 python爬虫 selector xpath提取网页内容
xpath提取网页内容 selector模块 XML 节点选择 表达式 描述 nodename 选取此节点的所有子节点。 / 从根节点选取。 // 从匹配选择的当前节点选择文档中的节点,而不考虑它们的位置。 . 选取当前节点。 … 选取当前节点的父节点。 @ 选取属性。 bookstore 选取 bookstore 元素的所有子节点。 /bookstore 选取根元素 bookstore。 boo...
2018-11-28 15:42:30
1536
原创 python 爬虫 提取文本之BeautifulSoup详细用法
beautifulsoup的使用 bs4模块 准备代码信息,用来练习获取内容: from bs4 import BeautifulSoup #准备代码信息,用来练习获取内容 html =’’’ The Dormouse's story 123456 The Dormouse's story aaaaa The Dormouse's storya Once u...
2018-11-28 15:41:07
1618
原创 python 爬虫 访问网页之request与requests:
准备头部和代理 user_agent = [ #准备头部,列表 “Mozilla/5.0 (Macintosh; U; Intel Mac OS X 10_6_8; en-us) AppleWebKit/534.50 (KHTML, like Gecko) Version/5.1 Safari/534.50”, “Mozilla/5.0 (Windows; U; Windows NT 6.1;...
2018-11-28 15:38:47
8288
原创 从Python中连接数据库写入数据和读取数据以及存储到excel中
写入mysql #!/usr/bin/env python -- coding: utf-8 - import pymysql conn = pymysql.connect(host=‘IP’,user=‘用户名’,password=‘密码’,db=‘数据库’,charset=“utf8”) cursor = conn.cursor()#建立游标cursor当前的程序到数据之间连接管道 sql =...
2018-10-20 15:57:15
4356
3
转载 Python中的正则
import re ‘’’ re.compile(string[, flags]) re.match(pattern, string[, flags]) re.search(pattern, string[, flags]) re.split(pattern, string[, maxsplit]) re.findall(pattern, string[, flags]) re.finditer(...
2018-10-20 15:14:57
404
2
转载 Python抓取网页之urllub2 urllib
import urllib2 import urllib 1、抓取网页 response = urllib2.urlopen(“http://www.baidu.com/”) print response.read() ‘’’ 分析: response = urllib2.urlopen(“http://www.baidu.com/”) 调用urllib2的urlopen方法,传入一个url,这个...
2018-10-20 15:14:02
346
2
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅