
爬虫
在路上0616
不在互联网公司了,但是敲代码的技能还在!
展开
-
总结一下python正则表达式中的变量使用问题
在工作中,有这样的一个场景,需要在一个正则表达式中,匹配一个变量。因此查阅了好多文档,最后找到了。方法是这样:re.finditer(r'(%s)(\d{1,3})(\s*\s+\d{1,3}\s*)()(\d{1,3})(\s*)' \ %(past_one_day,u'[\u4e00-\u9fa5]'),url原创 2018-01-03 14:25:55 · 4430 阅读 · 0 评论 -
避免写爬虫时出现乱码
def get_page_content(url): url_content = urllib.urlopen(url).read() char_det = chardet.detect(url_content) get_encoding_charset = char_det['encoding'] if get_encoding_charset=='utf-8'or get_原创 2018-02-06 18:26:01 · 533 阅读 · 0 评论 -
爬取天气数据并写入数据库中的总结
sql ='INSERTINTO table_name (city,air_quality,AQI,PM2_5,dt)VALUES(%s,%s,%s,%s,%s)'try: cur.executemany(sql,tuple(data))#data 是列表,但是里面的元素是元组print("now: ……Done……") #对于写入数据库,这个fetchall没有用,但是对原创 2018-02-06 18:54:31 · 1287 阅读 · 0 评论 -
根据经纬度点求面积
根据经纬度计算的面积,需要一个转化,才能和高德地图显示的面积是一致的。原理就是简单多边形求面积公式:data = "115.989099,39.646023;115.987394,39.645988;115.987371,39.647407;115.986684,39.647423;115.986602,39.648088;115.989095,39.648151;115.989188,39...原创 2018-05-27 12:35:15 · 36820 阅读 · 19 评论 -
python实现selenium自动登录微博抓取数据
#coding = utf-8from selenium import webdriverfrom selenium.webdriver.common.by import Byfrom selenium.webdriver.support.ui import WebDriverWaitfrom selenium.webdriver.support import expected_cond...原创 2018-06-09 21:06:30 · 2807 阅读 · 0 评论