
爬虫
国企打工人
不管在哪,敲代码的技能可不能丢哇~!
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
总结一下python正则表达式中的变量使用问题
在工作中,有这样的一个场景,需要在一个正则表达式中,匹配一个变量。因此查阅了好多文档,最后找到了。 方法是这样: re.finditer(r'(%s)(\d{1,3})(\s*\s+\d{1,3}\s*)()(\d{1,3})(\s*)' \ %(past_one_day,u'[\u4e00-\u9fa5]'),url原创 2018-01-03 14:25:55 · 4456 阅读 · 0 评论 -
避免写爬虫时出现乱码
def get_page_content(url): url_content = urllib.urlopen(url).read() char_det = chardet.detect(url_content) get_encoding_charset = char_det['encoding'] if get_encoding_charset=='utf-8' or get_原创 2018-02-06 18:26:01 · 551 阅读 · 0 评论 -
爬取天气数据并写入数据库中的总结
sql = 'INSERTINTO table_name (city,air_quality,AQI,PM2_5,dt)VALUES(%s,%s,%s,%s,%s)' try: cur.executemany(sql,tuple(data))#data 是列表,但是里面的元素是元组 print("now: ……Done……") #对于写入数据库,这个fetchall没有用,但是对原创 2018-02-06 18:54:31 · 1316 阅读 · 0 评论 -
根据经纬度点求面积
根据经纬度计算的面积,需要一个转化,才能和高德地图显示的面积是一致的。原理就是简单多边形求面积公式: data = "115.989099,39.646023;115.987394,39.645988;115.987371,39.647407;115.986684,39.647423;115.986602,39.648088;115.989095,39.648151;115.989188,39...原创 2018-05-27 12:35:15 · 37199 阅读 · 19 评论 -
python实现selenium自动登录微博抓取数据
#coding = utf-8 from selenium import webdriver from selenium.webdriver.common.by import By from selenium.webdriver.support.ui import WebDriverWait from selenium.webdriver.support import expected_cond...原创 2018-06-09 21:06:30 · 2835 阅读 · 0 评论