於陵樺暉-优快云博客

原创基于 Holt-Winters季节性预测模型的时间序列预测

import numpy as npimport pandas as pdimport matplotlib.pyplot as pltfrom statsmodels.tsa.api import ExponentialSmoothingdata = pd.read_excel('时间序列预测数据集.xlsx')# data.columns=[时间,投递人数,投递次数,工程师投递人数,工程师投递次数,招聘发布公司量,发布职位量,工程师岗位发布公司,工程师岗位发布量]for i in dat

2021-02-02 14:12:22 1505

原创【爬虫】大街网爬虫

import requests,csv,timedef save_data(row): f=open('大街网职位爬虫.csv','a',encoding='GBK',newline='',errors='ignore') csv_writer = csv.writer(f) csv_writer.writerow(row) f.close()def ParserResponse(response): #解析函数 for i in range(30):

2020-08-24 14:37:08 167

原创赣州房管局成交爬虫

import requests,csv,timefrom lxml import etreeheaders = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.116 Safari/537.36','Host': 'www.gzfdcyw.com','Cookie': 'PHPSESSID=3oma2c8os1415s

2020-07-09 08:58:59 305

原创【爬虫练手】在被封禁IP地址的情况下，使用IP代理

在写爬虫程序的过程中，如果爬取的速度过快，经常会遇到IP封禁的问题。那么为了解决这个问题，办法之一就是使用IP代理。import requestsheaders = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.116 Safari/537.36'}url = 'http://httpbin.org/ip'proxi

2020-07-05 17:31:45 640

原创东莞市所有门店经纬度_地址转经纬度

import pandas as pdimport requests,time,csvfrom urllib.request import quote#定义一个存储函数def save_data(row): f=open('门店经纬度.csv','a',encoding='GBK',newline='') csv_writer = csv.writer(f) csv_writer.writerow(row) f.close() csv_data = pd.

2020-06-18 15:06:25 1017

原创【爬虫练手】东莞当天二手成交信息爬虫

import requestsfrom bs4 import BeautifulSoupimport datetimeimport csvimport timeheaders = { 'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.97 Safari/537.36'}引用该引用的库def save_date(

2020-06-16 17:35:39 183 1

原创【爬虫练手】糗事百科

from lxml import etreeimport requestsheaders={ 'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.138 Safari/537.36'}def requests_...

2020-05-08 09:37:48 219

原创 Scrapy框架从入门到入土

Scrapy 框架简介再写爬虫的过程中经常需要多个模块的协同，如:发送网络请求、数据解析、数据存储、反反爬虫手段（更换ip代理、设置请求头等）、异步爬取等。如果这些模块每次都要自己从头开始写的话，比较浪费时间。因此Scrapy把前置的代码封装好了，使用它进行爬虫的开发可以变的更加的高效（爬取效率和开发效率）。真正在公司里，一些上了量的爬虫，都是使用Scrapy框架来解决。Scrapy框...

2020-05-07 15:44:54 213

原创【爬虫练手】表情包爬虫

import requests,os,refrom lxml import etreefrom urllib import requestdef parse_page(url): headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML...

2020-04-23 23:55:59 171

原创更改jupyter的默认路径

在win开始菜单中找到jupyter notebook快捷图标，鼠标右键>>属性>>快捷方式>>目标删除最后的 “%USERPROFILE%/” ，更换成想变换的默认路径。

2020-04-08 11:51:29 130

原创【SQL实例】写一段业绩的SQL，HIVE端

SELECT agent.corp_name AS `品牌名称`, agent.shop_name AS `门店名称`, agent.agent_code AS `经纪人系统号`, agent.agent_name AS `经纪人姓名`,nvl( perfnum.perf_num,0) AS `二手单量` , nvl(perf.performance,0) AS `二手业绩`, nvl(perf...

2020-04-01 17:10:09 213

原创【高效办公】python一键去除背景。remove-backups

一串代码完美去除背景。主要是在 https://www.remove.bg/zh 这个网址上进行处理。可以直接上传图片，也可以利用API一键抠图。from removebg import RemoveBgrmbg=RemoveBg("KR9jY9rfTsd3a5hSfc5U2uqd","error.log")# 引号内是你获取的APIrmbg.remove_background_...

2020-03-19 18:13:13 1176

原创【高效办公】文件夹中的所有excel合并，os和pandas模块

源码概览import osimport pandas as pdframes=[] #新建一个空白列表def contant_excel(path): for root,dirs,files in os.walk(path): #os.walk是一个非常强大的使用 for file in files: df = pd.read_exc...

2020-03-19 11:23:46 269

原创【爬虫练手】爬中国天气网

import requestsfrom bs4 import BeautifulSoupdef parser_page(url): headers = { 'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0....

2020-03-15 20:55:58 157

原创【爬虫练手】下厨房

import requestsfrom bs4 import BeautifulSoupfrom openpyxl import Workbookwb = Workbook()ws = wb.activelist_g = ['菜名','食材','步骤','详细步骤']ws.append(list_g)headers= { 'User-Agent': 'Mozilla/5....

2020-03-08 18:41:02 165

原创【高效办公】OS模块对文件夹所有文件重命名

import osdef Rename(path): file_name = os.listdir(path) # print(file_name) p_0=len(file_name) p=0 for name in file_name: old_path = path+'\\'+name new_path = pat...

2020-03-03 14:30:38 910

原创【高效办公】pandas库学习，对excel的简单操作

panda函数对excel的简单操作任务需求：把一个文件夹所有的csv文件打开，对某一列进行运算import pandas as pdimport osdir = ''D:\工作\业务策略板块\项目\线上学时\' #设定路径filenames=os.listdir(dir) #获取文件名p=0for study_online in filenames: #设置循环 date...

2020-03-03 09:24:01 195

原创爬虫琐碎知识【Cookie、requests、编码方式问题】

1.在cookie登陆的过程中，有两种方法，第一种是直接从chrome中获取request-headers，第二种是导入 cookieJar进行登陆，创建一个handle，用handle去创建一个opener进行操作。...

2020-02-27 16:53:21 245

wyh33200的博客