- 博客(18)
- 收藏
- 关注
原创 基于 Holt-Winters季节性预测模型 的时间序列预测
import numpy as npimport pandas as pdimport matplotlib.pyplot as pltfrom statsmodels.tsa.api import ExponentialSmoothingdata = pd.read_excel('时间序列预测数据集.xlsx')# data.columns=[时间,投递人数,投递次数,工程师投递人数,工程师投递次数,招聘发布公司量,发布职位量,工程师岗位发布公司,工程师岗位发布量]for i in dat
2021-02-02 14:12:22
1505
原创 【爬虫】大街网爬虫
import requests,csv,timedef save_data(row): f=open('大街网职位爬虫.csv','a',encoding='GBK',newline='',errors='ignore') csv_writer = csv.writer(f) csv_writer.writerow(row) f.close()def ParserResponse(response): #解析函数 for i in range(30):
2020-08-24 14:37:08
167
原创 赣州房管局成交爬虫
import requests,csv,timefrom lxml import etreeheaders = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.116 Safari/537.36','Host': 'www.gzfdcyw.com','Cookie': 'PHPSESSID=3oma2c8os1415s
2020-07-09 08:58:59
305
原创 【爬虫练手】在被封禁IP地址的情况下,使用IP代理
在写爬虫程序的过程中,如果爬取的速度过快,经常会遇到IP封禁的问题。那么为了解决这个问题,办法之一就是使用IP代理。import requestsheaders = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.116 Safari/537.36'}url = 'http://httpbin.org/ip'proxi
2020-07-05 17:31:45
640
原创 东莞市所有门店经纬度_地址转经纬度
import pandas as pdimport requests,time,csvfrom urllib.request import quote#定义一个存储函数def save_data(row): f=open('门店经纬度.csv','a',encoding='GBK',newline='') csv_writer = csv.writer(f) csv_writer.writerow(row) f.close() csv_data = pd.
2020-06-18 15:06:25
1017
原创 【爬虫练手】东莞当天二手成交信息爬虫
import requestsfrom bs4 import BeautifulSoupimport datetimeimport csvimport timeheaders = { 'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.97 Safari/537.36'}引用该引用的库def save_date(
2020-06-16 17:35:39
183
1
原创 【爬虫练手】糗事百科
from lxml import etreeimport requestsheaders={ 'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.138 Safari/537.36'}def requests_...
2020-05-08 09:37:48
219
原创 Scrapy框架从入门到入土
Scrapy 框架简介再写爬虫的过程中经常需要多个模块的协同,如:发送网络请求、数据解析、数据存储、反反爬虫手段(更换ip代理、设置请求头等)、异步爬取等。如果这些模块每次都要自己从头开始写的话,比较浪费时间。因此Scrapy把前置的代码封装好了,使用它进行爬虫的开发可以变的更加的高效(爬取效率和开发效率)。真正在公司里,一些上了量的爬虫,都是使用Scrapy框架来解决。Scrapy框...
2020-05-07 15:44:54
213
原创 【爬虫练手】表情包爬虫
import requests,os,refrom lxml import etreefrom urllib import requestdef parse_page(url): headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML...
2020-04-23 23:55:59
171
原创 更改jupyter的默认路径
在win开始菜单中找到jupyter notebook快捷图标,鼠标右键>>属性>>快捷方式>>目标删除最后的 “%USERPROFILE%/” ,更换成想变换的默认路径。
2020-04-08 11:51:29
130
原创 【SQL实例】写一段业绩的SQL,HIVE端
SELECT agent.corp_name AS `品牌名称`, agent.shop_name AS `门店名称`, agent.agent_code AS `经纪人系统号`, agent.agent_name AS `经纪人姓名`,nvl( perfnum.perf_num,0) AS `二手单量` , nvl(perf.performance,0) AS `二手业绩`, nvl(perf...
2020-04-01 17:10:09
213
原创 【高效办公】python一键去除背景。remove-backups
一串代码完美去除背景。主要是在 https://www.remove.bg/zh 这个网址上进行处理。可以直接上传图片,也可以利用API一键抠图。from removebg import RemoveBgrmbg=RemoveBg("KR9jY9rfTsd3a5hSfc5U2uqd","error.log")# 引号内是你获取的APIrmbg.remove_background_...
2020-03-19 18:13:13
1176
原创 【高效办公】文件夹中的所有excel合并,os和pandas模块
源码概览import osimport pandas as pdframes=[] #新建一个空白列表def contant_excel(path): for root,dirs,files in os.walk(path): #os.walk是一个非常强大的使用 for file in files: df = pd.read_exc...
2020-03-19 11:23:46
269
原创 【爬虫练手】爬中国天气网
import requestsfrom bs4 import BeautifulSoupdef parser_page(url): headers = { 'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0....
2020-03-15 20:55:58
157
原创 【爬虫练手】下厨房
import requestsfrom bs4 import BeautifulSoupfrom openpyxl import Workbookwb = Workbook()ws = wb.activelist_g = ['菜名','食材','步骤','详细步骤']ws.append(list_g)headers= { 'User-Agent': 'Mozilla/5....
2020-03-08 18:41:02
165
原创 【高效办公】OS模块对文件夹所有文件重命名
import osdef Rename(path): file_name = os.listdir(path) # print(file_name) p_0=len(file_name) p=0 for name in file_name: old_path = path+'\\'+name new_path = pat...
2020-03-03 14:30:38
910
原创 【高效办公】pandas库学习,对excel的简单操作
panda函数对excel的简单操作任务需求:把一个文件夹所有的csv文件打开,对某一列进行运算import pandas as pdimport osdir = ''D:\工作\业务策略板块\项目\线上学时\' #设定路径filenames=os.listdir(dir) #获取文件名p=0for study_online in filenames: #设置循环 date...
2020-03-03 09:24:01
195
原创 爬虫琐碎知识【Cookie、requests、编码方式问题】
1.在cookie登陆的过程中,有两种方法,第一种是直接从chrome中获取request-headers,第二种是导入 cookieJar进行登陆,创建一个handle,用handle去创建一个opener进行操作。...
2020-02-27 16:53:21
245
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人