自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

七七

数据爬取、数据分析,走起!

  • 博客(5)
  • 收藏
  • 关注

原创 数据标准化

转自https://www.cnblogs.com/super-saiyan-blue/p/9330833.html 一:数据标准化 # coding=utf-8 # 统计训练集的 mean 和 std 信息 from sklearn.preprocessing import StandardScaler import numpy as np def test_algorithm(): ...

2019-09-11 10:13:31 490

原创 业务预测

一:数据类型 ①带有时间序列的数据 ②和业务有关 二:方法 ①创建窗函数是必须的 带有时间属性的数据,可能在单独的一天数据特征不明显,比如检测爬虫,可能一小段时间内ip没有异常,可以监控一窗口时间段ip的行为,比如list=[1,3,7,11,14],可以提取1-3天的数据特征,3-7天,7-11天,用时间段的特征作为数据特征 ②尽可能贴近业务构建特征 三:预测 需要根据线下业务需求构建合适的模型...

2019-09-01 14:44:05 484

原创 验证码的识别

一:图形验证码的识别 1.准备工作 ①安装pytesseract pip install pytesseract ②在安装过程中存在坑,实际运行时提示路径不在指定位置,处理方式参考 https://blog.youkuaiyun.com/wang_hugh/article/details/80760940 2.识别测试 ①图片中数字和字母清晰,无噪声 from PIL import Image impor...

2019-08-18 20:41:18 659

原创 CSV文件存储

1.写入 ①写入非字典类型数据 import csv with open(r'C:\Users\wcl\Desktop\files\1.csv','w') as csvfile: writer=csv.writer(csvfile) writer.writerow(['id','name','age']) writer.writerow(['10001','Mike','2...

2019-08-04 23:04:13 306

原创 抓取猫眼电影TOP10榜数据

1.本节目标 抓取猫眼电影TOP100榜的电影名称、时间、评分、图片等信息,抓取的站点URL为https://maoyan.com/board/4,提取的结果以文本形式保存下来 2.准备工作 请确保requests、json、re库安装成功 3.抓取分析 我们抓取的目标站点为https://maoyan.com/board/4,打开之后便可以查看榜单信息,如图1-1所示: 排名第一的电影是霸王别姬...

2019-08-04 22:41:46 1403

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除