- 博客(5)
- 收藏
- 关注
原创 数据标准化
转自https://www.cnblogs.com/super-saiyan-blue/p/9330833.html 一:数据标准化 # coding=utf-8 # 统计训练集的 mean 和 std 信息 from sklearn.preprocessing import StandardScaler import numpy as np def test_algorithm(): ...
2019-09-11 10:13:31
490
原创 业务预测
一:数据类型 ①带有时间序列的数据 ②和业务有关 二:方法 ①创建窗函数是必须的 带有时间属性的数据,可能在单独的一天数据特征不明显,比如检测爬虫,可能一小段时间内ip没有异常,可以监控一窗口时间段ip的行为,比如list=[1,3,7,11,14],可以提取1-3天的数据特征,3-7天,7-11天,用时间段的特征作为数据特征 ②尽可能贴近业务构建特征 三:预测 需要根据线下业务需求构建合适的模型...
2019-09-01 14:44:05
484
原创 验证码的识别
一:图形验证码的识别 1.准备工作 ①安装pytesseract pip install pytesseract ②在安装过程中存在坑,实际运行时提示路径不在指定位置,处理方式参考 https://blog.youkuaiyun.com/wang_hugh/article/details/80760940 2.识别测试 ①图片中数字和字母清晰,无噪声 from PIL import Image impor...
2019-08-18 20:41:18
659
原创 CSV文件存储
1.写入 ①写入非字典类型数据 import csv with open(r'C:\Users\wcl\Desktop\files\1.csv','w') as csvfile: writer=csv.writer(csvfile) writer.writerow(['id','name','age']) writer.writerow(['10001','Mike','2...
2019-08-04 23:04:13
306
原创 抓取猫眼电影TOP10榜数据
1.本节目标 抓取猫眼电影TOP100榜的电影名称、时间、评分、图片等信息,抓取的站点URL为https://maoyan.com/board/4,提取的结果以文本形式保存下来 2.准备工作 请确保requests、json、re库安装成功 3.抓取分析 我们抓取的目标站点为https://maoyan.com/board/4,打开之后便可以查看榜单信息,如图1-1所示: 排名第一的电影是霸王别姬...
2019-08-04 22:41:46
1403
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅