数据处理
文章平均质量分 72
卫公费马
失去很多,得到一些
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
心跳信号分类 ---参数调整
又到了deadline ,文远又得冲起来了。本文的重点很明显,就是模型调参。模型调参:三个方法如下:贪心调参方法;网格调参方法;贝叶斯调参方法介绍说明三个方法,具体来说。最建议的是贝叶斯调参,相对来说,耗时短,而且效果不错。然后是,贪心相对来说容易局部最优,这也挺好解释的,毕竟贪心算法就是比较容易局部最优,而网格搜索可以看作是暴力搜索的一种(dfs,bfs),最后的贝叶斯搜索则是,有点启发式算法的意味。个人实践当然,这些都只是文档的信息,文远还是,不怎么原因信的。先说结果原创 2021-03-26 01:08:55 · 638 阅读 · 2 评论 -
小伙子不讲武德,竟用Python爬取了B站上4w条马保国视频弹幕
”明月如霜,好风如水,清景无限 “文远今天看到其他公众号的b站弹幕分析,激起了一些兴趣。总的是三步:找到b站马老师专栏里播放量靠前的视频爬取视频的弹幕将弹幕持久化存储后,制作词云壹首先,找到的b站专栏的网址:url='https://api.bilibili.com/x/web-interface/web/channel/multiple/list?channel_id=3503796&sort_type=hot&page_size=30'这个是b站专门留的接口,很方便原创 2020-11-28 16:55:51 · 4833 阅读 · 10 评论 -
爬虫小例--爬药监局(上)
”明月如霜,好风如水,清景无限 “文远最近也算是爬虫入门吧,相信后面会慢慢熟悉。壹直接上例子,爬取药监局的数据。目的是得到每家公司的详情数据,例:具体网址:http://scxk.nmpa.gov.cn:81/xk/这是主页,下面详情信息:贰分析,通过网页检查发现,主网页上没有公司相关数据,观察XHR中的Ajax请求发现,公司信息都是动态数据(方便更新),点击发现每个公司的详情信息通过ID号这个参数区别,那么可以确定思路是先得到每个公司的ID号,然后在通过ID对应每一个详细网站,同样右键原创 2020-11-17 17:30:12 · 4420 阅读 · 13 评论 -
机器学习预测实践后的总结,以数据量较小为典型理解交叉验证
在进行回归预测时,交叉验证时必不可少的,本次实践之前,我对交叉验证是一个模糊的状态,那么就记录一下本次实验对交叉验证的理解。此为数据集较小时的交叉验证,standar_data为标准化后的特征,具体实现的话,可以看看这篇:https://blog.youkuaiyun.com/John_ashley/article/details/106913774y_data是真实值,也就是标签Ⅰ. b=[] x_data=standar_data # x_data=pre_data[:,1原创 2020-07-13 00:46:28 · 1505 阅读 · 0 评论 -
亲测有效,查找excal中符合信息的列,存在新的excel中
本来就是只想找一下,excel 处理的,,,,然而这个上面的都是,,,,貌似有两条思路,一种用传统的py对excel的库,另一种就是pd了,找不到就直接pd转成数组了,处理之后再save一下,save的过程可以模仿一下,总的来说就是只是在筛选符合要求的特定行,存为新的xlsx.但是在下面,我会扩展两个问题。#!/usr/bin/env python# -*- encoding: utf-8 -*-'''@File : excel_try2.py@Time : 2020/0原创 2020-07-13 00:13:35 · 289 阅读 · 0 评论 -
关于sklearn中的归一化,标准化以及返回inverse_transform()的详细例子,附带具体的回归预测的例子
import torchfrom sklearn import preprocessingimport numpy as npX = np.array([[ 1., -1., 2.],[ 2., 0., 0.],[ 0., 1., -1.]])print(X)# The transformation is given by::# X_std = (X - X.min(axis=0)) / (X.max(axis=0) - X.min(axis=0))# X_scal原创 2020-06-23 01:36:18 · 12124 阅读 · 0 评论
分享