
数据分析(Python)
文章平均质量分 55
笔记
爱听许嵩歌
每天学习,每天总结!
展开
-
Python的log日志打印
Python日志打印,循环保存10个日志文件。原创 2023-04-20 20:12:13 · 640 阅读 · 1 评论 -
scikit-learn 概率校准
由于冗余高斯贝叶斯分类特征违反了特征独立的假设并导致过度自信的分类器,因此未校准的概率很差,例如上图的S曲线,sigmoid回归也稍微改善了校准,但并没有显著改变预测的准确性(精度,召回率和F1分数),这是因为校准不应显著改变决策阈值位置(x=0.5处)的预测概率,然而,校准应该使预测的概率更加准确,因此对于在不确定的情况下做出分配决策更有用,因为校准是单调变换,事实上,没有排名指标受到校准的影响。在进行分类时,不仅要预测类别标签,还要预测相关概率,这种概率为预测提供了某种信息。原创 2023-06-07 20:33:36 · 164 阅读 · 0 评论 -
基于AI的5G端到端智能运维解决方案
随着5G应用企业专网对业务质量提出了更高的要求,运维难度也随之提升,网络运维人员面临业务场景多、需求差异大、业务支撑难的挑战,运维工作平均修复时间要求高、应用识别场景难、指标异常发现难、问题定界定位难、运维服务成本高5个关键难题。运维模式也要由企业生产中断后的被动响应向先于企业报障的主动维护转变,以实现企业数字化应用响应快、运行稳、质量优。业务场景包含四个元素:人、地、时、事。事件有:覆盖类,容量类,干扰类三大类型。原创 2023-06-03 13:05:22 · 362 阅读 · 0 评论 -
DataSpell学习
今天刚发现一个有用的数据分析软件DataSpell。下载地址:https://www.jetbrains.com/zh-cn/dataspell/#features安装很简单,按照步骤一路来就行了。支持ipynb文件,其实和jupyter notebook使用没有没有区别,但感觉比notebook很简单。功能介绍:1、代码自动补全2、一行一行运行代码更直观查看数据3、包含全部的数据科学功能结论:感觉主要是做数据处理和数据可视化的,在做深度学习和机器学习之前,探索和处理数据阶段使用这个,可以原创 2022-03-01 20:01:08 · 2804 阅读 · 4 评论 -
天池比赛-金融风控贷款违约预测
一、赛题背景以金融风控中的个人信贷为背景,要求根据贷款申请人的数据信息预测其是否有违约的可能,以此判断是否通过此项贷款。这是一个典型的分类问题,但也涉及一些金融的业务背景知识。二、赛题数据赛题以预测用户贷款是否违约为任务,该数据集来自某信贷平台的贷款记录,总数据量超过120W,包含47列变量信息,其中15列为匿名变量。比赛中抽取80万条作为训练集,20万条作为测试集A,20万条作为测试集B,同时对employmentTitle、purpose、postCode和title等信息进行脱敏处理。数据链接原创 2021-04-21 09:56:16 · 3554 阅读 · 2 评论 -
pandas统计缺失值
# 查看每列是否有缺失值data.isnull().any()Survived FalsePclass FalseSex FalseAge TrueSibSp FalseParch FalseFare FalseEmbarked Truedtype: bool# 统计列缺失值的数量data.isnull().sum()Survived 0Pclass 0原创 2021-04-15 09:59:10 · 1257 阅读 · 0 评论 -
查看两个list中的交集、并集、差集
代码:"""获取两个列表中的交集"""a_intersection_b = list(set(a).intersection(set(b)))a_intersection_b"""获取两个列表中的并集"""a_union_b = list(set(a).union(set(b)))a_union_b"""获取两个列表中的差集a中有,但b中没有"""a_difference_b = list(set(a).difference(set(b)))a_difference_b原创 2021-04-12 10:08:14 · 1214 阅读 · 0 评论 -
pandas 根据某一列的值修改某一列的值
在做数据分析时,需要根据某一列的值修改另外一列的值,此时就需要使用pd.loc()函数。例子,import pandas as pdx2 = pd.read_csv("submit.csv")x2假如,我要修改id=800000的isDefault的值,代码:x2.loc[x2.id==800000,'isDefault'] = 1x2或者修改id<=800003,isDefault改为"None"字符串,代码:x2.loc[x2.id<=800003,'isDefau原创 2021-04-12 09:43:03 · 19479 阅读 · 0 评论 -
(sklearn机器学习)第七章_支持向量机(1)
内容含有大量图,用jupyter notebook展示的,所以放在了我的gitee(码云)里。链接:https://gitee.com/rengarwang/sklearn-machine-learning-code/blob/master/(第七章)支持向量机/支持向量机(1).ipynb有用请点个赞!!本站所有文章均为原创,欢迎转载,请注明文章出处:https://blog.youkuaiyun.com/weixin_45092662。百度和各类采集站皆不可信,搜索请谨慎鉴别。技术类文章一般都有时效性,本人习惯原创 2021-03-19 16:15:05 · 282 阅读 · 0 评论 -
(sklearn机器学习)第六章_聚类算法(1)
%matplotlib inline%config InlineBackend.figure_format = 'svg'from sklearn.datasets import make_blobsimport matplotlib.pyplot as plt# 自己创建数据集x, y =make_blobs(n_samples=500,n_features=2,centers=4,random_state=1)fig, ax1 =plt.subplots(1)ax1.scatter(原创 2021-03-16 16:05:15 · 423 阅读 · 0 评论 -
(sklearn机器学习)第五章_逻辑回归(1)
from sklearn.linear_model import LogisticRegression as LRfrom sklearn.datasets import load_breast_cancerimport numpy as npimport matplotlib.pyplot as pltfrom sklearn.model_selection import train_test_splitfrom sklearn.metrics import accuracy_scoreda原创 2021-03-08 16:49:51 · 748 阅读 · 0 评论 -
jupyter notebook快捷操作
最常用的我标为红色。两种模式都可使用的快捷键Shift+Enter,执行本单元代码,并跳转到下一单元Ctrl+Enter,执行本单元代码,留在本单元命令模式:按Esc或鼠标单击代码块外部进入Y:cell切换到Code模式M:cell切换到Markdown模式A:在当前cell的上面添加cellB:在当前cell的下面添加cell双击D:删除当前cellZ:回退Ctrl+Shift+减号:分隔cell,在光标处L:为当前cell加上行号编辑模式:按Enter或鼠标单击代码块内部进入原创 2021-03-08 10:07:27 · 816 阅读 · 0 评论 -
(sklearn机器学习)第四章_降维算法PCA和SVD
PCA算法讲解:https://zhuanlan.zhihu.com/p/77151308SVD算法讲解:https://zhuanlan.zhihu.com/p/29846048降维算法PCA和SVD调用库和模块import matplotlib.pyplot as pltfrom sklearn.datasets import load_irisfrom sklearn.decomposition import PCA提取数据集# 提取数据集iris = load_iris()#原创 2021-02-28 12:01:50 · 874 阅读 · 1 评论 -
Python数据科学手册(笔记三)
pandas入门1、演示数据透视表利用jupyter notebook编写的,参考链接:https://gitee.com/rengarwang/Python_data_practice_code/tree/master/第三章Pandas原创 2020-11-25 10:13:08 · 169 阅读 · 0 评论 -
Python实现动态条形图
参考文章:https://mp.weixin.qq.com/s?__biz=MjM5MjAwODM4MA==&mid=2650787357&idx=3&sn=76e3b30347534ac6764a4d39e8548467&chksm=bea7bfce89d036d818b017ae6de7c89a6e250343b526adb3f5e3cc0ad246e6c22516431729ed&scene=126&sessionid=0&key=baed947原创 2020-10-11 17:00:16 · 3829 阅读 · 0 评论 -
jupyter notebook 图片显示模糊和保存清晰图片的解决办法
jupyter notebook 图片显示模糊的解决办法,加入这几行代码即可:import matplotlib.pyplot as plt%matplotlib inline%config InlineBackend.figure_format = 'svg'如果需要保存的图片很清晰,则就加入下面这行代码plt.savefig('Water-pause-times.png', dpi=500, bbox_inches='tight') # 解决图片不清晰,不完整的问题plt.show()原创 2020-10-06 19:11:33 · 11418 阅读 · 4 评论 -
简单安装cupy
Numpy已经成为Python社区的礼物。它允许数据科学家,机器学习从业人员和统计学家以简单高效的方式处理矩阵格式的大量数据。就速度而言,即使单独使用,Numpy也已经是Python的重要一步。每当您发现Python代码运行缓慢时,尤其是在看到大量for循环的情况下,将数据处理移至Numpy并使其向量化以最快的速度进行工作总是一个好主意!即使这样,Numpy仍仅在CPU上运行。对于通常具有8个或更少内核的消费类CPU,并行处理量以及因此可以实现的加速量受到限制。那就是我们的新朋友CuPy进来的地方!原创 2020-09-15 18:44:24 · 6848 阅读 · 0 评论 -
用TensorFlow2.x对银行贷款拖欠数据分析
实验一书上是利用scikit-learn对这个数据进行逻辑回归分析。它先使用了稳定性选择方法中的随机逻辑回归进行特征筛选,只保留了有效特征为“工龄,地址,负债单,信用卡负债”,然后利用筛选后的特征建立逻辑回归模型。得出的模型平均正确率为81.4%。部分数据如下:前8列是特征,后一列是标签,这是二分类问题。实验二但我使用tf2.0中的Keras构造3层全连接神经网络,求解这个2分类问题。不做特征选择,把所有的8列数据都作为特征处理。这里应该使用k倍交叉验证,但我仅仅把前600个数据作为训练,后原创 2020-09-06 13:25:41 · 991 阅读 · 1 评论 -
家用电器用户行为分析与事件识别
看了一个例子还不错,所以自己去研究下。背景居民使用家电过程,会因为地区、气候、用户年龄、性别,形成不同的使用习惯。企业通过分析用户的行为,开发新功能,拓展市场业务。采集相关数据,以热水器为例子,分析用户的使用行为。其中用水事件识别时最为关键的环节。这个例子就是采集用户的用水数据,分析用户的用水行为特征。热水器用户用水数据,如下图:大约有1万8千条数据,我们要根据数据分出洗浴事件识别模型,对不同地区的用户的用水进行识别,根据识别结果比较不同客户群的客户使用习惯。从而,可以给不同的客户提供合适的个性原创 2020-08-31 09:41:46 · 5178 阅读 · 5 评论 -
Python数据科学手册(练习)
用jupyter notebook练习,代码在我的码云里,链接https://gitee.com/rengarwang/Python_data_practice_code本站所有文章均为原创,欢迎转载,请注明文章出处:https://blog.youkuaiyun.com/weixin_45092662。百度和各类采集站皆不可信,搜索请谨慎鉴别。技术类文章一般都有时效性,本人习惯不定期对自己的博文进行修正和更新,因此请访问出处以查看本文的最新版本。...原创 2020-08-20 09:36:08 · 273 阅读 · 0 评论 -
PyCaret 2.x机器学习库
# pycaret官网地址<https://pycaret.org/setup/>'''如果直接使用from pycaret.datasets import get_datadiabetes = get_data('diabetes')会报错,网络地址不对,这是因为国内的网无法访问国外的网的问题,此时打开科学上网器,再运行这2行代码,问题就没有了。所以使用pandas读取数据'''import pandas as pddiabetes = pd.read_csv('F:/代原创 2020-08-07 14:57:36 · 1364 阅读 · 3 评论 -
基于TensorFlow2.0利用LSTM框架进行实时预测价格
基于TensorFlow-gpu2.0,利用LSTM框架进行实时预测比特币价格利用kaggle给的数据集,链接:https://www.kaggle.com/mczielinski/bitcoin-historical-data#coinbaseUSD_1-min_data_2014-12-01_to_2019-01-09.csv下载数据集后,解压,利用coinbaseUSD_1-min_data_2014-12-01_to_2019-01-09.csv文件...原创 2020-06-23 16:45:32 · 5593 阅读 · 1 评论 -
数据分析(笔记一)(Python)
数据挖掘第一个阶段,了解应用领域第二个阶段,创建目标数据集第三个阶段,选择数据、数据清洗和预处理,数据压缩和变换第四个阶段,选择数据挖掘的技术和功能,选择算法,数据挖掘第五阶段,寻找感兴趣的模式第六阶段,模式评估第七阶段,知识表达...原创 2020-06-18 10:34:13 · 436 阅读 · 0 评论 -
利用Python读取Excel表格并可视化
前言最近学习数据分析,感觉Python做数据分析真的好用。PDF转换为Excel,可以用这个网址转化:https://www.ilovepdf.com/zh-cn/pdf_to_excel正文一、准备数据1、载入Excel 表格# coding=utf8import xlrdimport numpy as npfrom pyecharts.charts import Barfrom pyecharts.charts import Pie, Gridfrom pyecharts imp原创 2020-06-04 12:29:47 · 22625 阅读 · 4 评论 -
利用pandas读取Excel文件数据
说明pandas能帮助我们在Python 代码中直接读取Excel 文件数据。但只有pandas是不行的,会报错:ImportError: Missing optional dependency 'xlrd'. Install xlrd >= 1.0.0 for Excel support Use pip or conda to install xlrd.所以我们需要安装xlrd这个包,利用下面代码安装:conda install xlrd再运行代码就可以了import pandas原创 2020-06-04 10:41:36 · 9979 阅读 · 0 评论 -
neat神经网络算法的线性回归拟合(Python)
前期做了个neat(遗传拓扑神经网络)算法进化出异或实验(xor)的网络和权重,那个非线性的都能训练出来,这个线性的应该没问题吧,所以试试。数据,保存为:data.csv首先,因为是线性规划,所以我们改下激活函数,改为relu,配置文件保存为:config-feedforward#--- parameters for the xianxing experiment ---#[NEAT]fitness_criterion = maxfitness_threshold = 99原创 2020-12-21 20:14:37 · 2462 阅读 · 2 评论 -
Python计算卡方值
Python代码import numpy as npfrom scipy.stats import chi2_contingencyd = np.array([[2, 1, 1, 0, 276], [9, 7, 4, 2, 258]])print(chi2_contingency(d))# 第一个值为卡方值,# 第二个值为P值,# 第三个值为自由度,# 第四个为与原数据数组同维度...原创 2019-10-20 10:13:10 · 8966 阅读 · 3 评论