数据分析
文章平均质量分 62
dltan
百川终到海。微信:realtimedata
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Python对Echarts进行多图分栏同一页面显示
多图表同一页显示原创 2019-12-19 18:55:54 · 5099 阅读 · 0 评论 -
Python将本地数据迁移到mysql中
利用Python将本地的excel,csv数据迁移到数据库中原创 2019-12-11 11:38:19 · 676 阅读 · 0 评论 -
Python和R语言交互:Python执行R语言程序脚本
Python借助系统执行R语言程序脚本,实现R语言和Python进行程序交互。R语言在系统中配置环境变量,保障脚本运行写一个R语言的程序脚本,放到系统中的任意路径位置,确定cmd的环境变量下R语言的执行命令可以成功启动,如下所示:RR语言安装后,使得他的环境变量在windows中配置成功生效后,就可以在系统环境中任意位置启动R语言,例如在E盘位置也可进行启动R,如下所示:配置R语言在win...原创 2019-12-09 11:03:55 · 10388 阅读 · 0 评论 -
Python温习(二) —— 如何学习Python的模块包
Python好学的优势python的一个优势是有着大量自带和在线的模块(module)资源,可以提供丰富的包和函数功能,在使用这些模块的时候,如果每次都去网站查询在线文档,了解如何使用Python,那么就会过于浪费大量的时间,结果可能也不一定准确。因此python自带的查看帮助功能显得非常重要,能让我们在编程时不中断地迅速找到所需模块和函数的使用方法。这在一点上和R语言的library有异曲同工...原创 2019-12-05 10:40:10 · 2459 阅读 · 1 评论 -
Python温习(一)——Flag学习回顾
前言 好久没用Python了,打算再次使用,发现忘记了好多,于是重新开始再次将Python的一些东西过一遍,这样温故知新,工作上可以更好的使用。看到一篇博客中别人的学习思路,于是按照他的思路方法过一遍进行学习。学习路线如下:开发环境搭建基础变量数据类型条件判断和循环函数和类模块文件操作异常处理...原创 2019-12-05 09:55:06 · 890 阅读 · 0 评论 -
Excel的VBA多个sheet数据拆分与批注提取及数据列去重复
Excel一列值中去除重复项数据,多个Excel的单元sheet,拆分成单个excel文件。Excel的批注和备注信息提取。原创 2019-11-04 23:01:02 · 1780 阅读 · 0 评论 -
姓名数据挖掘偏好选字分析
姓名数据挖掘好的名字,将伴随人的一生。一个人的姓氏很难改变,但名却又有很多相同,红楼梦尚有贾史王薛,百家姓尚有整合。那关于一个人的名,是否有什么意义探究呢?为此选择一些数据进行姓名的名偏好进行分析,看大家取名的偏好如何,是否天生丽质,婷婷静好?选择数据如下所示:第一步:分割数据library(readxl)library(data.table)data=read_excel(“C:\...原创 2019-10-31 19:37:48 · 814 阅读 · 1 评论 -
R语言的3倍标准差的异常值识别
异常值识别使用quantile找出75%分位数,大于其三倍。三倍于标准差之上的数据为异常值。set.seed(2019)x <- runif(200)qq <- quantile(x)out <- 1.5 * (qq[4]-qq[2])plot(x[x>=out], col = 1, xlim = c(2, 100), ylim = c(0, 1))poin...原创 2019-07-06 11:32:43 · 8102 阅读 · 0 评论 -
cmd下的R语言环境变量配置和安装rJava包
R语言java环境变量配置,R语言环境变量配置,安装rJava包原创 2019-07-05 21:22:04 · 12625 阅读 · 3 评论 -
Python对数据进行量纲化处理
数据集的训练集和测试集划分from sklearn.model_selection import train_test_splitpatientdata为数据集traindata, testdata = train_test_split(patientdata, test_size = 0.1)数据标准化减小量纲的影响import numpy as nparr_mean = np....原创 2019-07-05 21:20:19 · 4134 阅读 · 1 评论 -
Python将SQL数据转换为数据框
安装包pip install cx_Oracle安装pip install sqlalchemy安装pip install pandasimport cx_Oracleimport pandas as pdfrom sqlalchemy import create_engine获取数据库连接username="******"userpwd="******"host="*****...原创 2019-07-01 00:00:00 · 999 阅读 · 2 评论 -
R语言绘制等值线和等高线
数据读取data1 <- read.table(‘forams-Plio.txt’,sep = ‘\t’,header = TRUE)head(data1)str查看数据结构后,知道数据是242个,那么说明高是242个高,那咱们看242能被2和121进行相乘。涉及的矩阵为2成121。那么我想设计成30乘以8的矩阵,就可以删掉2个元素,暂时只是删掉一个。如下所示。#设置高程值st...原创 2019-06-30 23:57:29 · 18343 阅读 · 2 评论 -
Python数据清洗
数据基本情况查看from pandas import Series,DataFramefrom numpy import nan as NAdata = pd.read_csv('C://Users//TD//Desktop//hosptdata.csv')print(data.dropna())data.head(5) #显示前5行数据data.tail(5) #显示...原创 2019-06-30 23:45:41 · 1236 阅读 · 0 评论 -
R语言绘图大小设定
图片大小设定x = c(1:10)y = c(11:20)par(pin = c(5,3))#pin()函数控制图形的尺寸plot(x = x, y = y)x = c(1:10)y = c(11:20)par(pin = c(2,3))#pin()函数控制图形的尺寸plot(x = x, y = y)...原创 2019-07-05 21:54:36 · 71198 阅读 · 1 评论 -
Python的条件查询和提取
读取数据import pandas as pddata = pd.read_csv("C://Users//TD//Desktop//1.csv")查看前5行data.head()查看后5行data.tail()查看指定的n行data.head(n=2)data.tail(n=2)查看数据字段名称、列名称data.columns提取指定行和列的数据data.ilo...原创 2019-07-04 10:52:28 · 6692 阅读 · 0 评论 -
从不同角度进行研发:程序设计更重要的是产品设计思想
一个好的产品开发。产品设计从多角度进行:CEO、CTO、业务经理、员工等都需要进行满足,只有从不同角度进行,才能设计好的产品原创 2019-07-09 11:17:25 · 444 阅读 · 0 评论 -
R语言数据合并
R语言数据合并:ID关联合并、横向合并、纵向合并,数据框的字段合并,使用sqldf包、merge/paste/rbind/cbind进行操作。原创 2019-07-09 11:08:51 · 43270 阅读 · 1 评论 -
R语言组合绘图和多个图形叠加、图片叠加绘图
实现组合绘图、多个图形重合叠加、图片叠加绘图。不同的数据图放到同一张图展示。原创 2019-07-02 13:59:55 · 65175 阅读 · 6 评论 -
R语言给直方图加标签
hist(data$MEDV,col="grey")#可以看到目标数据的总体分布legend(35,170,c("min:5","median:21.2","mean:22.51","max:50"),fill=c("lightblue","wheat"))原创 2019-07-07 23:43:15 · 8094 阅读 · 0 评论 -
Python数据读取与线性回归分析
df = pd.read_csv(‘C:\Users\TD\Desktop\项目\mite_xy.csv’)df = pd.read_csv(‘C:/Users/TD/Desktop/项目/mite_xy.csv’)原创 2019-06-25 23:52:52 · 5656 阅读 · 0 评论 -
Python3和MySQL与Oracle数据库连接
连接MySQL数据库导入pymysqimport pymysql创建一个连接对象,再使用创建游标con = pymysql.connect(host='主机IP', port=3306, user='用户名', passwd='用户名密码', db='数据库名称')cursor = con.cursor()执行一个SQL语句sql = "select * from r_user"...原创 2019-06-10 16:58:08 · 594 阅读 · 0 评论 -
多变量处理的LASSO方法
1.lasso方法其中,因变量是Y,自变量是X。(数据中的变量众多,但如何选择X,就使用了lasso)lasso能够对变量进行筛选和对模型的复杂程度进行降低。这里的变量筛选是指不把所有的变量都放入模型中进行拟合,而是有选择的把变量放入模型从而得到更好的性能参数。lasso回归的特色就是在建立广义线型模型的时候,这里广义线型模型包含一维连续因变量、多维连续因变量、非负次数因变量、二元离散因变...原创 2019-06-07 16:10:26 · 12505 阅读 · 1 评论 -
DMIAES 疾病风险建模在疾病风险调整及其在医院精准监管与评估中的应用
最近再次回到医疗行业,对医疗数据建模评估挖掘,进行了研究总结如下。1.研究思路DMIAES 疾病风险的建模方法和步骤① 导入历史住院病案首页数据等相关数据。 ②清理数据,删除缺乏关键指标数据和存在极值数据的病案首页数据。 ③将 DRG 作为患者分组依据,将成人与儿童分开建立数据集,每个数据集单独建模。 ④对同一数据集中自变量由患者的人口信息、入院途径和来源、合并症和并发症(简称 CC)的诊...原创 2019-05-31 14:31:03 · 3236 阅读 · 0 评论 -
R语言神经网络
R语言中已经有许多用于神经网络的package。例如nnet、AMORE以及neuralnet,nnet提供了最常见的前馈反向传播神经网络算法。AMORE包则更进一步提供了更为丰富的控制参数,并可以增加多个隐藏层。neuralnet包的改进在于提供了弹性反向传播算法和更多的激活函数形式。但以上各包均围绕着BP网络,并未涉及到神经网络中的其它拓扑结构和网络模型。而新出炉的RSNNS包则在这方面...原创 2019-07-06 17:51:26 · 17729 阅读 · 6 评论 -
superset的可视化BI配置安装
superset是一款非常不错的可视化工具,支持多数据库进行连接。以下是superset的可视化BI配置安装详细教程。原创 2019-07-18 11:05:57 · 1185 阅读 · 1 评论 -
R语言筛选两列中元素相同的重复数据
R语言筛选V2和V3两列中,元素的重复次数超过2次以上的数据,其中2和3的重复次数超过3次,需要筛选出来。筛选不同门店的数量,进行数据计数和统计。原创 2019-09-06 16:21:29 · 49512 阅读 · 2 评论 -
动态数据下的Echarts可视化平台构建
引用Echarts是百度开源的可视化产品,以国外zrender开源的javascript的可视化插件包为基础,加工整理成新的图形js包,新的js包对应不同的数据图形。实现数据的动态变化,制作成新的数据图形。原创 2019-09-06 12:33:34 · 2149 阅读 · 0 评论 -
Python对数据框和列表进行互相转换
数据框转换为列表test是数据框,将该数据转换为列表import numpy as nptrain_data = np.array(test)#np.ndarray()train_newdata_list=train_data.tolist()#listtype(train_newdata_list)列表转换为数据框data是列表,将其转为数据框from pandas.core....原创 2019-08-23 11:58:27 · 9724 阅读 · 0 评论 -
定序回归分析
数据读取情况library(readxl)data <- read_excel("录入数据.xlsx",sheet="Sheet4")str(data)is.na(data) # 判断是否存在缺失n <- sum(is.na(data)) # 输出缺失值个数print(n)绘制主要变量的统计情况——柱状图attitude <- table(data$ 对公民...原创 2019-08-18 15:46:17 · 6789 阅读 · 2 评论 -
可视化BI开源工具
下载链接:https://www.stat.auckland.ac.nz/~wild/iNZight/install/原创 2019-08-13 11:11:15 · 2290 阅读 · 0 评论 -
R语言连接Oracle数据库和MySQL数据库
R语言读取Oracle数据库的数据1.环境准备setwd("C:\\Users\\Administrator\\Desktop\\test_0racle")在路径D:\app\Administrator\product\11.2.0\dbhome_1\jdbc\lib下找到文件ojdbc6_g.jar将该文件放置到C:\Users\Administrator\Desktop\test_0r...原创 2019-08-12 14:31:18 · 1398 阅读 · 0 评论 -
数据挖掘下的内存处理程序运行数据卡顿的方法:虚存扩展
解决R语言处理数据卡顿,虚拟内存的扩充,让计算机的应用程序有更多的内存进行使用。原创 2019-08-14 09:56:45 · 2784 阅读 · 0 评论 -
Linux上Python连接Oracle解决报错cx_Oracle.DatabaseError: DPI-1047
解决Linux上Python连接Oracle出现报错cx_Oracle.DatabaseError: DPI-1047的方法总结。原创 2019-08-09 10:47:55 · 26190 阅读 · 0 评论 -
Echarts配置安装和简单构建
echarts的配置安装,进行实时数据的可视化分析。原创 2019-08-01 16:32:57 · 15703 阅读 · 2 评论 -
实现数字和汉字的自动分离方法
数字和汉字合并在一起进行分离,用lenb函数将数字和汉字进行分裂。原创 2019-08-01 16:22:51 · 2296 阅读 · 0 评论 -
R语言的Rattle可视化BI数据挖掘分析工具
Rattle是一个免费的开源数据挖掘工具,它集合数据挖掘、数据可视化为一体的工具。原创 2019-07-26 14:46:25 · 3288 阅读 · 0 评论 -
医药效果的药品作用分析
为了将药品之间的效果和疗效进行展示,使用了网络相关图形。数据如下所示:程序如下import matplotlib.pyplot as pltimport networkx as nxfrom pylab import *mpl.rcParams['font.sans-serif'] = ['SimHei']G = nx.Graph()G.add_edge('抗凝药', '维生素K...原创 2019-07-31 14:18:03 · 490 阅读 · 0 评论 -
Docker安装Python的集成excel环境
安装下载对应的包后进行安装,需要centos7.4进行安装运行36 ls37 chmon gridstudio-master.zip38 chmod 777 gridstudio-master.zip39 unzip gridstudio-master.zip40 ls41 cd gridstudio-master42 ls43 ./run.sh检验安装情况...原创 2019-08-02 14:54:18 · 1058 阅读 · 0 评论 -
医疗疾病感染数据分析——以手术感染为例
医院感染现状数据分析,医院院审评报,一年多次评审。如何让医院感染率下降,达到国家的水准,有必要对医院的卫生数据进行可视化的探索分析。原创 2019-07-24 18:15:01 · 1764 阅读 · 0 评论 -
R语言的Rcommander的模型开发和应用
R语言模型开发,最简洁的“SPSS”的傻瓜式操作,开源和可集成的应用工具。原创 2019-07-29 11:51:33 · 2394 阅读 · 0 评论
分享