- 博客(10)
- 资源 (5)
- 收藏
- 关注
原创 数据库之SQL行列转换
SQL行列转换数据分析经常会遇到行列转换,SQL中的行列转化集可以用常规的case when/union all语句,也可以用专门的行列转换函数pivot和unpivot。数据表表1(T1)如下表所示,是数据库常见的存储形式,课程的分数按行记录:姓名课程分数张三语文80张三数学90张三英语98李四语文82李四数学96李四...
2019-02-25 22:25:32
968
原创 Python 预测基因变异是否具有相互冲突的临床分类问题
数据下载自Kaggle的Genetic Variant Classifications数据集,大小为(65188, 46),数据原始来源于ClinVar。https://www.kaggle.com/kevinarvai/clinvar-conflicting注:数据集中只提供了变体检测结果不同时的检测数据及结果。 ClinVar上有一些关于人类遗传变异的注释的公共资源。这些变异(...
2018-09-26 19:42:18
2269
1
转载 mac 设置环境变量
mac 添加环境变量https://blog.youkuaiyun.com/handsomefuhs/article/details/79687381Mac OS增删环境变量https://www.cnblogs.com/iloveWater/p/3665472.html
2018-09-25 20:21:43
1675
转载 OMP:DYLD_LIBRARY_PATH
OMP: Erro“OMP: Error #15: Initializing libguide.dylib, but found libiomp5.dylib already initialized” is a linker error generated when different parts of a program try to link both static and dynami...
2018-09-25 20:18:17
5865
原创 Python安装 libFM
编译libFm主页: http://www.libfm.org/源代码:https://github.com/srendle/libfmlibFm手册(libFM 1.4.2 manual):http://www.libfm.org/libfm-1.42.manual.pdfLibFM使用手册中文版: https://blog.youkuaiyun.com/Chloezhao/article/deta...
2018-09-20 19:07:30
5992
原创 kaggle: Facebook V Predicting Check Ins
数据抽样将数据分成块(chunk),便于最近邻计算 特征工程(430)k=2500,选取前100个候选地点与坐标有关的特征XGboost特征:(记录最近邻点的地点分布情况) 最近邻(10个):k=1,5,10,20,50,100,250,500,1000,2500; xy比例(7个):r=1, 2.5, 4, 5.5, 7, 12, 30空间密度(10个...
2018-09-13 13:32:22
2030
原创 python 字符串处理
本文参考《利用python进行数据分析》第七章中字符串操作部分内容内置的字符串对象方法分隔符拆分字符串去空格/换行符字符串连接查询子串子串出现次数字符串替换Python 内置的字符串方法分隔符拆分字符串In [1]: val = 'Machine learning, Data analysis.'#按逗号分割In [2]: val.split(',')Out...
2018-09-04 23:51:54
461
翻译 Hyperopt 参数优化
Hyperopt简介Hyperopt(Hyper-parameter Optimization)用于模型选择和参数优化。 参数选择在训练模型时是一个很关键的部分。然而存在这样的问题,一方面参数选择背后包含着一定的数学原理,对于新手来说难上手;另一方面,一个模型会涉及到多个参数,要量化评估各种可能性是一个很大的工程量。因此hyperopt是一个很实用的函数库,可以帮助我们快速选定模型参数,得到...
2018-08-28 20:02:03
15173
4
原创 mac matlab安装libsvm
需要文件:Xcode7.2.dmg(以及内置的Command Line Tools)、matlab2015b、xcode7_mexopts.zip、optsPatch10.8.patch、libsvm-3.23.tar.gz获取方式:(1)matlab 密码:ieka(2)XCode、libsvm及其他 密码:zdcglibsvm源文件使用c++写的,使用XCode中的c++......
2018-08-17 14:18:36
2317
8
原创 利用Python进行描述性统计
统计学分为描述统计学和推断统计学,描述统计学是使用特定的数字或图表来体现数据的集中程度或离散程度,如平均数、中位数、众数、方差、标准差;推断统计学是根据样本数据来推断总体特征,如产品检查,一般采用抽检,根据所抽样本的质量合格率作为总体质量合格率的一个估计。一、均值、中位数、众数、极差、方差、标准差 利用Python进行描述性统计分析,需要用到numpy库和scipy库:fro
2018-01-22 12:44:50
18789
软件设计师历年真题(2004-2009)
2013-12-08
软件设计师重点考点
2013-12-08
JDK API 1.7 英文.chm
2013-11-10
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人