- 博客(8)
- 收藏
- 关注
原创 Git 常用命令记录
git status 显示分支与本地仓库的版本区别状态git add * 提交文件git commit-m "comments" 本地提交git push origin master 推送到远程分支git remote origin set-url [url] 更改远程地址...
2019-04-09 09:06:15
161
翻译 The ML Test Score: A Rubric for ML Production Readiness and Technical Debt Reduction 重点翻译
传统测试与ML测试的区别:测试特征和数据特征期望需要在固定模式:保证合适的数据分布和数据特征,使用可视化工具实现。 所有的特征对于模型有益:通过对于每个特征相关度的计算移除不必要的特征。 每个特征的cost均衡:不仅仅只考虑延迟和RAM使用量,同事考虑上流数据依赖性以及数据依赖不稳定性 特征与高水平的需求有关: 数据的流水线有合适的隐私控制 新的特征可以迅速加入 所有的特征代码...
2019-01-18 18:40:15
761
原创 python小tips汇总
1. @property用于定义class时,针对属性加以范围或类型限定,同时可以控制该属性是否为只读属性。首先将需定义的属性设为类函数: def attribute():...然后,@property 与 @attr.setter 配套使用,前者相当于get,后者相当于set,@attr.setter 的函数名应与 @property相同。 @property def attrib...
2019-01-10 15:28:43
327
原创 pyspark ALS 简单总结
Pyspark 常见数据清洗和补全指令: Dataframe Df.select() 选取某列 Df.fillna(0) 用0补全所有na位 Df.filter(cond.)=Df.where(cond.) 按照cond.过滤df,相当于...
2018-12-28 19:40:11
2746
原创 Hive 编程指南 笔记总结
Hive 简单指令 --e 执行一次关闭 --s 省略ok time taken等标准输出 --f 执行文件中hql命令 如果已经进入 hive 模式则可以直接 source+路径 ! 在hive 中直接执行bash shell命令, 格式‘!’ + 命令 Dfs …. Hadoop 中dfs命令,其运行效率比hadoo...
2018-12-03 18:45:11
247
原创 Learning Pyspark 笔记小结(二)
MLlib Learning module 包括三个部分: Data preparation:特征抽取,转换,选中,hash,nlp方法 Machine learning algorithms:流行的回归,分类聚类算法 Utilities:统计方法:描述性统计,卡方检验,线性代数(稀疏和密集矩阵和向量),以及模型评估,方法 ...
2018-12-03 17:12:42
974
原创 Learning Pyspark 笔记小结(一)
环境配置 https://blog.youkuaiyun.com/u011513853/article/details/52865076 RDD 弹性分布式数据集 Create RDD 从文件读取Lines=sc.textFile(‘path/filename’) ,每行默认为一个元素。 ...
2018-12-02 21:40:44
826
翻译 Postgresql function部分定义及翻译
CREATE [ OR REPLACE ] FUNCTION Name函数名 ( [ [ argmode 参数形式:IN OUT INOUT VARIADIC 默认为IN ] [ argname 参数名\列名 ] argtype 变量类型 [ { DEFAULT | = }default_expr ] [, ...] 默认值] ) [ RETURNS rettype 返回值类型:如果是...
2018-05-07 12:13:21
1225
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅