- 博客(17)
- 资源 (1)
- 收藏
- 关注
原创 在pyspark上使用xgboost
xgb是机器学习业界常用模型,在spark上不像RF等有现成的build in model,所以需要自己弄一下,不过也不是很难。1. 预备工作首先需要下两个jar文件,xgboost4j-spark-0.72.jar 和xgboost4j-0.72.jar,链接如下。之后要下载一个sparkxgb.zip,里面包括了pyspark代码去call jar文件以及set up一些参数。xgboost4j: https://mvnrepository.com/artifact/ml.dmlc/xg..
2020-11-04 16:19:26
4886
15
原创 SQL学习
2020/04/04IN/LIKEWhere column_name IN (value1,value2)Like 中的%类似于正则表达式中的* _匹配任意单个字符 like如果没有%和_,就相当于 = 的效果case when是流程控制语句,可以在SQL 语句中适用case when来获取更加准确和直接的结果。SQL 中的case when类似于ifelse语法有两...
2020-04-04 15:38:38
197
原创 leetcode刷题笔记(LinkedList相关)
206.Reverse Linked ListReverse a singly linked list.Example:Input: 1->2->3->4->5->NULLOutput: 5->4->3->2->1->NULL# Definition for singly-linked list.# class ...
2020-04-04 15:01:17
212
原创 leetcode刷题笔记(Tree相关)
104. Maximum Depth of Binary TreeGiven a binary tree, find its maximum depth.The maximum depth is the number of nodes along the longest path from the root node down to the farthest leaf node.Not...
2020-04-04 14:44:58
153
原创 MS
Project1.AML有label的: - down sampling /xgboost/Hql无label的: - Autoencoder2.CRANE: 改正features / add new features3. Branchpiitsstop- R/R shiny/Xgboost explainer/Shap value4. Spark- 改写...
2020-02-29 15:02:00
213
原创 Pyspark 常用命令
1. read files# define schemafrom pyspark.sql.types import StructType,StructFieldfrom pyspark.sql.types import DoubleType,StringType,IntegerTypeschema = StructType([ StructField('x1' = St...
2020-02-22 17:40:37
597
原创 Python Practice
1. Lamda# Create a list of strings: spellsspells = ["protego", "accio", "expecto patronum", "legilimens"]# Use map() to apply a lambda function over spells: shout_spellsshout_spells = map(lambda...
2019-12-27 13:53:46
197
原创 Spark学习笔记(Structure Streaming)
相当于在旧的dataframe上并上新的数据微批处理:先写入日志持续处理:异步处理操作步骤# 1.导入pyspark模块From pyspark.sql import SparkSessionFrom pyspark.sql.functions import splitFrom pyspark.sql.functions import explode# 2.创建s...
2019-10-27 13:11:37
498
原创 Spark SQL
Hive 原理 把SQL 转化成底层的MapReduce结构RDD只能看见对象看不见对象中的内容; dataframe可以看见内容SparkSession支持从不同的数据源加载数据 并把数据转换为dataframe支持把dataframe转换成SQL context自身的表然后使用SQL来操作数据# 创建Sparksession对象from pyspark import Sp...
2019-10-15 11:01:24
160
原创 Spark MLib的使用
Spark MLibIntroMapReduce 不适合做机器学习-> 反复读写磁盘的开销/不适合机器学习需要的大量迭代计算。MLib中只包含能够在集群上运行良好的并行算法,有些算法不能并行执行,所以无法包含在MLib中。package:spark.mlib基于RDD;spark.ml基于dataframe。机器学习流水线dataframe/trans...
2019-10-13 14:32:20
607
原创 NLP 基础
1.re模块1.将正则表达式的字符串形式编译为Pattern实例 2.使用Pattern实例处理文本并获得匹配结果(一个Match实例) 3.使用Match实例获得信息,进行其他的操作。 import re # 将正则表达式编译成Pattern对象pattern = re.compile(r'hello.*\!')# 使用Pattern匹配文本,获得匹配结果,无法匹配时将返回N...
2019-10-06 12:20:09
95
原创 python算法与数据结构学习笔记
排序算法1. 冒泡排序冒泡排序,从左到右,分别比较两个相邻数字的大小,如果后面一个数小于前面的数就进行交换。def bubble_sort(seq): l = len(seq) for i in range(l-1): for j in range(l-1-i): if seq[j] > seq[j+1]: ...
2019-09-11 22:46:37
232
原创 python基础
变量:1.无需声明 2. 变量类型动态改变0b01001(二进制) 0o344(八进制)0xaf(十六进制)字符串含有引号:1. 用\转义 2. 用不同引号括起来字符串拼接:数值先用str()/repr()转换,用”+“拼接; 长字符串用三个引号拼接,或‘\n’换行;但r开头,‘\n’不会变成换行符字节串: bytes()函数/encode()方法,或者在字符串前加‘b...
2019-09-11 22:00:01
194
原创 Leetcode刷题笔记(python3版)
EASY LEVEL:1108.Defanging an IP Address题目:Given a valid (IPv4) IPaddress, return a defanged version of that IP address. AdefangedIP addressreplaces every period"."with"[.]".Example 1:...
2019-09-01 16:57:42
613
原创 Spark学习笔记(RDD编程基础)
1. RDD创建 spark core从文件读取 >>> lines = sc.textFile("file:///user/data_path") # localScala> val lines = sc.textFile("hdfs://localhost:9000/user/data_path") # from hdfs>>> li...
2019-08-27 15:23:17
980
原创 Spark学习笔记(基本概念与环境部署)
21/08/201910.Spark概述spark速度快的原因1.内存计算 2.有向无环图通用性很强:以前需要1.SQL查询:spark SQL实现 2.流式计算:spark stremming 实现 3.机器学习: spark MLib 4.图算法软件:spark GraphX 实...
2019-08-21 23:20:38
205
原创 Market Basket Analysis Using Association Rules in R
learn to use association rules in R, refer to the book: Machine Learning with RApriori property: all subsets of a frequent itemset must also be frequent.to reduce the association rule
2017-11-08 13:06:41
525
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人