
python
汪喵行
这个作者很懒,什么都没留下…
展开
-
在pyspark上使用xgboost
xgb是机器学习业界常用模型,在spark上不像RF等有现成的build in model,所以需要自己弄一下,不过也不是很难。1. 预备工作首先需要下两个jar文件,xgboost4j-spark-0.72.jar 和xgboost4j-0.72.jar,链接如下。之后要下载一个sparkxgb.zip,里面包括了pyspark代码去call jar文件以及set up一些参数。xgboost4j: https://mvnrepository.com/artifact/ml.dmlc/xg..原创 2020-11-04 16:19:26 · 4902 阅读 · 15 评论 -
leetcode刷题笔记(LinkedList相关)
206.Reverse Linked ListReverse a singly linked list.Example:Input: 1->2->3->4->5->NULLOutput: 5->4->3->2->1->NULL# Definition for singly-linked list.# class ...原创 2020-04-04 15:01:17 · 214 阅读 · 0 评论 -
leetcode刷题笔记(Tree相关)
104. Maximum Depth of Binary TreeGiven a binary tree, find its maximum depth.The maximum depth is the number of nodes along the longest path from the root node down to the farthest leaf node.Not...原创 2020-04-04 14:44:58 · 160 阅读 · 0 评论 -
Pyspark 常用命令
1. read files# define schemafrom pyspark.sql.types import StructType,StructFieldfrom pyspark.sql.types import DoubleType,StringType,IntegerTypeschema = StructType([ StructField('x1' = St...原创 2020-02-22 17:40:37 · 599 阅读 · 0 评论 -
Python Practice
1. Lamda# Create a list of strings: spellsspells = ["protego", "accio", "expecto patronum", "legilimens"]# Use map() to apply a lambda function over spells: shout_spellsshout_spells = map(lambda...原创 2019-12-27 13:53:46 · 198 阅读 · 0 评论 -
Spark学习笔记(Structure Streaming)
相当于在旧的dataframe上并上新的数据微批处理:先写入日志持续处理:异步处理操作步骤# 1.导入pyspark模块From pyspark.sql import SparkSessionFrom pyspark.sql.functions import splitFrom pyspark.sql.functions import explode# 2.创建s...原创 2019-10-27 13:11:37 · 501 阅读 · 0 评论 -
Spark SQL
Hive 原理 把SQL 转化成底层的MapReduce结构RDD只能看见对象看不见对象中的内容; dataframe可以看见内容SparkSession支持从不同的数据源加载数据 并把数据转换为dataframe支持把dataframe转换成SQL context自身的表然后使用SQL来操作数据# 创建Sparksession对象from pyspark import Sp...原创 2019-10-15 11:01:24 · 162 阅读 · 0 评论 -
Spark MLib的使用
Spark MLibIntroMapReduce 不适合做机器学习-> 反复读写磁盘的开销/不适合机器学习需要的大量迭代计算。MLib中只包含能够在集群上运行良好的并行算法,有些算法不能并行执行,所以无法包含在MLib中。package:spark.mlib基于RDD;spark.ml基于dataframe。机器学习流水线dataframe/trans...原创 2019-10-13 14:32:20 · 613 阅读 · 0 评论 -
python算法与数据结构学习笔记
排序算法1. 冒泡排序冒泡排序,从左到右,分别比较两个相邻数字的大小,如果后面一个数小于前面的数就进行交换。def bubble_sort(seq): l = len(seq) for i in range(l-1): for j in range(l-1-i): if seq[j] > seq[j+1]: ...原创 2019-09-11 22:46:37 · 234 阅读 · 0 评论 -
python基础
变量:1.无需声明 2. 变量类型动态改变0b01001(二进制) 0o344(八进制)0xaf(十六进制)字符串含有引号:1. 用\转义 2. 用不同引号括起来字符串拼接:数值先用str()/repr()转换,用”+“拼接; 长字符串用三个引号拼接,或‘\n’换行;但r开头,‘\n’不会变成换行符字节串: bytes()函数/encode()方法,或者在字符串前加‘b...原创 2019-09-11 22:00:01 · 194 阅读 · 0 评论 -
Leetcode刷题笔记(python3版)
EASY LEVEL:1108.Defanging an IP Address题目:Given a valid (IPv4) IPaddress, return a defanged version of that IP address. AdefangedIP addressreplaces every period"."with"[.]".Example 1:...原创 2019-09-01 16:57:42 · 615 阅读 · 0 评论 -
Spark学习笔记(基本概念与环境部署)
21/08/201910.Spark概述spark速度快的原因1.内存计算 2.有向无环图通用性很强:以前需要1.SQL查询:spark SQL实现 2.流式计算:spark stremming 实现 3.机器学习: spark MLib 4.图算法软件:spark GraphX 实...原创 2019-08-21 23:20:38 · 206 阅读 · 0 评论