- 博客(804)
- 资源 (3)
- 收藏
- 关注
原创 ≪统计学习精要(The Elements of Statistical Learning)≫课堂笔记(五)
≪统计学习精要(The Elements of Statistical Learning)≫课堂笔记(5)
2023-02-28 22:51:45
531
原创 李宏毅机器学习|图神经网络Graph Nerual Networks(GNN)|学习笔记-part2
李宏毅机器学习|图神经网络Graph Nerual Networks(GNN)|学习笔记-part2
2022-12-06 21:36:31
572
原创 李宏毅机器学习|图神经网络Graph Nerual Networks(GNN)|学习笔记-part1
李宏毅机器学习|图神经网络Graph Nerual Networks(GNN)|学习笔记
2022-12-06 21:21:56
1628
原创 论文笔记 A Comprehensive Survey on Graph Neural Networks(GNN综述)
论文笔记 A Comprehensive Survey on Graph Neural Networks(GNN综述)
2022-12-01 21:44:33
1338
1
原创 Graph Neural Networks (GNN)(五):Graph Embedding (DeepWalk, Line, Node2Vec)
Graph Neural Networks (GNN)(五):Graph Embedding (DeepWalk, Line, Node2Vec)
2022-11-29 21:13:47
640
原创 Graph Neural Networks (GNN)(四):Spectral-GNN 与 Spatial-GNN 对比
Graph Neural Networks (GNN)(四):Spectral-GNN 与 Spatial-GNN 对比
2022-11-28 20:05:46
317
原创 Graph Neural Networks (GNN)(三):Spectral-GNN 之 GCN
Graph Neural Networks (GNN)(三):Spectral-GNN 之 GCN
2022-11-28 19:58:07
606
原创 Graph Neural Networks (GNN)(二):Spectral-GNN 引言和导入
Graph Neural Networks (GNN)(二):Spectral-GNN 引言和导入
2022-11-28 12:24:47
234
原创 Graph Neural Networks (GNN)(一):Spatial-GNN
Graph Neural Networks (GNN)(一):Spatial-GNN
2022-11-28 11:24:05
945
原创 spark实战问题(一):is running beyond physical memory limits. Current usage: xx GB of xx GB physical memory
spark实战OOM
2022-10-07 18:24:12
602
原创 Spark复杂数据结构
Scala一般使用两种类型的数据,val(常量)和var(变量),并且Scala提倡使用常量而不是变量;所以当定义一个对象或变量时,我们所定义的这个对象是不变的;即我们所使用的Array,List都是不可变对象。Scala同时支持可变集合、不可变集合,两个主要的包:不可变集合:scala.collection.immutable可变集合:scala.collection.mutableScala优先采用不可变集合,对于几乎所有的集合类,Scala都同时提供了 可变、不可变的版本。数组 Ar
2021-07-12 22:51:14
230
1
原创 Spark常用特殊符号详解
=>(匿名函数)在Spark中函数也是一个对象可以赋值给一个变量。Spark的匿名函数定义格式:(形参列表) => {函数体}所以,=>的作用就是创建一个匿名函数实例。比如:(x:Int) => x +1 ,就等同于下面的Java方法:public int function(int x) { return x+1;}示例:class Symbol { var add = (x: Int) => x + 1}object t...
2021-07-12 22:23:50
3122
2
原创 Scala基础语法
Scala 与 Java 的最大区别是:Scala 语句末尾的分号 ; 是可选的。我们可以认为 Scala 程序是对象的集合,通过调用彼此的方法来实现消息传递。接下来我们来理解下,类,对象,方法,实例变量的概念: 对象 -对象有属性和行为。例如:一只狗的状属性有:颜色,名字,行为有:叫、跑、吃等。对象是一个类的实例。 类 -类是对象的抽象,而对象是类的具体实例。 方法 -方法描述的基本的行为,一个类可以包含多个方法。 字段 -每个对象都有它唯一的实例变量集合,...
2021-07-12 08:44:02
140
转载 Spark编程指南
备注:根据官网http://spark.apache.org/docs/latest/rdd-programming-guide.html进行对比更新Spark编程指南(写在前面,本文是翻译自2015年7月29日的http://spark.apache.org/docs/latest/programming-guide.html,由于水平所限,肯定存在很多翻译不到位地方。本文的翻译是为了加深自己作为初学者对Spark的理解,欢迎大家指出各种理解上的错误。)一,概述每个Spark应用都有一个.
2021-07-04 17:37:55
476
原创 HIVE-null值不计数量,空字符串计数量
SELECTcount(id) as id,count(distinct id) as ids_id,count(id1) as id1,count(distinct id1) as ids_id1 ,count(name) as name1,count(distinct name) as ids_name1from(SELECT '2' as idunion allSELECT '3' as idunion allSELECT '1' as id)p1left join(.
2021-07-04 17:25:14
208
1
原创 Spark-submit参数优化配置
在开发完Spark作业之后,就该为作业配置合适的资源了。Spark的资源参数,基本都可以在spark-submit命令中作为参数设置。很多Spark初学者,通常不知道该设置哪些必要的参数,以及如何设置这些参数,最后就只能胡乱设置,甚至压根儿不设置。资源参数设置的不合理,可能会导致没有充分利用集群资源,作业运行会极其缓慢;或者设置的资源过大,队列没有足够的资源来提供,进而导致各种异常。总之,无论是哪种情况,都会导致Spark作业的运行效率低下,甚至根本无法运行。因此我们必须对Spark作业的资源使用原理有一个
2021-07-04 17:22:01
957
原创 Spark-saveAsTextFile 分区设置
scala> val rd1 =sc.parallelize(Array(1 to 10000))rd1: org.apache.spark.rdd.RDD[scala.collection.immutable.Range.Inclusive] = ParallelCollectionRDD[24] at parallelize at <console>:24scala> rd1.partitions.sizeres32: Int = 24scala> rd1.s
2021-07-04 17:06:34
899
原创 spark中saveAsTextFile如何最终生成一个文件
一般而言,saveAsTextFile会按照执行task的多少生成多少个文件,比如part-00000一直到part-0000n,n自然就是task的个数,亦即是最后的stage的分区数。那么有没有办法最后只生成一个文件,而不是成百上千个文件了?答案自然是有办法。 在RDD上调用coalesce(1,true).saveAsTextFile(),意味着做完计算之后将数据汇集到一个分区,然后再执行保存的动作,显然,一个分区,Spark自然只起一个task来执行保存的动作,也就只有一个文件产生了。又或
2021-07-03 18:28:56
850
1
原创 HIVE-查看表大小
因为hive底层数据存储用的还是hadoop,所以查看表大小可以直接用hadoop提供的查看文件目录命令:hadoop fs -count -q -h hive表所在目录-h是将字节显示转为GB的方式显示。
2021-07-03 16:54:38
1399
原创 org.apache.spark.SparkException:job aborted due to stage failure spark driver maxResultSize (1024)
org.apache.spark.SparkException:job aborted due to stage failure spark driver maxResultSize (1024)本地local模式运行报spark.driver.maxResultSize超出1024M,接下来分解决方法、参数含义及默认值等维度说明。一、解决方法:增大spark.driver.maxResultSize,设置方式是sparkConf.set("spark.driver.maxResultSi
2021-07-03 16:50:43
1444
原创 Spark- SparkSQL中 Row.getLong 出现NullPointerException错误的处理方法
ERROR:在SparkSQL中获取Row的值,而且Row的字段允许null时,在取值的时候取到null赋值给新的变量名会报NullPointerException错误解决:可以先用row.isNullAt(index)去判断该字段的值是否为空具体案例如下:首先上错误修改为先初始化变量,判断row.isNullAt(6) 如果不为空就将值赋值给变量...
2021-07-03 16:31:56
1036
原创 python - lightgbm相关实践
相关文章:R+python︱XGBoost极端梯度上升以及forecastxgb(预测)+xgboost(回归)双案例解读python︱sklearn一些小技巧的记录(训练集划分/pipelline/交叉验证等)GBDT一个藤上,进化的xgb以及lgb。比较好的几则练习代码:QLMX/data_mining_models Anfany/Machine-Learning-for-Beginner-by-Python3文章目录0 相关理论 0.1 内存更小 0.2 速度更快 .
2020-10-13 14:37:27
1165
原创 【算法比赛】主流机器学习/深度学习模型代码模板
摘要最近又开始混乱且忙碌的科研学习,双十一过后,钱包空了,就再不想买买买了,打比赛的议程又提上来了,首先给大家分享两个非常非常非常好的repo,昨天晚上才发现的,又请教了一个博士点经验,踏踏实实准备,浮躁的心就能沉淀下来~更新最新最全的算法比赛信息:https://github.com/iphysresearch/DataSciComp各种比赛的top解决方案:https://github.com/Smilexuhc/Data-Competition-TopSolution一定要多交流多交
2020-10-12 16:28:44
604
转载 light-gbm使用
转载自:https://www.cnblogs.com/wanglei5205/以后会补充自己的东西的~安装LGBpip install lightgbm验证是否安装成功:import lightgbm as lgb用案例#!/usr/bin/env python2# -*- coding: utf-8 -*-"""Created on Sat Mar 31 21:19:09 2018@author: hello4720"""import numpy a.
2020-10-12 15:48:18
444
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人