- 博客(96)
- 资源 (5)
- 收藏
- 关注

原创 Spark Caused by: java.io.NotSerializableException 序列化异常踩过的坑
最近有需求需要在driver端创建好类实例,然后在rdd里面调用,但是使用过程中发现 Caused by: java.io.NotSerializableException,即序列化异常,通过查处网上资料发现是构建的类没有继承Serializable,没有继承Serializable的类是不会自动执行自动序列化操作的,因此我把构建的类继承了Serializable这个类,再次运行的时候发现依旧是序...
2019-01-22 21:03:48
18847
3
原创 dataframe之按时间筛选数据
对原始数据集进行筛选操作,条件是:客户号、queryreason、querier三个相同的时候,开始计算querydate按从大到小排序,14内出现的删除功能描述对数据集中具有相同key的记录,按照时间字段从大到小进行排序,然后从最大时间开始,删除间隔天数为14天以内的记录原始样例数据如下: key query_date0 001 2020-07-011 002 2020-07-022 001 2020-07-043 001 2020-07-054 00
2020-07-15 13:10:06
12670
原创 fastjson 输出double类型强制转为科学计数法问题
在json输出的时候,当double类型的数值过大或者过小的时候,往会在内部被强制转化为科学计数法形式输出,如果不需要科学计数法,则可以通过使用BigDecimal类来表示double类型,代码如下:Java版本:import com.alibaba.fastjson.JSONObject;import java.math.BigDecimal;/** * Created by z...
2020-04-01 21:43:39
5139
1
原创 复杂网络在信用风险中的实践
1. 传统方法在信贷领域主要有两种风险:**欺诈风险:**借款人的目的就是骗贷。**信用风险:**又称违约风险,是借款人因各种原因,不愿或无力履行合同条件而构成违约,致使平台遭受损失。 针对信用风险,需要对借款人的财务状况、还款意愿、履约能力等各方面因素综合量化评估,并根据风险等级制定不同的差异化定价(不同额度利率)和策略。白话一点的解释就是:**业务:**需要训练一个模型,去...
2019-12-10 00:50:30
877
原创 Markdown基础
1 基础语法1.1 标题Markdown支持6种级别的标题,对应html标签 h1 ~ h6例如:# 这是一级标题## 这是二级标题### 这是三级标题#### 这是四级标题##### 这是五级标题###### 这是六级标题效果如下:1.2 段落及区块引用需要记住的是,Markdown其实就是一种易于编写的普通文本,只不过加入了部分渲染文本的标签而已。其最终依然会转换为...
2019-12-06 00:13:45
198
转载 利用 Pytorch-BigGraph 从知识图中提取知识详解
机器学习使我们能够训练一个模型,该模型可以将数据行转换为标签,从而使相似的数据行映射到相似或相同的标签。以我们为电子邮件构建垃圾邮件过滤器为例。我们有很多电子邮件,其中一些被标记为垃圾邮件,一些被归类到收件箱。我们可以建立一个模型去学习识别垃圾邮件。要标记为垃圾邮件的邮件在某种程度上与已标记为垃圾邮件的邮件相似。相似性的概念对于机器学习至关重要。在现实世界中,相似性的概念是非常具体的主题,...
2019-09-17 08:40:48
1312
原创 GraphX挖掘极大团
设计思路:聚合节点的所有邻居求边上节点的共同邻居,并通过共同邻居生成极大团的ID,发送至源节点和目标节点获取收到极大团ID的节点代码如下:package mu.atlas.graph.communityimport mu.atlas.graph.utils.BaseTool._import org.apache.spark.graphx.{EdgeContext, Graph,...
2019-08-28 23:00:13
343
转载 关于tensorflow 中 placeholder 与 reshape的一点坑
转自:https://blog.youkuaiyun.com/sky_asher/article/details/79717620在搭LeNet-5 模型时,在卷积层的输出到全连接层时,使用了reshape将四维的矩阵转化维2维矩阵时,发生了错误:起初以为时类型转换发生了错误,然后演算过后发现并没有错误。然后改了下 训练数据的输入格式 # 定义输入输出placeholder, *...
2019-07-08 23:34:13
1195
转载 知识图谱---初识本体
一、什么是本体l本体论(Ontology)和本体(ontology)在英文中的表示并不完全一样,它们一个用大写的“O”开头,另一个用小写的“o”开头。本体论这个术语诞生于17世纪,派生于希腊语的onto和logia,是一个哲学的分支。从哲学上来说,本体论是研究客观事物存在的本质,所以本体论在哲学上的真正内涵是对世界上任何领域内的真实存在所做出的客观描述。对本体论的理解,人们不存在什么疑问。但是...
2019-03-10 17:08:27
3439
1
原创 Scala 通过HttpClients发送get和post请求
Scala 通过HttpClients发送get和post请求由于之前的工程代码都是使用Scala开发的,而最近工作中涉及到一个新功能需要发送post请求后端接口,今把如何使用HttpClients做个笔记。get请求def getResponse(url: String, header: String = null): String = { val httpClient = Htt...
2019-01-10 00:18:36
15727
原创 Scala通过类名称字符串构建实例
最近有一个这样的需求,定义好功能入口,通过传递不同的参数实现不同的功能,而各个功能的具体是实现是在类里面,由此需要通过传递进来的字符窜去构建需要的类。类似Java,Scala也是可以通过反射机制去创建实例通过Class.forName("类名称").newInstance()可以得到相应的实例package com.haizhi.minplat/** * Created by...
2018-12-20 20:26:26
6698
4
原创 基于XGBoost的PU-Learning
论文:Detecting positive and negative deceptive opinions using PU-learningPU-learning是一种只有正样本的半监督的二分类器。在实际工程应用中,有时候我们会遇到只有正样本而没有负样本的分类任务,或者说负样本是不纯的,即负样本中掺杂有部分正样本。PU-learning提供了一种选择可靠负样本的机制,具体算法如下:原始的...
2018-09-18 23:25:56
10445
转载 牛顿法与拟牛顿法学习笔记(二)拟牛顿条件
机器学习算法中经常碰到非线性优化问题,如 Sparse Filtering 算法,其主要工作在于求解一个非线性极小化问题。在具体实现中,大多调用的是成熟的软件包做支撑,其中最常用的一个算法是 L-BFGS。为了解这个算法的数学机理,这几天做了一些调研,现把学习过程中理解的一些东西整理出来。 目录链接 (1) 牛顿法(2) 拟牛顿条件(3) DFP 算法...
2018-08-30 15:14:59
4392
转载 牛顿法与拟牛顿法学习笔记(一)牛顿法
机器学习算法中经常碰到非线性优化问题,如 Sparse Filtering 算法,其主要工作在于求解一个非线性极小化问题。在具体实现中,大多调用的是成熟的软件包做支撑,其中最常用的一个算法是 L-BFGS。为了解这个算法的数学机理,这几天做了一些调研,现把学习过程中理解的一些东西整理出来。目录链接 (1) 牛顿法(2) 拟牛顿条件(3) DFP 算法(4) BFGS 算...
2018-08-30 14:59:25
14619
转载 HBase根据Rowkey批量查询数据JAVA API(一次查多条,返回多个记录)
最近在生产中遇到了一个需求,前台给我多个rowkey的List,要在hbase中查询多个记录(返回给前台list)。在网上也查了很多,不过自己都不太满意,filter的功能有可能查询结果不是准确值,而网上给出的get方法也都是返回一条,scan的话都是返回全部数据,还有用rowkey范围查询的,都跟我的这个应用场景不符啊。无奈,自己找了一个方法,给各位有同样需求的朋友们一个参考。首先创建链接属...
2018-07-25 09:36:24
10357
原创 Python装饰器之wraps
#coding=utf-8# -*- coding=utf-8 -*-import timefrom functools import wrapsdef fn_timer(function): @wraps(function) def function_timer(*args, **kwargs) : t0 = time.time() r...
2018-07-03 16:14:27
5182
转载 简单聊聊Python中的wraps修饰器
预备知识在了解wraps修饰器之前,我们首先要了解partial和update_wrapper这两个函数,因为在wraps的代码中,用到了这两个函数。partial首先说partial函数,在官方文档的描述中,这个函数的声明如下:functools.partial(func, *args, **keywords)。它的作用就是返回一个partial对象,当这个partial对象被调用的时候,就像通...
2018-07-03 15:41:05
4659
转载 Neo4j安装和管理
一、安装Neo4jNeo4j可部署在多个不同的操作系统平台,其社区版和企业版部署方式都是一样的。需要在什么平台部署自行下载对应的包即可,下载地址:https://neo4j.com/download。官方提供了多种部署方式,如YUM、二进制包、源码包等。下面介绍在CentOS平台使用二进制方式安装Neo4j,但需要先安装Java环境(Neo4j是Java编写),对于Java使用Or
2018-05-03 23:00:50
2891
转载 社团划分——Fast Unfolding算法
一、社区划分问题1、社区以及社区划分在社交网络中,用户相当于每一个点,用户之间通过互相的关注关系构成了整个网络的结构,在这样的网络中,有的用户之间的连接较为紧密,有的用户之间的连接关系较为稀疏,在这样的的网络中,连接较为紧密的部分可以被看成一个社区,其内部的节点之间有较为紧密的连接,而在两个社区间则相对连接较为稀疏,这便称为社团结构。(Newman and Gievan
2018-03-14 19:16:38
1196
转载 深入理解Scala的隐式转换系统
摘要:通过隐式转换,程序员可以在编写Scala程序时故意漏掉一些信息,让编译器去尝试在编译期间自动推导出这些信息来,这种特性可以极大的减少代码量,忽略那些冗长,过于细节的代码。 使用方式:1.将方法或变量标记为implicit2.将方法的参数列表标记为implicit3.将类标记为implicit Scala支持两种形式的隐式转换:
2018-02-12 10:55:09
251
转载 centos7 mysql数据库安装和配置
一、系统环境yum update升级以后的系统版本为[root@yl-web yl]# cat /etc/redhat-release CentOS Linux release 7.1.1503 (Core) 二、mysql安装一般网上给出的资料都是#yum install mysql#yum install mysql-server#yum in
2018-02-10 05:48:36
249
原创 web.py设置HTTPS协议
HTTPS in web.pyAttila Nagy HTTPS in web.py [reviewed] (2010-08-27) Children: -Using HTTPS in web.py is easy (provided you have your certificates).Just import the WSGI server class from web.py
2018-02-08 23:30:02
2801
转载 配置Log4j(很详细)
来自: http://www.blogjava.net/zJun/archive/2006/06/28/55511.htmlLog4J的配置文件(Configuration File)就是用来设置记录器的级别、存放器和布局的,它可接key=value格式的设置或xml格式的设置信息。通过配置,可以创建出Log4J的运行环境。1. 配置文件Log4J配置文件的基本格式如下:
2018-02-07 17:13:00
259
转载 scala 多线程actor
[sql] view plain copyjava--thread:共享全局变量的加锁机制,不可避免造成死锁 scala--actor 在做分布式的时候一定不要有共享全局的变量,更不能做加锁机制。 每个actor都和公司的一个员工一样,都有自己的循环器,每天循环自己的邮箱查看邮件,回复邮件作出应答。 !
2018-02-05 16:41:18
362
转载 Scala并发编程
1. 使用Actor的并发Scala的actor提供了一种基于事件的轻量级线程。只要使用scala.actors.Actor伴生对象的actor方法,就可以创建一个actor。它接受一个函数值/闭包做参数,一创建好就开始运行。用!()方法给actor发消息,用receive()方法从actor接收消息。receive()也可以闭包为参数,通常用模式匹配处理接收到的消息。我们看个例子
2018-02-05 16:20:45
1286
转载 Linux系统修改文件读写权限chmod、所有者或组chown
正 文: Linux系统下查看文件或文件夹的权限: 在终端输入:ls -l xxx.xxx (xxx.xxx是文件名) 那么就会出现相类似的信息,主要都是这些:-rw-rw-r-- 如下图:一共有10位数 其中: 最前面那个 - 代表的是类型,如果是目录,最前面这个是d
2018-02-05 10:15:57
7912
转载 HMM模型和Viterbi算法
一、隐含马尔可夫模型(Hidden Markov Model)1、简介 隐含马尔可夫模型并不是俄罗斯数学家马尔可夫发明的,而是美国数学家鲍姆提出的,隐含马尔可夫模型的训练方法(鲍姆-韦尔奇算法)也是以他名字命名的。隐含马尔可夫模型一直被认为是解决大多数自然语言处理问题最为快速、有效的方法。2、马尔可夫假设 随机过程中各个状态St的概率分布,只与它的前一个状态St
2018-02-02 23:25:58
1193
1
转载 Linux wget 批量下载
本文转自https://www.cnblogs.com/chenjinxi/p/7479386.html需求:已知50个pdf的URL地址,需要批量下载,该怎么办呢?方案一:使用wget自带的一个功能 -i 选项 从指定文件中读取下载地址,这样的好处是一直是这一个wget进程下载所有pdf,不会来回的启、停止进程[root@Jenkins tmp]# pwd/roo
2018-02-02 10:09:10
6476
原创 spark Caused by: java.lang.OutOfMemoryError: Java heap space 问题
问题描述:在使用spark过程中,有时会因为数据增大,而出现下面两种错误:java.lang.OutOfMemoryError: Java heap spacejava.lang.OutOfMemoryError:GC overhead limit exceeded问题分析:原因一:executor内存不够 原因二:driver内存不够解决方法方法一在spa
2018-01-19 10:01:52
12934
2
原创 spark提交任务时breeze包冲突问题
spark提交任务:出现如下问题:分析&解决:造成这个原因有两个:一是在提交任务时候breeze包没有添加,启动时候添加--jars breeze_2.11-0.13.1.jar即可二是由于spark本身的breeze包版本不一样,缺失所需的函数,而spark启动时候默认优先读取spark内部breeze包。解决方法是在启动时候添加配置--driver-class-path breeze_2.11
2018-01-18 10:53:25
5075
转载 LSTM与GRU结构
转自https://www.cnblogs.com/taojake-ML/p/6272605.html,在此感谢原文博主一、RNN 的关键点之一就是他们可以用来连接先前的信息到当前的任务上,例如使用过去的视频段来推测对当前段的理解。如果 RNN 可以做到这个,他们就变得非常有用。但是真的可以么?答案是,还有很多依赖因素。有时候,我们仅仅需要知道先前的信息来执行当前的任务。例如,
2018-01-04 18:30:35
26803
2
转载 解读tensorflow之rnn 的示例 ptb_word_lm.py
原文出处:https://www.cnblogs.com/welhzh/p/6739370.html,在此感谢原文博主这两天想搞清楚用tensorflow来实现rnn/lstm如何做,但是google了半天,发现tf在rnn方面的实现代码或者教程都太少了,仅有的几个教程讲的又过于简单。没办法,只能亲自动手一步步研究官方给出的代码了。本文研究的代码主体来自官方源码ptb-word-l
2018-01-04 17:30:30
550
1
转载 解读tensorflow之rnn 的示例 ptb_word_lm.py 这两天想搞清楚用tensorflow来实现rnn/lstm如何做,但是google了半天,发现tf在rnn方面的实现代码或者教程
原文出处:https://www.cnblogs.com/welhzh/p/6739370.html这两天想搞清楚用tensorflow来实现rnn/lstm如何做,但是google了半天,发现tf在rnn方面的实现代码或者教程都太少了,仅有的几个教程讲的又过于简单。没办法,只能亲自动手一步步研究官方给出的代码了。本文研究的代码主体来自官方源码ptb-word-lm
2018-01-04 17:26:43
693
原创 TensorFlow找不到models库原因及解决方案
原因:1.0版本以后models模块已经删除掉了,都整合到examples下面解决方法:1、安装低版本的TensorFlow2、到我的网盘下载models库 链接:https://pan.baidu.com/s/1qYOICmK 密码:0xlk解压,将models文件夹放到site-packages下的tensorflow文件夹中,不知道site-packages的朋友直接在Py
2018-01-03 23:58:36
8930
3
转载 Python中fileinput模块介绍
原文出处:http://blog.youkuaiyun.com/jerry_1126/article/details/41926407fileinput模块可以对一个或多个文件中的内容进行迭代、遍历等操作。该模块的input()函数有点类似文件readlines()方法,区别在于:前者是一个迭代对象,即每次只生成一行,需要用for循环迭代。后者是一次性读
2017-12-19 17:18:22
5425
1
转载 HBase之BlockCache数据读取
HBase上Regionserver的内存分为两个部分,一部分作为Memstore,主要用来写;另外一部分作为BlockCache,主要用于读数据;上面一篇文章已经介绍过Memstore,这里主要介绍读取数据的部分,即BlockCache。 BlockCache主要提供给读使用。读请求先到memstore中查数据,查不到就到blockcache中查,再查不到就会到磁盘上读,并把读的结果放入bl
2017-11-03 18:52:28
986
原创 Spark报错——AnnotatedConnectException拒绝连接
1、问题描述在运行spark任务时候报错如下:17/11/03 10:27:54 ERROR ShuffleBlockFetcherIterator: Failed to get block(s) from 192.168.1.16:37205java.io.IOException: Failed to connect to /192.168.1.16:37205 at org.apach
2017-11-03 18:51:08
19956
1
原创 欢迎使用优快云-markdown编辑器
机器学习之决策树CART概念 分类和回归树(CART)模型有Breiman等人在1984年提出,是应用广泛的决策树学习方法,CART同样由特征选择、树的生成及树的剪枝组成,既可以用于分类也可以用于回归. CART是在给定输入随机变量XX条件下输出随机变量YY的条件概率分布的学习方法. CART假设决策树是二叉树, 内部节点特征取值为”是”和”否”, 即这样的决策树等价于
2017-11-03 07:51:42
225
快学Scala(中文完整版)
2018-01-19
推荐系统实战
2018-01-19
算法导论(第三版)
2016-12-01
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人