- 博客(98)
- 资源 (8)
- 收藏
- 关注
原创 Scala入门(2)
1 函数式编程思想纯函数,没有副作用即没有诸如修改全局变量、抛出异常、IO读写和调用有副作用的函数等状态变化参数和函数体都是引用透明即对于相同的输入,总是得到相同的输出。反例:append函数。为了获得引用透明性,任何值都不能变化。函数是一等公民一切都是计算,函数式编程中只有表达式(如变量、函数等)高阶函数闭包2 语言基础2.1 变量val、 var、 lazy val注:当定义的变量可能后续不会用到时可使用lazy val2.2 数据类型Unit:表示空,val x:
2020-06-16 09:50:22
252
原创 spark入门(1)
1. RDD1.1 RDD的定义RDD:resilient distributed dataset 弹性分布式数据集dataset:数据封装到集合中distributed:分布式存储数据resilient:数据优先存储在内存中,如果内存空间不足,再溢写到磁盘中1.2 RDD的特点分布式存储:数据分区内存优先:内存 > 磁盘数据可靠性:血统机制2 编程细节2.2 ...
2020-02-27 10:17:06
442
原创 spark工作机制
1 spark应用执行机制1.1 spark如何运行作业1.2 spark执行的底层实现原理spark底层实现中通过RDD实现数据管理利用BlockManger实现对RDD的块管理延迟执行,节省内存图调度器将包含操作的任务分发到指定的机器执行,在计算节点通过多线程的方式执行任务。...
2020-02-10 10:30:01
740
原创 玩转基金(3)买卖基金
1 基金定投按月定投:强制储蓄 、平摊风险(微笑曲线)定投优点:减少成本、门槛低、操作简单金额比例:(收入-支出)*(20%~50%)注意:稳定长期、量力而行定投基金:股票基金、指数基金长期目标:教育金、养老金等定投误区:忌不再关注止盈不止损,市场环境变好的时候要停止定投,落袋为安忌追涨杀跌长期收益忌定投失败一次失败并未停止忌赎回操作赎回不影响定投,需要办理终止定投...
2020-02-07 17:49:59
564
原创 玩转基金(2)购买基金
1 投资前的准备理财目标:保值(抗通货)、增值(盈利)资金情况:资产、负债备用资金:生活备用(4-6个月、应急、可购买货币基金)、保险保障风险接受度:高100%,中30%,低0%2 配置比例选择不同公司、类型、风险的投资组合,建议选择4只不同类型的基金购买风险接受度为中的配置比例如下:30%购买高风险的股票、指数基金50%购买稳健平稳的混合基金20%购买低风险的货币、债券...
2020-02-07 12:19:24
830
原创 玩转基金(1)基金基础
基金的定义基金的特点资金多重保障专业化基金专业名词注意:少买新基金少买封闭式基金净值高低不代表基金好坏基金业绩因素越是资金少的越要考虑成本# 基金分类不需要全部了解...
2020-02-06 21:34:09
668
2
原创 ubuntu下安装matlab及配置vot-toolkit
1、ubuntu安装matlab关于在linux上安装matlab可以借鉴附录5-6,谢谢。2、ubuntu配置vot-toolkit2.1 配置vot-toolkit(matlab版)参考附录1配置matlab版很顺利,需要注意一点是可以参考附录2把workspace_load.m文件下第142行的文件路径换成下载好的vot2016数据集所在路径,省的代码下载太慢。2.2 配置vot-...
2019-12-04 10:37:17
1221
原创 IDEA连接Spark集群执行Scala程序
前言关于Spark安装和使用以及Spark分布式集群环境搭建,请见参考内容1-4,这里就不作阐述了。步骤首先安装Scala插件,File->Settings->Plugins,搜索出Scla插件,点击Install安装;File->New Project->maven,新建一个Maven项目,填写GroupId和ArtifactId;编辑pom....
2019-12-03 14:31:56
3431
1
原创 IDEA连接服务器执行python程序
一、前言pyCharm专业版实在太难破解了,决定重新拥抱IDEA。PS:关于Idea下Python开发平台的搭建,见参考内容1。二、操作步骤1 选择菜单Tools-Deploymenr-Configuration2 点击“+”号下面的SFTP3 命名可随意4 配置服务器连接信息以及文件映射信息5 连接服务器,因为前面已经配置好服务器信息,这里只需要选择相应的服务器(如前文的...
2019-11-20 16:59:57
995
原创 运营效果分析:假设检验
1. 基本思想和原理:小概率事件在一次观察或试验中几乎不可能发生的事情,叫做小概率事件;小概率事件在一次试验中发生的概率叫做显著性水平。假设检验的基本思想和原理就是小概率事件,即观测小概率事件在假设成立的情况下是否会发生。一般把不能轻易接受的结论作为备择假设,需要有充分理由才能否定的结论作为原假设。如果在一次试验中,小概率事件发生了,说明假设在一定显著性水平下不可靠,则有充分的理由拒绝原假...
2019-04-10 09:14:14
783
原创 深入理解(下)凸函数
1. 凸函数的定义1.1 凸函数的几何解释所谓凸函数,其实指的是下凸函数,从几何意义上看,凸函数就是任意两点之间的弦(即这两点构成的线段)都在该函数图像(此处是指这两点之间的函数图像,而非全部的函数图像)的上方。1.2 凸函数的数学解释如果≤\le≤换成<<<,则是严格凸函数的数学定义。Q:凸集的定义是什么?凸集的几何解释:如果集合C中任意2个点X...
2019-04-09 17:09:16
31047
原创 LDA主题模型
概率图模型LDA(Latent Dirichlet Allocation)用于推测文档的主题分布。它将文档集中的每篇文档的主题以概率分布的形式给出,从而通过分析一些文档抽取出它们的主题分布后,便可以根据主题分布进行主题聚类或文本分类。1. 基础知识1.1 LDA属于贝叶斯模型LDA是基于贝叶斯模型的,涉及到贝叶斯模型离不开“先验分布”,“数据(似然)”和"后验分布"三块:后验分布=先验分布...
2019-04-04 16:24:22
1035
原创 文本相似度算法:文本向量化+距离公式
1. 文本向量化1.1 词袋模型词袋模型,顾名思义,就是将文本视为一个 “装满词的袋子” ,袋子里的词语是随便摆放的,没有顺序和语义之分。1.1.1 词袋模型的步骤第一步:构造词典根据语料库,把所有的词都提取出来,编上序号第二步:独热编码,D维向量记词典大小为D,那么每个文章就是一个D维向量:每个位置上的数字表示对应编号的词在该文章中出现的次数。1.1.2 词袋模型的缺点只...
2019-04-03 16:50:12
2857
原创 特征选择和共线性问题
1. 特征选择的原因提高模型稳定性的需要提高模型预测能力的需要提高运算速度和运算效率的需要2. 特征选择的过程2.1 结合业务经验先行筛选很多时间业务专家一针见血的商业敏感性可以有效缩小自变量的考察范围,准确圈定最有价值的预测变量,提高判断和筛选效率。2.2 用线性相关性指标进行初步筛选常用:皮尔逊相关系数r=∑(x−xˉ)(y−yˉ)∑(x−xˉ)2∑(y−yˉ)2r=\fr...
2019-03-31 18:36:37
3776
原创 SQL备注
in 和 exists的区别子小主大用in: 如果子查询得出的结果集记录较少,主查询中的表较大且又有索引时应该用in;子大主小用exists:如果外层的主查询记录较少,子查询中的表大,又有索引时使用exists。其实我们区分in和exists主要是造成了驱动顺序的改变(这是性能变化的关键)如果是in,那么先执行子查询,所以我们会以驱动表的快速返回为目标,那么就会考虑到索引及结果集的关...
2019-03-27 20:47:58
2092
原创 最大似然估计MLE和最大后验概率MAP
最大似然估计最大似然估计中采样需满足一个很重要的假设,就是所有的采样都是独立同分布的。最大似然估计的一般求解过程:(1) 写出似然函数;(2) 对似然函数取对数,并整理;(3) 求导数 ;(4) 解似然方程 【例】:假如一个盒子里面有红黑共10个球,每次有放回的取出,取了10次,结果为7次黑球,3次红球。问拿出黑球的概率 p 是多少?我们假设7次黑球,3次红球为事件 A ,一...
2019-03-26 14:40:55
406
原创 《从NLP反作弊技术看马蜂窝注水事件》笔记
0.原文NLP系列(6)_从NLP反作弊技术看马蜂窝注水事件 - 寒小阳 - 优快云博客https://blog.youkuaiyun.com/han_xiaoyang/article/details/842057011.马蜂窝是否有大量抄袭点评1.1 先用词袋模型快速筛选一批相似点评词袋子模型是一种非常经典的文本表示。顾名思义,它就是将字符串视为一个 “装满字符(词)的袋子” ,袋子里的词语是随...
2019-03-25 11:29:08
627
原创 大事化小、小事化了的动态规划
1. 推荐阅读漫画:什么是动态规划?http://www.sohu.com/a/153858619_466939进一步理解动态规划 - 简书https://www.jianshu.com/p/69669c7bd69e2. 什么是动态规划动态规划是一种分阶段求解决策问题的数学思想。简单来说,就是“大事化小,小事化了”,把一个复杂的问题分阶段进行简化,逐步化简成简单的问题。假定一种...
2019-03-18 16:00:56
830
原创 《概率统计》知识点(持续更新……)
条件概率与全概率公式条件概率:P(A∣B)=P(AB)P(B)P(A|B)=\frac{P(AB)}{P(B)}P(A∣B)=P(B)P(AB)全概率公式:P(B)=∑i=1∞P(AiB)=∑i=1∞P(Ai)P(B∣Ai)P(B)=\sum_{i=1}^{\infty}P(A_iB)=\sum_{i=1}^{\infty}P(A_i)P(B|A_i)P(B)=i=1∑∞P(AiB)=i=...
2019-03-18 16:00:30
2578
原创 二叉树遍历(递归与非递归版本)
# Definition for binary tree struct TreeNode { int val; TreeNode *left; TreeNode *right; TreeNode(int x) : val(x), left(NULL), right(NULL) {} };1. 先序遍历1.1 先序遍历的递归版本根-&...
2019-03-16 10:41:47
399
原创 快慢指针在数组中的应用
题目1、remove-duplicates-from-sorted-arrayGiven a sorted array, remove the duplicates in place such that each element appear only once and return the new length.Do not allocate extra space for another...
2019-03-13 13:37:47
586
原创 牛顿迭代法
1. 不动点迭代法1.1 定义迭代法是求解一元非线性方程f(x)=0f(x)=0f(x)=0的主要方法。其做法是将方程改为等价方程x=ϕ(x)x=\phi(x)x=ϕ(x),从而构造迭代公式xk+1=ϕ(xk)x_{k+1}=\phi(x_k)xk+1=ϕ(xk),如果xkx_kxk有极限,则迭代公式是收敛的。1.2 不动点迭代法的收敛性定理设ϕ∈C[a,b]\phi\in C[a,...
2019-03-12 22:29:55
848
原创 快慢指针
题目Given a linked list, return the node where the cycle begins. If there is no cycle, returnnull.Follow up:Can you solve it without using extra space?代码/** * Definition for singly-linked list. *...
2019-03-12 13:11:25
383
原创 实现链表翻转的两种方法
题目从尾到头打印链表_牛客网https://www.nowcoder.com/practice/d0267f7f55b3412ba93bd35cfa8e8035?tpId=13&tqId=11156&tPage=1&rp=1&ru=/ta/coding-interviews&qru=/ta/coding-interviews/question-rank...
2019-03-12 10:56:15
10854
1
原创 c++ STL之queue
1. 头文件#include<queue>2. 普通队列queue2.1 普通队列的声明与初始化2.1.1 普通声明queue<int> q;2.1.2 结构体struct node{ int x,y;};queue<node> q;2.2 普通队列的基本操作push(x) 将x压入队列的末端pop() 弹出队列的第一...
2019-03-11 20:04:09
341
原创 C++ STL之vector
vector是表示可变大小数组的序列容器。本质上,vector使用动态分配数组来存储它的元素。头文件#include&lt;vector&gt;vector声明及初始化vector&lt;int&gt; vec; //声明一个int型向量vector&lt;int&gt; vec(5); //声明一个初始大小为5的int向量vector&lt;in
2019-03-11 19:56:07
508
原创 链表的归并排序
题目Sort a linked list in O(n log n) time using constant space complexity.思路因为题目要求复杂度为O(nlogn),故可以考虑归并排序的思想。归并排序的一般步骤为:1)将待排序数组(链表)取中点并一分为二;2)递归地对左半部分进行归并排序;3)递归地对右半部分进行归并排序;4)将两个半部分进行合并(merge),...
2019-03-11 19:37:34
1226
原创 多元高斯分布
一元高斯函数f1(x)=12πσe−(x−μ)22σ2f_1(x)=\frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(x-\mu)^2}{2\sigma^2}}f1(x)=2πσ1e−2σ2(x−μ)2令z=x−μσz=\frac{x-\mu}{\sigma}z=σx−μ,即对x进行标准化,此时z服从标准正态分布 N(0,1)N(0,1)N(0,1):f1(...
2019-03-11 09:25:17
374
原创 【DL小结5】Transformer模型与self attention
1 提出背景针对attention model不能平行化,且忽略了输入句中文字间和目标句中文字间的关系,google在2017年《Attention is all you need》一文提出了Transformer模型。Transformer最大的特点就是完全抛弃了RNN、CNN架构。模型中主要的概念有2项:1. Self attention(代替RNN) :解决输入句中文字间和目标句中文字间...
2019-03-09 20:19:06
968
原创 【DL小结4】seq2seq与attention机制
seq2seq概述seq2seq模型是以编码(Encode)和解码(Decode)为代表的架构方式,顾名思义是根据输入序列X来生成输出序列Y。encode意思是将输入序列转化成一个固定长度的向量(语义向量,context vector),decode意思是将语义向量解码成输出序列。编码阶段纯粹的RNN/LSTM/GRU解码阶段由上图可以发现Seq2seq中Decoder的公式和...
2019-03-09 16:42:47
1190
原创 【ML小结13】最大熵模型
1. 最大熵原理的定义最大熵原理是概率模型学习的一个准则。朴素表述:不要把所有的鸡蛋放在一个篮子里严谨表述:在满足约束条件的模型集合中选取熵最大的模型投资角度:风险最小信息论角度:保留最大的不确定性,熵最大2. 最大熵模型的定义3. 模型求解3.1 优化问题3.2 模型学习:极大似然估计最大熵模型的学习归结为对偶函数的极大化(极大似然估计:对数似然函数极大化)。在约...
2019-03-08 10:07:02
332
原创 【ML小结14】条件随机场CRF
1. 马尔科夫随机场/概率无向图模型1.1 概率无向图模型的定义概率无向图模型是由无向图表示的联合概率分布。无向图上的节点之间的连接关系表示了联合分布的随机变量集合之间的条件独立性,即马尔科夫性。因此,概率无向图模型也称为马尔科夫随机场。概率无向图模型是生成式模型,生成式模型最关心的是变量的联合概率分布。1.2 概率无向图模型的因子分解概率无向图模型的联合概率分布可以分解成无向图最大团...
2019-03-08 09:05:54
450
原创 【ML小结12】隐马尔科夫模型HMM
1. 前言选自《数学之美》第5章:隐含马尔科夫模型HMM通信的本质就是一个编解码和传输的过程。NLP对应通信系统中的解码问题。即在已知接收端的观测信号o1,o2,...o_1,o_2,...o1,o2,...的情况下,推断出令条件概率P(s1,s2,...∣o1,o2,...)P(s_1,s_2,...|o_1,o_2,...)P(s1,s2,...∣o1,o2,...)达到最大...
2019-03-07 20:59:53
339
原创 【ML小结11】高斯混合模型GMM
1. 模型表示高斯混合模型是指具有如下形式的概率分布模型:P(y∣θ)=∑k=1Kαkϕ(y∣θk)P(y|\theta)=\sum_{k=1}^K\alpha_k\phi(y|\theta_k)P(y∣θ)=k=1∑Kαkϕ(y∣θk)其中,αk\alpha_kαk是权重系数,满足αk&amp;amp;gt;0,∑k=1Kαk=1\alpha_k&amp;amp;gt;0,\sum_{k=1}^K\a...
2019-03-07 19:20:00
1373
2
原创 【ML小结10】集成学习
1. 集成学习的思想对于训练集数据,我们通过训练若干个个体学习器,通过一定的结合策略,就可以最终形成一个强学习器,以达到博采众长的目的。集成学习(Ensemble learning)可以用于分类问题集成,回归问题集成,特征选取集成,异常点检测集成等等。Q1:如何获得若干个个体学习器Q2:采用什么样的结合策略2. 集成学习-个体学习器不稳定的学习器更适合作为基学习器,因为不稳定的学习器容...
2019-03-07 14:43:44
1188
原创 【ML小结2】信息论
信息量:不确定性大小信息量等于不确定性的大小。自信息:一件不太可能的事发生,要比一件非常可能的事发生,提供更多的信息I(x)=−logP(x)I(x)=-logP(x)I(x)=−logP(x)信息熵:量化整个概率分布中的不确定性总量H(X)=Ex∼P[I(x)]=−∑x∈XP(x)logP(x)H(X)= E_{x\sim P}[I(x)]=-\sum_{x\in X}P(x)logP(...
2019-03-05 09:35:48
341
原创 【ML小结6】关联分析与序列模式关联分析
一、关联分析关联分析主要是用于从数据集中发现数据项之间的关系。1. 基本概念1.1 支持度X → Y 的支持度表示项集 {X,Y} 在总项集中出现的概率:support(X→Y)=P(X,Y)support(X\rightarrow Y)=P(X,Y)support(X→Y)=P(X,Y)用于衡量同时满足X和Y的概率。1.2 置信度X → Y 的置信度表示在先决条件 X 发生的情况...
2019-03-04 18:59:03
3085
原创 scrapy爬虫
背景抓取古诗文大全_古诗文网的全部文言文~1. 创建1.1 创建项目scrapy startproject 项目名称scrapy startproject gushiwen1.2 创建模板scrapy genspider -t crawl 爬虫名称 域名scrapy genspider -t crawl gushiwen gushiwen.org此时&amp;quot;d:/crawl&amp;quot;下自动...
2019-02-24 16:14:56
354
原创 语言模型总结(待完善)
1.n元语法模型(n-gram)由于n-gram语言模型的优异性能和高效实现,其作为统治性的语言建模方法已经有数十年了。缺点:一是数据稀疏性,鲁棒性参数估计需要复杂的平滑技术。二是在于n阶马尔科夫假设,预测的词概率值依赖于前n-1个词,这样更长距离上下文依赖就被忽略了。2.循环神经网络语言模型(RNNLMs)RNNLMs将每个词映射到一个紧凑的连续向量空间,该空间使用相对小的参数集...
2019-01-26 08:23:44
779
OpenGL超级宝典第五版pdf及其随书源码
2019-03-27
离散数学及其应用 原书第6、7版(美)罗森 (中英版,附答案)
2019-03-27
一键制作家长会成绩单(教师专用)
2018-11-29
Feature selection library
2018-08-15
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人