
学习笔记
文章平均质量分 71
金戈拉斯
不忘初衷,方能始终!
展开
-
利用数据可视化技术来学习钻石鉴别
文章目录数据背景数据背景鸢尾花可以分成 Setosa、Versicolour 和 Virginica 三个品种,在这个数据集中,针对每一个品种,都有 50 个数据,共150条数据。每个数据中包括了 4 个属性,分别是花萼长度、花萼宽度、花瓣长度和花瓣宽度。...原创 2020-05-20 13:26:46 · 1830 阅读 · 0 评论 -
参数估计与假设检验的通俗理解
文章目录参数估计假设检验参数估计For 高手:参数估计(parameter estimation),统计推断的一种。根据从总体中抽取的随机样本来估计总体分布中未知参数的过程。从估计形式看,区分为点估计与区间估计:从构造估计量的方法讲,有矩法估计、最小二乘估计、似然估计、贝叶斯估计等。要处理两个问题:(1)求出未知参数的估计量;(2)在一定信度(可靠程度)下指出所求的估计量的精度。信度一般用概率表示,如可信程度为95%;精度用估计量与被估参数(或待估参数)之间的接近程度或误差来度量。For 小白:人原创 2020-05-19 22:58:09 · 2906 阅读 · 0 评论 -
核密度函数详解,核密度函数图如何看?
前言上一篇博客画了一张核密度函数,但是搜了半天也没找到怎么分析这个图。求人不如求自己,这篇来分析一下这个核密度函数和核密度图。说的不对的地方还请大神指出。概率密度从数学上看,分布函数F(x)=P(X<x),表示随机变量X的值小百于x的概率。这个意义很容易理解。概率密度f(x)是F(x)在x处的关于x的一阶导数,即变化率。如果在某一x附近取非常小的一个邻域Δx,那么,随机度变量X落在(x, x+Δx)内的概率约为f(x)Δx,即P(x<X<x+Δx)≈f(x)Δx。换句话说,概率原创 2020-05-19 22:56:51 · 39129 阅读 · 2 评论 -
Python 数据可视化,常用看这一篇就够了
文章目录前言可视化视图分为 4 类,散点图折线图直方图条形图箱线图饼图热力图蜘蛛图二元变量分布成对关系总结前言如果你想要用 Python 进行数据分析,就需要在项目初期开始进行探索性的数据分析,这样方便你对数据有一定的了解。其中最直观的就是采用数据可视化技术,这样,数据不仅一目了然,而且更容易被解读。可视化视图分为 4 类,比较:比较数据间各类别的关系,或者是它们随着时间的变化趋势,比如折线图;联系:查看两个或两个以上变量之间的关系,比如散点图;构成:每个部分占整体的百分比,或者是随着时间的百原创 2020-05-19 22:05:36 · 49479 阅读 · 9 评论 -
Git 常用技巧分享
1. Git alias这是一个非常能提高工作效率的操作,所以放到第一位!!! 这个分为两种情况,一是全局有效,另外一个是单个repository 有效,本人用的事全局懒得挨个repository去配置。mac:找到这个文件/etc/.gitconfig,或者 ~/.gitconifg,同时配置后者覆盖前者。windowsC:\Users$user.gitconfigRepositor...原创 2020-03-07 16:34:21 · 174 阅读 · 0 评论 -
Spark-SQL 面试准备 3
Spark Knowledge No.321.driver的功能是什么:答:1.一个spark作业运行时包括一个driver进程,也就是作业的主进程,具有main函数,并且有sparkContext的实例,是程序的入口;2.功能:负责向集群申请资源,向master注册信息,负责了作业的调度,负责了作业的解析,生成stage并调度task到executor上,包括DAGScheduler,Ta...原创 2020-01-20 15:16:45 · 397 阅读 · 0 评论 -
恼人的时区问题
参考:http://www.99cankao.com/date/timezone.php由于由于工作中经常要采集来自不同国家网站的数据,和来自不同时区的同事月会议,开发程序,所以经常在时区上转不过弯来,这里整理了一下,做个笔记,也希望对大家有所帮助。时区的定义1884年在华盛顿召开的国际经度会议(又称国际子午线会议)上,规定将全球划分为24个时区(东、西各12个时区)。GMT格林尼...原创 2020-01-20 14:25:30 · 908 阅读 · 0 评论 -
Teradata语法树——insert
这里只是简单保存一下Teradata的语法树,希望能对新手有所帮助。Insert[NONTEMPORAL | temporal_validtime_qualifier] INS[ERT] [INTO] tablename ...原创 2019-01-10 17:00:45 · 3023 阅读 · 2 评论 -
机器学习(三)——线性模型
过去的一周可以说是十分痛苦,一方面工作强度上来了,另一方面生活上遇到的麻烦事,感觉人生观都受到了冲击,本来说好的每周写两篇博客,这周一篇也没有写出来,这里自己做一个检讨!以后一定把那个女人给忘掉,继续开始我的屌丝生活。 这是我的第一篇用MarkDown写的博客,我会尽量用标准的格式去编写,希望它可以带来全新体验。 这里需要分享的是机器学习的线性模型,这应该是最简单的模型了,自己看了一遍还不是很...原创 2018-07-20 17:47:17 · 671 阅读 · 0 评论 -
个人机器学习笔记==》如何正确进行模型评估
误差:经验误差:在训练集样本中分类错误的样本占总训练样本集的比例,也称为训练误差泛化误差:在新样本上的误差比例。精度:1-错误率,精度为100%通常都是有问题的。过拟合:...原创 2018-07-02 22:41:54 · 487 阅读 · 0 评论 -
Spark SQL 编译原理
写在前面的话:因为本人在职,所以没有充分的时间写博客,所以经常是写好整个框架,再陆陆续续的补充修改。所以如果发现什么错误请留言。正如大家了解的一样,SparkSQL 它其实是一个SQL的编译器,跟普通数据库不同的是它的底层使用的HDFS存储,使用Spark Core进行计算。SparkSQL看了一部分下来,发现自己在编译原理这一领域的知识有所欠缺,现在开始补习一下。题目叫Spark SQL编...原创 2019-05-19 18:39:36 · 1308 阅读 · 0 评论 -
个人机器学习笔记==》常见术语
基本术语:西瓜样例数据:ID色泽根蒂敲声酸甜程度销量1红色蜷缩浊响601002绿色蜷缩清脆801503红色硬挺清脆90300数据集:一组数据的集合,如:这里的3组数据。样本(示例):反映事件或者对象的某些方面的变现或性质的事项。如:这里每一行数据都是一个样本。属性(特征):这里的色泽,敲声都可以称为西瓜的属性或者特征。样本空间(属性空间):假设每一个属性都是被描述的对象的一个维度,那么多个属性或者...原创 2018-07-01 19:49:12 · 808 阅读 · 0 评论 -
推荐几个有意思的Python 库
在数据库中即时保存数据:Datasethttps://dataset.readthedocs.io/en/latest/当我们想要在不知道最终数据库表长什么样的情况下,快速收集数据并保存到数据库中的时候,Dataset 库将是我们的最佳选择。Dataset 库有一个简单但功能强大的 API,因此我们可以很容易的把数据保存下来,之后再进行整理。Dataset 建立在 SQLAlchemy ...转载 2019-03-20 18:17:33 · 1772 阅读 · 0 评论 -
伪漫迷用数据假装看了一遍《复联4》
这是一个心情愉悦的周六下午,在免费给公司加了几个小时班后,突然想看电影了,但是作为一个junior engineer,我怎么能像那些senior engineer一样拿着轻松赚来毛爷爷去电影院挥霍呢?(看官COS:电影都舍不得看,还说的这么冠冕堂皇,真特么屌丝!)首先我们先来学习一下复联4的英文名字Avengers: EndgameAvengers: 复仇者Endgame:最后阶段,尾声那...原创 2020-01-20 15:37:52 · 1467 阅读 · 0 评论 -
Spark SQL 基本概念
写在前面的话:因为本人在职,所以没有充分的时间写博客,所以经常是写好整个框架,再陆陆续续的补充修改。所以如果发现什么错误请留言。本文主要目的是记录在阅读Spark源码时发现的SQL基本概念的知识遗漏,这样可以更加快速的阅读源码的注释,毕竟那都是专业人员用专业术语写成的。这个博客会持续更新到放弃阅读为止。基本术语列表:谓词(predicate):返回值为真值(TRUE/FALSE/UNKNO...原创 2019-05-19 08:58:41 · 565 阅读 · 0 评论 -
Spark-SQL常用调优参数汇总
写在前面的话:因为本人在职,所以没有充分的时间写博客,所以经常是写好整个框架,再陆陆续续的补充修改。所以如果发现什么错误请留言。本文主要是日常工作的积累,主要是简单罗列了常见的spark SQL的参数及其含义。#Job ID /Namespark.app.name=clsfd_ad_attr_map_w_mvca_ins#yarn 进行调度,也可以是mesos,yarn,以及standa...原创 2019-05-18 20:24:59 · 3736 阅读 · 0 评论 -
NLP练习Demo收藏
目录1.分词 Word Segmentation2.词预测 Word Prediction3. 文本蕴涵 Textual Entailment4. 语音识别 Automatic Speech Recognition5. 自动摘要 Automatic Summarisation6. 文本纠错 Text Correct7.字音转换 Grapheme to Phoneme8. 复述检测 Paraphra...原创 2019-07-09 18:08:19 · 1317 阅读 · 0 评论 -
CDH5.1使用CDH Manager安装
参考: http://www.aboutyun.com/thread-10852-1-1.htmlhttp://www.aboutyun.com/thread-9303-1-1.html经过若干次实验后将别人的安装文章改了又改,终于用血和泪改完这篇文章。请多多注意里面的红色字体提示。关于CDH和Cloudera ManagerCDH (Cloudera'原创 2015-12-02 21:44:08 · 2214 阅读 · 0 评论 -
自然语言处理(NLP)-NLTK入门学习(二)
前面我分享了一下使用NLTK进行文本数据的预处理工作,这里继续分享一下NLTK的词性标注。词性(POS)在小学的语文课或者英语课中已经多次强调了其含义,这里就不赘述了。就拿英语来说,它在新闻和其它领域往往都有许多已经被标注的语料库,所以已经有大量的算法在这一领域中得到应用。但是在特定的应用场景中,POS的判定可能有些失灵。对于这些用例,可能需要重新建立一个标注器。在讨论POS标注时,有一个公认的标...原创 2018-06-18 14:12:17 · 2473 阅读 · 0 评论 -
Shell 脚本开发常用命令和知识点汇总(值得收藏,用时只需要Ctrl+F)
1. 跨脚本文件调用需要在文件的开始加上sh /dev/xxxxx.sh 或者. /dev/xxxxxx.sh2. $? $# $1 $@ $*的含义变量 含义$0 当前脚本的文件名$n 传递给脚本或函数的参数。n 是一个数字,表示第几个参数。例如,第一个参数是$1,第二个参数是$2。$# 传递给脚本或函数的参数个数。$* 传递给脚本或函数的所有参数。$@ 传递给脚本或函数的所有参数。被双引号("...原创 2018-06-29 18:02:40 · 1571 阅读 · 0 评论 -
Hive性能优化(标注版)
以下是一个技术小白根据自己的理解能力在别人整理的基础上进行了一些重点标识和归纳。一个Hive查询生成多个Map Reduce Job,一个Map Reduce Job又有Map,Spill,Shuffle,Sort,Reduce等多个阶段,所以针对Hive查询的优化可以大致分为针对MR中单个步骤的优化(其中又会有细分),针对MR全局的优化,和针对整个查询(多MR Job)的优化,下文会原创 2016-11-12 21:21:59 · 5882 阅读 · 0 评论 -
程序猿面试经验
这是转自一位技术大虾的个人网站上的原文,自己只是做了一些标注来提醒自己重点学习的地方。 不久前,byvoid面阿里星计划的面试结果截图泄漏,引起无数IT屌丝的羡慕敬仰。看看这些牛人,NOI金牌,开源社区名人,三年级开始写Basic…在跪拜之余我们不禁要想,和这些牛人比,作为绝大部分技术屌丝的同学们,是否真的与国内IT巨头遥不可及呢? 当你打开这个帖子的时候,我已经默认你转载 2016-07-27 21:35:07 · 583 阅读 · 0 评论 -
CentOS 6.5 安装NS-2
安装前先检测环境是否正确,必须安装的包是否都已经安装。[koorey@maple ~]$yum install libX11-devel*[koorey@maple ~]$yum install xorg-x11-proto-devel*[koorey@maple ~]$yum install libXt-devel*[koorey@maple ~]$yum install lib原创 2016-03-23 16:14:30 · 808 阅读 · 0 评论 -
如何免费搭建自己的个人网站
这篇文章主要是应学妹创业的要求,出一个搭建免费网站的方法。本文主要是针对,之前用过WordPress的读者,没用的可能理解不了一部分操作。但是按步骤来肯定没问题。首先登陆这个网站 http://www.hostinger.com.hk 。由后缀名就可以看出它是一个香港的公司,所以对访问网速有要求。不然就只能慢慢等。当然香港主机也有自己的优势,它不需要像国内一样的备案流程。也就是说不备案,你就是原创 2016-03-19 15:18:14 · 17134 阅读 · 1 评论 -
Android学习之路
原文出处: stormzhang 的博客 收到一些朋友的微博私信,说能不能给Android新手们一些指导,我只能说指导谈不上,毕竟我也很多东西正在学习中,与此同时一大学同学准备转行Android,可以说是从头开始,那么我就姑且以一个过来人的身份给一些建议吧,只希望在学习的过程中能够少走写弯路吧。硬件电脑–推荐Mac首先声明我不是果粉,个人Windows,Linux原创 2014-12-25 10:11:31 · 541 阅读 · 0 评论 -
DDos 攻击 学习
本帖整合了攻防版块相关DDOS的帖子,方便午饭们学习!DDOS介绍DDOS攻击防御简析http://bbs.51cto.com/thread-69826-1.html一起探讨DOS和DDOShttp://bbs.51cto.com/thread-629805-1.html 【安全知识普及】什么是DDOS攻击?http://bbs.51cto.com/thread原创 2014-12-22 16:52:12 · 3381 阅读 · 0 评论 -
CentOS 7 挂载本地光盘作为镜像源
1. 上传iso文件到/usr/local/src一定要确保这个ISO文件上传完毕后再进行下面的操作。2. 创建挂载目录mkdir /media/CentOS73. 挂载iso文件mount -t iso9660 -o loop /usr/local/src/CentOS-7-x86_64-Everything-1503-01.iso /media/CentOS74. 设置开机自动挂载光盘镜像执行...原创 2015-09-04 11:55:45 · 17016 阅读 · 2 评论 -
不使用默认用户postgres安装PostgreSQL详细步骤
常见错误及解决方案:报错:configure: error: readline library not found解决方法:yum -y install readline-devel报错:configure: error: no acceptable C compiler found in $PATH解决方法:yum -y install gcc报错:confi原创 2015-09-08 20:26:02 · 2925 阅读 · 0 评论 -
Java面试题整理四(GC和内存)
这一次提笔写博客倒不是为了整理面试中遇到的问题,而是在实际工作中遇到了这个问题,于是想把记录下来。这次遇到的问题是GC内存使用溢出的问题,由于它也是面试时经常问到的题目。(到现在都记得在百度面试时被问懵逼了,自以为平时开发遇不到这样的问题所以什么都没看就去了~~~~) 下面先看看我遇到的问题吧!场景:本公司准备搭建自己的数据仓库,于是需要使用ETL工具Ket...原创 2019-05-24 17:26:12 · 429 阅读 · 0 评论 -
布隆过滤器原理理解分享
问题: 海量数据的去重,例如数十亿垃圾邮件地址里面甄别某个邮件地址是否为垃圾邮件。解决方法:布隆过滤器(Bloom Filter)原创 2018-06-11 18:01:39 · 3808 阅读 · 0 评论 -
自然语言处理(NLP)-NLTK入门学习(一)
自从看了吴军的《数学之美》,被其中的数学算法在IT发展历程中的应用后,发现NLP的算法其实不仅仅是语音检测单一的应用场景,所以下定决心买两本书来学习一下,这里先从NLTK开始,写的不好,欢迎大家拍砖。还是先说说自然语言处理(NLP),NLP与教孩子学语言的过程非常相似,其大多数任务都是对单词、语句的理解,形成语法和结构都正确的语句等,这些任务对于人类来说都是非常自然的事情,但是对于NLP来说,其中...原创 2018-06-17 13:53:28 · 5297 阅读 · 0 评论 -
自然语言处理(NLP)-NLTK入门学习(si)
这一篇可能就是NLTK的最后一篇了,这里做个NLP的应用总结。信息摘要提取这个相信大家都不陌生,给定的文章,故事,新闻通常需要针对其内容自动生成摘要。需要重点说一下,这种应用一般需要一些深度学习的NLP而不是简单的解析句子的结构,往往是解析整个文本的结构和内容。信息摘要的一种理论逻辑是重要的句子中通常包含着重要的词汇,而跨语料库的差异词绝大多数都是重要的词汇。因此,只要句子中包含具有很大差异性的词...原创 2018-06-24 21:12:43 · 1480 阅读 · 0 评论 -
ssh 端口转发工具 tunnel
英语好的请移步:https://www.ssh.com/ssh/tunneling/exampleWHAT IS SSH PORT FORWARDING, AKA SSH TUNNELING?SSH port forwarding is a mechanism in SSH for tunneling application ports from the client machine to the...原创 2018-06-15 11:14:17 · 11739 阅读 · 0 评论 -
公钥,密钥原理学习(数学之美)
最近在阅读《数学之美》,在看到信息指纹那一部分的时候被书中提到的公、密钥原理吸引住了。因为平时工作经常用Linux服务器,所以难免会用到SSH和SFTP,对于这两个工具一直只知道其底层数据传输使用的加密技术就是这种非对称加密方式,其大概的工程流程如下:1. client与sever互联,client发送消息给sever,双方都产生一对用于加密和解密的公钥和私钥。 2. client将...原创 2018-06-07 15:37:25 · 3298 阅读 · 0 评论 -
Windows 10 下进行Linux shell脚本开发环境搭建
背景:公司网络环境较为复杂,服务器权限管理极为严格,所以在进行Linux下的脚本开发时出现诸多不便,例如:没有root权限;没有emacs,vim等开发工具。环境:惠普笔记本(注意红色箭头指向的地方)OS Build 需要大于16215CPU需要有开启虚拟化Step1:打开 Microsoft Store 在搜索框里搜索Run Linux on Windows 10,然后选择你喜欢的Linux版本...原创 2018-06-06 16:33:39 · 8148 阅读 · 0 评论 -
自然语言处理(NLP)-NLTK入门学习(三)
前面两篇已经基本上算是完成了预处理部分的分享了,这里开始分享一些文本处理。语言结构是非常复杂的,需要按照其不同的处理层次来对它进行描述。这里会分享常见的文本结构,介绍结构之间的区别和用法。同样我会试着通过代码的方式以实例展示其处理过程。概念:1. 为什么需要进行文本解析回答这个问题的时候可以先回想一下当初我们学习语言时是怎样的一个过程,首先我们先学一些单词,2. 两种解析方式:...原创 2018-06-24 12:02:24 · 1681 阅读 · 0 评论 -
Teardata SQL Assistant使用技巧
以下是本人工作中遇到的Teradata的一些使用问题,在这做个记录,与大家共享。 注:C 表示 Ctrl1. 格式化代码 C + Q2. 清除代码 C + T3. 替换代码 C + H4. 执行 F55. 批量并行执行 F96. 字段值为“?”就是null 的意思7. 创建虚拟临时表CREATE MULTISET VOLATILE TABLE XXXXXXX...原创 2018-06-05 09:21:24 · 6653 阅读 · 4 评论 -
JBoss+Keepalived+MySQL主从配置详解
配置Keepalivedtar -zxvf keepalived-1.1.20.tar.gzcd keepalived-1.1.20记得检查popt-devel和openssl是否都安装了,否则./configure会出错。./configure --with-kernel-dir=/usr/src/kernels/2.6.32-431.el6.x86_64/不加后原创 2015-08-28 11:50:38 · 642 阅读 · 0 评论