- 博客(193)
- 资源 (5)
- 收藏
- 关注
原创 读《像蛇一样成长》有感
记不清是第几次阅读这本半自传体小说,每一次打开书籍,都想一口气探索所有内容,觉得书太长,又觉得书太短,阅读之后,又觉得还想知道更多。 第一次有幸打开这本书是在研究生二年纪升三年级的暑假,那个时候为了找工作忙的焦头烂额,想有一份方方面面都合心意的工作,也是那个时候发现,人生很多事情是无法兼得的,什么都想要,往往什么都得不到,每一次的选择就显得更加的重要。 转眼之间就毕业了,现在工作已经一年有余,在过去工作的一年里中,会遇到很多和学校完全不一样的事情,需要不一样的处理方法,时常会想起书...
2020-08-16 11:09:23
390
原创 spark源码学习
Spark上手指南 https://dounm.github.io/2016/09/28/spark-tutorial/ spark源码官网 https://github.com/apache/spark/tree/master/mllibspark/mllib/src/main/scala/org/apache/spark/mllib/classification/Logistic
2018-01-13 19:00:04
607
原创 mac安装Scala,spark, xgboost for python
spark安装参考 http://www.voidcn.com/article/p-vryenhcn-zn.htmlspark 安装参考 http://blog.youkuaiyun.com/lv836735240/article/details/52901819下载Scala解压修改配置文件sudo /etc/profile添加path export SCALA_HO
2018-01-13 10:24:24
835
原创 Scala LR训练参数
参考 http://blog.youkuaiyun.com/liulingyuan6/article/details/53419717参数:elasticNetParam:类型:双精度型。含义:弹性网络混合参数,范围[0,1]。featuresCol:类型:字符串型。含义:特征列名。fitIntercept:类型:布尔型。含义:是
2018-01-03 08:04:45
689
原创 spark源码学习
Spark上手指南 https://dounm.github.io/2016/09/28/spark-tutorial/ spark源码官网 https://github.com/apache/spark/tree/master/mllibspark/mllib/src/main/scala/org/apache/spark/mllib/classification/Logistic
2017-11-24 09:46:28
387
原创 imbalance data分类解决办法
http://blog.youkuaiyun.com/u011414200/article/details/50664266http://www.tk4479.net/a358463121/article/details/523046701.随机过采样2.under sampling欠采样加权3.informed 欠采样3.1EasyEnsemble
2017-11-03 16:07:26
3086
1
原创 intellij日志信息修改,隐藏INFO,只显示ERROR
要解决这个问题,主要是要正确设置好log4j文件,本文主要分析如何在local模式下,将Spark的INFO信息隐藏,不影响程序中的结果输出。1、在项目src路径下创建resources文件夹, 右击该文件Mark Directory as 选中Resources Root2、将spark根目录下的log4j.properties文件复制 到 src/resources文件夹下
2017-11-01 09:33:29
7588
2
原创 Scala实现逻辑回归分类,Titanic
1.读取文件import scala.io.Sourceobject myfirst { //titanic,LR def main(args: Array[String]) { val data= Source.fromFile("D:\\IDEA\\_01\\train.csv") data.foreach(print) }}import or
2017-10-31 14:49:39
1430
原创 机器学习学习--Kaggle Titanic--LR,GBDT,bagging
参考,机器学习系列(3)_逻辑回归应用之Kaggle泰坦尼克之灾 http://www.cnblogs.com/zhizhan/p/5238908.html一、认识数据1.把csv文件读入成dataframe各式import pandas as pdimport numpy as npfrom pandas import Series,DataFramedef get_t
2017-10-19 21:06:45
1639
原创 spark,keyValue对RDDs
keyValue对RDDs创建keyValue对RDDs:使用map()函数,返回key/value对例如,包含数行数据的RDD,每行数据的第一个单词作为keys,整行作为valueval rdd=sc.textFile("/home/hellospark.txt")rdd.foreach(println)val rdd2= rdd.map(line=>(lines.spl
2017-10-18 20:39:39
487
原创 RDDs的特性
RDDs的特性血统关系图Spark维护这RDDs之间的依赖关系和创建关系,叫做血统关系图spark使用血统关系图计算每个RDD的需求和恢复丢失的数据代表着RDD是怎么获得的,而且又做了什么操作作用:丢失时可以找回延迟计算:spark对RDDs的计算是他们第一次使用action操作的时候处理大数据时非常有用,可以减少数据的传输spark内部记录metada
2017-10-18 20:19:03
641
原创 Rdds基本操作Action
Rdds基本操作Actionaction,在RDD上计算出一个结果把结果返回给driver program或保存在文件系统,count(), savereduce()接受一个函数,作用在RDD两个类型相同的元素上返回一个新元素实现元素累加,计数,和其他类型的聚集操作val rdd=sc.parallelize(Array(1,2,3,3))rdd.collect
2017-10-18 19:39:07
351
原创 Rdds基本操作Transformation,逐元素,map,filter,flatMap,集合运算
Rdds基本操作Transformation转换,从之前的RDD构建一个新的RDD,map操作逐元素map,接受一个函数,应用在RDD每一个元素,并返回一个新的RDDval lines = sc.parallelize(Array("hello","spark","hello","world","!")) 测试时候使用,从已有集合中构造一个RDDlines.foreach
2017-10-18 19:20:50
406
原创 spark Rdds介绍
Driver program:包含main方法,RDDs定义和操作管理很多节点,executorsSparkContext: Driver program通过spark context对象访问spark, 代表和一个集群的连接,在shell中自动创建好,就是scRDDs,弹性分布式数据集Resilient distributed datasets,并行分别在
2017-10-18 15:59:05
381
原创 spark下载安装和第一个Wordcount程序
Java环境搭建JDK1.7下载,百度网盘 Scala下载安装 2.10.0spark下载 1.6.2IDEA下载安装Scala插件下载 https://plugins.jetbrains.com/plugin/1347-scala
2017-10-18 14:52:13
533
原创 TensorFlow安装
TensorFlow安装http://blog.youkuaiyun.com/xunan003/article/details/66979181
2017-09-24 11:03:00
284
原创 python
http://www.lfd.uci.edu/~gohlke/pythonlibs/#numpyhttps://pypi.python.org/pypi/setuptools#downloads
2017-09-12 14:56:11
343
原创 初学机器学习的方法及框架了解
程序员初学机器学习的四种方式【机器学习实验】scikit-learn的主要模块和基本使用28款GitHub最流行的开源机器学习项目
2017-08-16 09:59:44
432
转载 机器学习算法工程师在做什么?
http://blog.youkuaiyun.com/shixiangyun2/article/details/51543593机器学习算法工程师在做什么?机器学习不仅仅是模型产生这个问题的原因就是所有人都以为机器学习的模型就是机器学习本身,以为对那些个算法理解了就是机器学习的大牛了,但实际上完全不是这样的。模型是谁在玩呢?模型是科学家发明出来的, 是各个大公司的各个科学家
2017-08-14 11:28:21
649
原创 机器学习项目开发实战,应用
图像分类----分类 1模型---构建一个数字识别系统 2验证 3改进模型 垃圾邮件识别-----贝叶斯 类型提供程序的快乐 自行车与人-----梯度下降 你不是独一无二的雪花------聚类 1发现数据中的模式 2理解StackOverflow上的主题 3用k-均值聚类方法找出聚类 4StackOverflow标签的归类 5好的聚类和坏的聚类
2017-07-08 14:11:07
2895
原创 Python基础教程----迭代器和生成器,递归,八皇后(2)
6.迭代器特殊方法__iter__,是迭代器规则的基础6.1迭代器规则迭代的意思是重复做一些事很多次,就像在循环中做的那样,但现在为止只是在for循环中对序列和字典进行迭代,但实际上也能对其他对象进行迭代,实现__iter__方法的对象, __iter__方法返回一个迭代器,所谓的迭代器就是具有next方法(这个方法在调用时不需要任何参数)的对象,在调用next方法时,迭代器
2017-07-06 15:40:18
473
原创 Python基础教程---魔法方法,属性和迭代器(1)
前后都使用双下划线,由这些名字组成的集合所包含的方法称为魔法(特殊)方法,如果对象实现了这些方法中的某一个,那么这个方法会在特殊的情况下被Python调用,而几乎没有直接调用他们的必要本章内容:魔法方法(最重要的是__init__方法和一些处理对象访问的方法,这些方法允许你创建自己的序列或者映射)属性(在以前的版本中通过魔法方法来处理,现在则通过property函数)迭代器(使用魔
2017-07-06 15:37:57
722
原创 python基础教程----异常
1.什么是异常Python用异常对象来表示异常,遇到错误后,会引发异常,如果异常对象并未被处理或捕捉,程序会用所谓的回溯终止执行。2.按自己的方式出错如何引发异常,甚至创建自己的异常类型2.1raise语句为了引发异常,可以使用一个类(Exception子类)或实例参数调用raise语句,使用类时,程序会自动创建实例。>>> raise Except
2017-07-06 15:32:48
369
原创 机器学习基础,入门介绍
什么是机器学习利用计算机从历史数据中找出规律,并把这些规律用到对未来不确定性场景的决策确定性:太阳不确定性:公司业绩销量如何解决?规律?从历史数据中挖出来的1.主体是计算机----机器学习主体是人----数据分析,效果依赖于人的经验知识水平机器学习可以看作是框架,算法2.数据:历史数据3.规律:从数据中寻找规律,机器学习算法找出的结果规律算法找出一个数学函数
2017-07-02 21:17:22
878
原创 python基础教程---更加抽象,类,继承多态封装
1.对象对象基本可以看做数据(特性)以及由一系列可以存取,操作这些数据的方法所组成的集合多态,不同类的对象使用同样的操作封装,对外部世界隐藏对象的工作细节继承,以普通的类为基础建立专门的类对象1.1多态意味着,就算不知道变量所引用的对象类型是什么,还是能对它进行操作,而它也会根据对象(或类)类型的不同而表现出不同的行为绑定到对象特性上面的函数成为方法,如count, '
2017-06-30 20:41:20
641
原创 Python基础教程--抽象,函数,参数,递归,作用域
1.懒惰即美德不要在每次需要的时候都把代码重写一遍2.抽象和结构3.创建函数内建函数callable函数可用来判断函数是否可调用>>>import math>>> x = 1>>> y = math.sqrt>>> callable(x) False>>> callable(y) True函数callable在py
2017-06-29 21:01:05
635
原创 python基础知识--条件,循环和其他语句
locale 是根据计算机用户所使用的语言,所在国家或者地区,以及当地的文化传统所定义的一个软件运行时的语言环境。在Unix下可以通过命令 locale 来查看当前语言环境,可以使用locale-a查看系统支持locals值1.print 和 import1.1 print可以打印多个表达式,用逗号隔开>>> print 'Age:' , 42 Age : 42p
2017-06-22 20:56:29
436
原创 Python基础教程--字典;当索引不好用时
映射,字典是python里唯一内建的映射类型,字典中的值没有特殊顺序,但都存储在一个特定的key里,键可以是数字,字符,元组1.字典的使用字典比列表更适用的场景:表征游戏棋盘的状态,每个键都是由坐标值组成的元组;存储文件修改次数,用文件名作为栈;数字电话/地址薄>>> names = ['Alice', 'Beth', 'Cecil', 'Dee', 'Earl']>>
2017-06-21 22:08:38
408
原创 python基础教程--使用字符串
1.基本字符串操作所有的标准序列操作对字符串同样适用(索引,分片,判断成员资格,求长度,最大最小值),但是字符串不可变2.字符串格式化(精简版)格式化操作符%,格式:字符串%希望格式化的字符串>>> format = "hello, %s, %s enough for ya?">>> values = ('world', 'hot' )>>> print forma
2017-06-21 20:15:50
338
原创 snort.iptables(nat,proxy)规则形式
snort规则形式http://blog.youkuaiyun.com/yygydjkthh/article/details/21765259iptables规则形式iptables规则形式
2017-06-21 10:48:08
536
原创 Python基础教程-列表和元组
数据结构,是通过某种方式(例如元素进行编号)组织在一起的数据元素的集合,这些数据元素可以是数字或者字符,甚至可以是其他数据结构。在Python中最基本的数据结构是序列。1.概述python内建序列,有6种:列表,元组,字符串,Unicode字符串,buffer对象和xrange对象。列表和元组的区别在于,列表可修改(用于元素添加等操作),元组不可修改(与python内部运作
2017-06-20 22:04:02
624
原创 python基础教程-基础知识
1.安装Linux,mac系统自带,可直接使用2.运算+/ 除法// 整除% 取余** 幂运算3.长整数型长整型,末尾加L 1000000000000L可以和普通整型混用,普通整数不能大于21474836474.十六进制和八进制5.变量以字母数字下划线组成,不能以数字开头使用首先要初始化x=2x*2
2017-06-20 16:56:27
959
原创 虚拟化virtualization
Virtualization虚拟化是计算机系统在实际硬件上的一层抽象,来运行虚拟实例。最常见的,是同时在一个计算机系统上运行多个操作系统。CPU的虚拟化技术可以单CPU模拟多CPU并行,允许一个平台同时运行多个操作系统,并且应用程序都可以在相互独立的空间内运行而互不影响,从而显著提高计算机的工作效率。为什么利用虚拟化进行计算?desktop users, 可以运行多个操
2017-06-19 12:38:41
1230
原创 OpenFlow协议-整体结构和协议篇
OpenFlow SDN结构的一个实例,一系列规范的集合,由 Open Networking Forum (ONF)维护。这些规范的关键是一个抽象的包处理机定义,called switch.switch使用一个数据包内容集合和交换机配置状态来处理数据包。protocol定义来管理switch的配置状态以及接受switch事件。最后,controller通过这个协议来管理许多
2017-06-13 10:34:37
4352
转载 JAVA设计模式
一.设计原则1、单一职责原则 一个类,只有一个引起它变化的原因。应该只有一个职责。每一个职责都是变化的一个轴线,如果一个类有一个以上的职责,这些职责就耦合在了一起。这会导致脆弱的设计。当一个职责发生变化时,可能会影响其它的职责。另外,多个职责耦合在一起,会影响复用性。例如:要实现逻辑和界面的分离。from:百度百科2、开闭原则(Open Close Principl
2017-06-12 16:06:31
187
原创 出国开会总结,学生,初次出国参加学术会议
非常幸运能够出国参加会议(IEEE会议,不透露具体会议名称和内容)。提前一天到达开会地点,按时完成第二天的注册和presentation,当然会议的举办就是给大家一个相互交流的机会和场合。 我提前准备了个人名片,携带了简历,但是并没有机会和大佬们接触到。虽然说开会间隙会有各种大佬聚在一起讨论问题,但是自己一个小白什么都不懂,上去聊只会更尴尬;其实也是自信心不足。但是会不定时的有些世
2017-06-12 14:51:17
14510
原创 ubuntu安装软件,Latex,搜狗输入法,Terminator,Source Insight. wine,matlab
1.安装Latex可以在 Ubuntu 安装很多 LaTeX 的分发版,其中一个是 TeX Live。1.使用下面命令可以在 Ubuntu 上安装 Tex Live sudo apt-get install texlive-full2.要编辑 LaTeX 文档需要一个编辑器,你可以找到很多编辑器,这里我们推荐 Texmaker sudo apt-get in
2017-06-12 14:33:45
693
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人