- 博客(101)
- 资源 (2)
- 收藏
- 关注
原创 机器学习之数据清理经验
文本类数据,尤其二分类,如果正反比悬殊(超过1:10),反例极容易出现包含正例的噪声(人工标注准确率95%) 1.这时,首先去除反例中和正例完全相同的误分类(比如新闻,就是标题;聊天数据就是去掉不可见字符后的文本) 2.视数据质量,也可以用一些高阈值的相似性比较方法,比如杰卡德,余弦,编辑距离等,再去除一部分噪声 3.训练好的分类器,在正例分类器中,按分类器的分值进行排序,头部的“误召回”通常
2017-03-20 20:37:59
1316
原创 浅谈信息过滤
年终岁尾,一边跑着模型,一边整理下今年的工作,除了开始做了些聚类,rank工作,后来主要集中在信息过滤方面:视频聊天审核,新闻评论审核,新闻文本内容黄反检测,垃圾图片检测以及新闻推广内容过滤。首先谈谈聊天过滤。直播间聊天,其实很难用机器学习模型训练,因为数据常常人为可以增加噪声,希望通过噪声的作弊,来发表一些被屏蔽的言论。而这些噪声大多集中在间隔符,拼音,形近字,音近字的形式,并且具有快速扩展的特
2017-01-23 11:45:07
2588
原创 数据处理之one-hot
分类方法,通常需要把数据的各个属性转换为一个向量表示,这样每条数据的特征就是一个向量,向量上的每个维度就表示了一个特征属性。但是如果要转换的数据包含了3种属性,比如身高,体重,年龄。A是女,168cm,70kg,30岁;B是男,180cm,90kg,20岁,那么直接用数值做向量就变成了,0,168,70,30;1,180,90,20。而168和70或者30是不同的属性,更明显的是0或1表示的性别和
2016-12-20 14:33:09
9415
原创 利用管道命名锁,实现进程间名称的不同
场景,比如需要不同的group消费一个流(kafa),但是重启又希望能继续使用历史节点读取。#include <unistd.h>#include <stdlib.h>#include <fcntl.h>#include <limits.h>#include <sys/types.h>#include <sys/stat.h>#include <stdio.h>#include <st
2016-12-01 14:16:35
916
原创 有小改进的最大公共子串计算
实际应用,两个String的相似性判定,要去除标点符号,甚至停用词等,然后对于连续的数字要降低权重,比如同样有“2016”只能作为一个相似度。 具体代码,去停词那个以后再发,需要一个停词表+扫描的数据结构算法,达到近乎索引的效率。还有的是用分词,分词会有词性属性帮助去停词,但是思路和这个就不一样了。下面是字符串的转换,转换为String【】,而且因为去掉了标点,将连续数字合一,减少了计算量,速度比
2016-07-28 18:41:34
437
原创 java图像处理——图像读取,二值化转bitset
最近要处理一些新闻中的广告图片,其中比较多的是含二维码的图片。简单写了3种逻辑处理了下(同源不同内容,同图片;含完整二维码的图片;残缺二维码广告图片),基本达到了实际需求。有同样需求的可以参考下,言归正传,今天看到有读者问java图像怎么转bitset,下面举例一些我的处理方法。 首先图片有不同来源,有的是url,那么url首先读取成BufferedImageURL url_url = new U
2016-07-28 18:22:43
2569
原创 用分布定阈值
做算法,尤其是数据挖掘,经常会有需要根据数据计算指标,但是指标计算出来确无法快速选取初始阈值的情景。 最近在做新闻内容方面的关键词(高相关性词)提取(不是热点词提取!这有些区别的,热点词要具备热度的时间衰减,本次提取不关心这点)。 目前程序实现了卡方检验结合词频,tf×idf两种。 最初用卡方检验时,对于p和另一个属性词频,我是采用逐步降低标准和观察词汇质量来调整的。 但是在做tf×idf时
2016-06-28 17:46:15
5052
原创 用BufferedReader或者writer时要注意close
今天在优化一个程序代码时,生成对比文件,有一个忘记写close了,结果尾部的字符串没有写入到txt文件中。比对,前后不同!记录一下,不要因为一个小马虎,而浪费了几分钟时间。
2016-05-31 11:42:53
6445
原创 Redis使用优化技巧(java)
redis是经常使用的数据中间层,读去快速,而且功能详细丰富。下面介绍一些工作中使用redis降低功能耗时的小技巧: 1.每一类数据,可以设置为一个主key,然后在value中详细描述分布。避免或者不要用模糊查找。可以用一个list放所有相关key,然后用key去依次查询,如果还要单独查key,就用hashmap。 2.当数据中有很多key,value,比如(String,String)形式的,
2016-05-30 16:33:48
1243
转载 欢迎使用优快云-markdown编辑器备份
欢迎使用Markdown编辑器写博客本Markdown编辑器使用StackEdit修改而来,用它写博客,将会带来全新的体验哦:Markdown和扩展Markdown简洁的语法代码块高亮图片链接和图片上传LaTex数学公式UML序列图和流程图离线写博客导入导出Markdown文件丰富的快捷键快捷键加粗 Ctrl + B 斜体 Ctrl + I 引用 Ctrl
2016-05-21 16:04:29
302
原创 第二个面试整理
昨天完成了第二次面试,是数据挖掘工作的一个面试吧,新闻推荐算法岗位,安全大楼还真不好找。 面试题一道二叉树层序遍历的反转,然后就是实际文档如何提取成特征,手写kmeans(汗,都是手写这个,我还每次都是根据算法思路重写。。),最后是实际的推荐引擎构建,从备选算法结合实际(硬件,需求)条件选最恰大的一个并说明理由,和上次面试深度学习OCR一样让设计OCR引擎。两次面试,都是从离职后主动预约我面试的五
2016-04-26 15:53:08
501
原创 一点建议,一点正能量
1.努力分早晚,越早越好。 起跑不同,再追要付出更多的努力和辛苦,落后了,你努力,别人可能更努力的。虽然多读个硕士,但是本科同学薪资可能已经是你的1.5倍了。2.Sooner is better than never 不要和太遥远的目标做比较,作为激励目标就可以了,而且效果会更好。再晚,开始努力织网也比临渊羡鱼要强。3.努力是要长久的坚持。 有时候一段时间的特别努力,会获得极大提升,但是长久的
2016-04-26 13:26:32
424
原创 二分查找(java)
1.注意对输入参数的正确性判断 2. int middle = left + ((right - left) >> 1),有效防止越界public class BinarySearch { public int binary_search(int array[],int len , int value) { if(array==null||array.length
2016-04-24 23:31:54
440
原创 动态规划(java)
问题一:最大子组和问题 子组中的元素可能是正负或0,思路: 最大子组和就是所有可能的子组和中最大的,那么可能比较大的首先有一个初始值(0),然后如果有比初始值大的子组和,就用来替代当前的最大子组和,直到遍历结束再也没有比当前子组和更大的。 当子组和为负的时候,肯定不是我们期望的最大子组和的一部分,因为负的累积值和后续的子组元素的和,肯定小于后续子组元素的和。这时可以排除该子组和的元素,从使累计
2016-04-24 16:06:10
335
原创 java内存回收机制
首先是一些java,jvm内存的分布情况,然后是具体每块区域的内存回收机制。 java不同于c++等语言由计算机直接编译文件,java编译class文件后生成bytecode文件,然后由不同平台的jvm进行bytecode的编译,所以java可以实现跨平台。 jvm类似于一个虚拟的计算机系统,有虚拟的硬件,寄存器,堆,栈等。 jvm的内存区划分为,栈(虚拟机栈,本地栈),堆,方法区(永久区)
2016-04-24 14:18:31
419
原创 scala学习
学习资料一,做的比较炫酷的文档,看着很舒服 http://zh.scala-tour.com/#/funtional-contents 下面是一个为java程序员编写的scala入门教程,内容不多但是可以用来快速了解scala吧 原帖地址:http://dataunion.org/14967.html,这篇文章是英文原稿的翻译,google上还有中英文对照稿,有兴趣的也可以看下: 本文是《A
2016-04-23 23:24:38
3338
转载 [java实现]找一个数组的最大和的连续子数组(时间复杂度 O(n))
收藏一下,请直接点击原帖地址:http://blog.youkuaiyun.com/hpf911/article/details/9275583 这是《剑指Offer》中的一道题目,数组中的元素可能是正负,所以连续的子组求和,会变大也可能变小,解题时首先要求当前的和(初始值为0)和下一个元素求和后,如果是负的,那么重新置0和下下个继续求和,首先要找到使和增加的正的元素。然后有了当前最大的和后,纪录下来;继续累
2016-04-23 23:15:30
3687
原创 设计模式部分整理
1.Builder模式 当对象的属性比较多,过于复杂时,首先要把可以聚合为一个对象的属性作为一个对象,然后这些和同一层级的属性作为这个类的属性。比如定义了一个模版,里面有检测器,取值器,又有设备属性等,那么这些同一层级的作为第一个对象的属性(也就是模版的),然后检测器等对象各自再有自己的属性(比如:图像啊,文本啊,怎么取,参考判断逻辑,而其中的参考判断逻辑又可以定义成一个对象,再单独对它的各个属性
2016-04-23 18:52:48
328
转载 深入理解拉格朗日乘子法(Lagrange Multiplier) 和KKT条件
尊重原创,原作者标注了未经允许不能转载,所以在这里留存一下,作为备份吧,粘贴到印象笔记里没准以后整理时就贴到博客里了,还是收藏在博客里好了。 http://blog.youkuaiyun.com/xianlingmao/article/details/7919597
2016-04-23 12:45:54
424
原创 JVM内存GC机制
一些自己印象笔记收录的资料,这里先留存链接,等闲下来整理成文。 编程时注意的一些小技巧,配合GC,及早释放无用对象占有的内存,或者减少内存的使用,比如无用对象的置null,少用new对象,StringBuffer,容器大小给予一定初始化等。 转自:http://blog.youkuaiyun.com/tutngfei1129287460/article/details/7383480(这个也不是原帖,转载者
2016-04-23 12:41:38
321
转载 LibSVM使用指南
本文包含以下几个部分:支持向量机–SVM简介 LibSVM的安装 LibSVM的使用 LibSVM参数调优 Java版LibSVM库函数的调用 SVM简介在进行下面的内容时我们认为你已经具备了数据挖掘的基础知识。SVM是新近出现的强大的数据挖掘工具,它在文本分类、手写文字识别、图像分类、生物序列分析等实际应用中表现出非常好的性能。SVM属于监督学习算法,样本以属性向量的形式提供,所以输入空
2016-04-22 17:50:38
505
转载 支持向量机(SVM)基础
转自:http://leftnoteasy.cnblogs.com, 一、线性分类器:首先给出一个非常非常简单的分类问题(线性可分),我们要用一条直线,将下图中黑色的点和白色的点分开,很显然,图上的这条直线就是我们要求的直线之一(可以有无数条这样的直线)image 假如说,我们令黑色的点 = -1, 白色的点 = +1,直线f(x) = w.x + b,这儿的x、w是向量,其实写成这种形
2016-04-22 16:47:06
255
原创 真的想?那就去做
因为2015年原单位实习转正时给的待遇不错,加上组里团队氛围非常融洽,我最小,老大哥们对我都很照顾(当然人际关系是相互的),一直很不舍这种生活。可是公司的图像算法项目并没有那么多,也没有那么难,或者说挑战不多;而当时决定留下一个重要原因是sku这块CEO想要做大,后期说会有数据挖掘方面的项目,我有兴趣也可以跟一下。结果并没有这种项目,而且看2016年也不太可能有。而我却每天完成工作后,有闲暇就会看一
2016-04-22 16:29:35
398
转载 Sqoop详细介绍包括:sqoop命令,原理,流程
一简介Sqoop是一个用来将Hadoop和关系型数据库中的数据相互转移的工具,可以将一个关系型数据库(例如 : MySQL ,Oracle ,Postgres等)中的数据导进到Hadoop的HDFS中,也可以将HDFS的数据导进到关系型数据库中。二特点Sqoop中一大亮点就是可以通过hadoop的mapreduce把数据从关系型数据库中导入数据到HDFS。三 Sqoop 命令Sqoop大约有13种命
2016-04-22 15:14:15
1080
原创 数据挖掘相关资料收集(持续更新)
1.ChinaKDD,数据挖掘研究院,强烈推荐,里面有很多很好的学习资料 http://www.chinakdd.com/article-oyU85v018dQL0Iu.html
2016-04-21 18:58:09
381
转载 常见面试之机器学习算法思想简单梳理
前言: 找工作时(IT行业),除了常见的软件开发以外,机器学习岗位也可以当作是一个选择,不少计算机方向的研究生都会接触这个,如果你的研究方向是机器学习/数据挖掘之类,且又对其非常感兴趣的话,可以考虑考虑该岗位,毕竟在机器智能没达到人类水平之前,机器学习可以作为一种重要手段,而随着科技的不断发展,相信这方面的人才需求也会越来越大。 纵观IT行业的招聘岗位,机器学习之类的岗位还是挺少的,国内大点的公
2016-04-21 18:55:55
407
原创 一些linux指令
将印象笔记以前用过纪录的一些指令转到博客。 mkdir rm touch vi a.txtmount –o remount,rw / 这个命令来让我们的/路径文件系统为可读模式grep -A -B -C -c(count) -a(binary)cat server.log |grep “2015-03-03 17:18:3” tail -n 100 server.logopen -e .b
2016-04-21 17:33:47
274
转载 常见的各种距离总结
原帖:http://blog.youkuaiyun.com/shiwei408/article/details/7602324 在做分类时常常需要估算不同样本之间的相似性度量(SimilarityMeasurement),这时通常采用的方法就是计算样本间的“距离”(Distance)。采用什么样的方法计算距离是很讲究,甚至关系到分类的正确与否。 本文的目的就是对常用的相似性度量作一个总结。本文目录:
2016-04-21 17:30:59
4311
原创 马氏距离与欧式距离
欧式距离很常用,分离器最后计算时很多都是用欧式距离, 公式: [(x1-x2)^2+(y1-y2)^2]^1/2但是很多时候,特征的各个维度(属性)的数值差异很大,比如身高,体重,有时候我们常用标准化来解决,比如求取每种特征的Max和Min,然后用特征的值去除以(Max-Min),得到的就是标准化后的值。而马氏距离,采用里另一种方法,通过对差异乘各属性的协方差矩阵,来保持各个属性的差异,公式:
2016-04-21 17:28:58
4463
原创 k-means 简单实现
同学很久以前做的,那时候我刚实习,他刚参加工作(他是两年制),那时候开始对数据挖掘感兴趣,他发给我的他自己做的demo。 原帖地址:http://www.cnblogs.com/niuxiaoha/p/4645989.htmlpackage neugle.kmeans;import java.io.BufferedReader;import java.io.FileNotFoundExcepti
2016-04-20 19:16:10
703
转载 时间复杂度计算(二)
四、定义:如果一个问题的规模是n,解这一问题的某一算法所需要的时间为T(n),它是n的某一函数 T(n)称为这一算法的“时间复杂性”。当输入量n逐渐加大时,时间复杂性的极限情形称为算法的“渐近时间复杂性”。我们常用大O表示法表示时间复杂性,注意它是某一个算法的时间复杂性。大O表示只是说有上界,由定义如果f(n)=O(n),那显然成立f(n)=O(n^2),它给你一个上界,但并不是上确界,但人们
2016-04-20 17:20:17
384
转载 程序时间复杂度计算(一)
最近休息的状态,所以将以前工作时纪录在“印象笔记”的较好的资料和以前自己的一些想法,逐步整理到博客里吧。一、概念 时间复杂度是总运算次数表达式中受n的变化影响最大的那一项(不含系数) 比如:一般总运算次数表达式类似于这样: a*2^n+b*n^3+c*n^2+d*n*lg(n)+e*n+f a ! =0时,时间复杂度就是O(2^n); a=0,b<>0 =>O(n^3); a,b=0,c
2016-04-20 17:16:14
6555
原创 一个图像算法岗的面试总结
职业规划原因吧,耗时半个月的交接后,终于加入了裸辞大队,说句题外话,领导一再劝我找到心仪的再走,但是自己想着背水一战吧,如果有人也有这种想法的话,我觉得你可以等等,因为即使原单位帮你交了一个月的社保等其他东西,但是你还会有压力,过程有些熬人。 这是离职后的第一个面试(还没开始投简历,但是因为办离职时更新了,有些觉得不错的机会打电话来约,想想也就先试试了,后续会不定时更新下,这个是昨天的,今天的昨晚
2016-04-19 20:22:10
18200
原创 文本小票的一种无监督聚类方法
基于ostu的无监督文本聚类 对于区分不同店铺的小票效果良好 同店铺小票不同类别区分效果一般,但是对于离群点定位(小样本类别很精准),借鉴了TF/IDF的思想,还有词处理时的去停词,词频因素的考虑优化,分类的阈值计算为每次基于相似度集合的前后背景最大分割点,不断二分类。 ostu为图像二值化处理时的一种算法(类间最大方差),图像专业,前年第一次尝试做聚类时的一个想法和实现,前后设计调优用了三天,不
2016-04-19 19:49:49
656
原创 多个C3P0的java举例
在使用mysql时,如果数据库会被频繁多人调用,有必要使用连接池来帮助协调,使用C3P0连接池时想要用多个数据库时,需要分别定义ComboPooledDataSource的静态对象。举例如下:public class ConnOfC3P0Util { private static Log logger = LogFactory.getLog(ConnOfC3P0Util.class);
2016-04-19 19:37:49
1421
原创 基于投影和众数特点的粘连sku分割
首先是基本的投影:/** * 图像向x轴做投影后的数组 * * @param imagedata * @param w * 宽 * @param h * 高 * @return */ public static int[] xpro(BitSet bitSe
2016-04-19 19:31:00
560
原创 SVM推导帖子收藏
SVM推导里看过的不错的两个帖子,还有就是《机器学习实战》中的SVM那一章的SMO的简单实现的python代码,学习SVM的可以看一看,比《统计学习》书里的部分,细节要详细些。'''Created on Nov 4, 2010Chapter 5 source file for Machine Learing in Action@author: Peter'''from numpy impo
2016-04-19 19:20:00
568
转载 文本特征选择算法:卡方检验和信息增益
转载自:http://blog.sina.com.cn/s/blog_6622f5c30101datu.html 特征提取步骤: 1. 卡方检验1.1 统计样本集中文档总数(N)。 1.2 统计每个词的正文档出现频率(A)、负文档出现频率(B)、正文档不出现频率)、负文档不出现频率。 1.3 计算每个词的卡方值,公式如下:1.4 将每个词按卡方值从大到小排序,选取前k个词作为特征,k即
2016-04-19 19:11:12
2632
Beyond the C++ Standard Library_ An Introduction to Boost 中文版
2013-07-09
Feature Extraction in Computer Vision and Image Processing
2013-07-09
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人