
个人
文章平均质量分 70
beyondyang
这个作者很懒,什么都没留下…
展开
-
第一天实习&第一天工作感想备忘
期待了很久,终于走上了机器学习&数据挖掘之路,从国内来看,这方面的研究和应用开发正在起步中,各大公司也开始想法设法在数据挖掘上赚一笔(如腾讯的KDD cuphttps://www.kddcup2012.org/ 2012知识发现与数据挖掘大赛),不少公司也都建立起了自己的数据挖掘相关团队(数据挖掘和机器学习的关系到底是什么样),但是我个人的感觉是机器学习和数据挖掘的产品相对较少,更多实在自身领域原创 2012-05-07 14:41:07 · 1196 阅读 · 0 评论 -
mac下用vim打造python IDE之二 —— Taglist插件
虽然tags都有了,但是还是要跳来跳去的效率不够高,习惯了win下的可视化,肿么办?安装Taglist插件,顾名思义,就是一个能显示tags为一个list的插件,效果不错,易用简单安装过程:1. http://www.vim.org/scripts/script.php?script_id=273下载最新版本2. 解压缩出来的文件放入~/.vim 文件夹(分别是原创 2013-03-24 01:47:04 · 1627 阅读 · 0 评论 -
mac下用vim打造python IDE之一 —— CTags
一直很想配置自己的VIM,现在python用得比较多,想做起码效率高一些的IDE。 网上查了一下,第一步先是要搞定CTags,那就从CTags开始入手,没想到一开始就遇到了一些麻烦。1. 从http://ctags.sourceforge.net/ 下载CTags 5.82. 解压缩ctags-5.8.tar.gz3. 到解压缩后的目录运行 sudo ./con原创 2013-03-24 01:11:36 · 1970 阅读 · 0 评论 -
Android多线程的几种模式备忘
从eoe上的学习 http://www.eoeandroid.com/thread-210082-1-1.html第一种,实际上只在UI线程跑的Handler.post方法,并没有多线程,用于对比。private void loadText (final String string, final int id) { handler.post( new Runnabl原创 2013-04-05 23:35:53 · 522 阅读 · 0 评论 -
Java多线程备忘
刚好学习Java使用多线程,标准使用是这样的:首先定义一个任务,再使用一个线程去执行这个任务。那么如果不用线程去执行任务或者用线程执行一个没有定义的任务会是什么情况呢?试一试看看为了方便查看关系,定义一个显示字符的任务类,再定义另一个主线程类,用这个类的main函数去跑。1. 定义任务 + 不用Thread跑任务代码:public class showInfo原创 2013-04-03 21:28:06 · 566 阅读 · 0 评论 -
Java遇到的一个小问题
昨晚弄一个Java读数据库写入Excle文件小程序,发现从数据库中读出来的数全为空,原来是犯了常识性的错误,代码如下:ResultSet rs = stat.executeQuery(sql); while (rs.next()) { for (String str : columns) { result.put(str, "" + rs.getStr原创 2013-04-04 22:17:50 · 522 阅读 · 0 评论 -
Thrift学习
接触Thrift不到一个礼拜,用是会用了,对于其原理还是需要深入把握一些,最好的资料莫过于《Thrift:Scalable Cross-Language Services Implementation》,FB原创,拜读了一下,文章目的在于阐述他们的设计思想和取舍,也对基本应用有一些涵盖,当然用起来还是比较容易的,但是想玩转,就需要细致的了解了。另外主要参考的一篇文章:http://dongxi原创 2013-03-21 11:49:36 · 768 阅读 · 0 评论 -
ajax应用
第三天.用了ajax,效果果然不一般,当然这和python+thrift后台运行分不开,配置文件之类全都在后台加载完毕,只剩下一部分运算,这样提高前台的效率非常明显。到目前为止,用到了 pymining、python 、thrift、php、js、ajax几个技术或者模块,各个方向都需要提高,首先1. pyminging的算法,twc bayes的分类和PCA的聚类;原创 2013-03-19 20:55:34 · 558 阅读 · 0 评论 -
PHP调用python
今天突发奇想想用PHP接受POST表单,用python做运算,毕竟python灵活度更高,工作也需要用到,顺便用于练习了。有几种方法:1. 用php自带函数 exec()、 system()、 passthru() php手册中有介绍,貌似都需要注意安全性问题,因为很有可能允许用户执行系统命令。python响应有延时时,system()和passthru()也都能成功,也就是说,ph原创 2013-03-17 18:22:45 · 2216 阅读 · 0 评论 -
SQLite相关备忘
刚好用到Android中SQLite,几点基础知识备忘一. SQLite本身特性数据类型只有五种:NULLINTEGERREALTEXTBLOB系统会自动转换为以上五种类型,而且会忽略SQL语句中的数据类型信息,也就是说对字段没有特殊要求查看数据库或表的相关信息:.databases 列出数据库文件名原创 2013-03-31 20:40:25 · 477 阅读 · 0 评论 -
mac下用vim打造python IDE之三 —— Tmux
Tmux不能算是Python专用,但是因为要登录服务器,总是每个窗口ssh,累死了,刚好在coolshell看到这篇文章,《20个Unix命令行神器》 讲到好多好用的工具,窗口复用非常吸引人,就拿来尝试。首先,还是下载tmux: http://tmux.sourceforge.net/这里我下了1.8版本的,下来后开始找安装说明,找到README文件,介绍说这样编译:$转载 2013-03-30 12:00:57 · 2183 阅读 · 0 评论 -
ID3学习笔记
根据http://leon-a.iteye.com/blog/181958中提供的英文原版看了下ID3的原理,其实主要是信息熵的运用和增益Gain计算二者结合起来用于判定决策,有一些小细节没明白,不过也不纠结于过于细致的东西了。ID3 首先,ID3是分类算法其次,ID3是通过一个准备好的样例集建立一个decision tree来分类 样例(examples)属于不同原创 2012-05-24 11:46:44 · 464 阅读 · 0 评论 -
几篇文章待看
《十大算法展辉煌历史》 ——属于下面的系列,还是从下面的系列开始看起!《趣味数据挖掘系列》 ——来自科学网的博客,可以看着休闲+学习两不误的内容《文本分类入门》 ——打印出来慢慢看,适合用用来初步掌握全面的知识另外就是准备着手自己编写程序,现弄一些程序看看,自己试着开始编写需要的是在深入学习怎么写好代码的同时,在机器学习方面也不断的学习(算法和理论等)。另外原创 2012-05-23 16:17:32 · 367 阅读 · 0 评论 -
《大数据时代降临》、《七家大数据挖掘与分析的公司》
纽约时报《大数据时代降临》中有一些非常典型有趣的关键词,虽然有的早就知道,但是看到还是会很有感觉,都与数据有关,罗列在此。数据已经成为一种新的经济资产类别,就像货币和黄金一样。----12年wodasi论坛发布的《大数据,大影响》(BigData, Big Impact)称Google的自动驾驶汽车运用机器学习技术苹果的siri在建立数据库进行学习的同时转载 2012-05-13 14:34:42 · 1498 阅读 · 0 评论 -
特征选取
对于分类,特征选取是预处理的过程总体流程:1.特征选取 2.训练 3.分类特征选取的选择包含选取的对象、特征抽取的方法两个要素对于特征的建立,其实是一个构建向量问题,一个特征向量,会应用于所有的文章对象,而在每一篇文章中,都会有一个权值向量与之对应,而决定这篇文章如何分类,对于分类器来说就是一个利用权值进行计算的过程。这个过程中的一些主要问题是:1.找到原创 2012-05-09 15:29:23 · 449 阅读 · 0 评论 -
用python实现图形显示“线性回归+梯度下降”算法
刚开始学习CS229,Part I中关于线性回归讲解非常细致,相当基础的内容,感觉还挺容易实现的,就尝试用python实现,经过一番尝试,最后能逼近样本并且画出图,效果如下:图是通过python的一个图形库matplotlib画的,这个库旨在用python实现matlab的画图功能(或者还有计算功能,不过计算功能主要是numpy这个库来做的)算法方面,实现的是最基本的 Linear原创 2013-05-26 16:55:00 · 3749 阅读 · 0 评论