- 博客(4)
- 收藏
- 关注
原创 数据挖掘十大算法--浅谈Adaboost算法
Adaboost算法由来ØBoost 算法系列的起源:lPAC Learnability(PAC 可学习性)这套理论主要研究的是什么时候一个问题是可被学习的ØPAC 定义了学习算法的强弱l 弱学习算法---识别错误率小于1/2(即准确率仅比随机猜测略高的学习算法)l 强学习算法---识别准确率很高并能在多项式时间内完成的学习算法
2014-08-20 10:39:18
1216
原创 JDBC连接Mysql并统计指定关键词在某一列中出现的次数
import java.util.regex.Pattern;import java.sql.*;public class Statistics { public static void main(String[] args) { statistics(); } public static Connection getConnection() throws SQLExce
2014-05-18 13:40:29
1487
转载 Linux命令速查手册
I、Shell入门一、基础命令1、ls对有读取权限的文件列出询问目录包含的内容ls -R folder_name --recursive,查看多个子目录的内容ls -r folder_name --reverse,以相反的顺序显示文件ls -l folder_name –long,完整显示文件信息ls -1 folder_name --内容只
2014-04-17 20:47:17
2626
原创 Vim命令小结-指定词统计和提取指定词(正则表达式)
最近在做基于Nutch网络爬虫爬取数据及一些数据处理的内容,涉及到在网络爬虫爬取到的HTML文件中提取一些用户名,之前想的一直是导入数据库再进行操作,从而忽略了强大的Vim。 问题来源: 根据网络爬虫爬取了一些淘宝BBS的一些数据,dump出一些HTML文件数据,一共120多万行,如下所示: 分析发现,含有用户名的具有统一的class=“e
2014-03-19 17:15:31
3335
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人