
花旗杯资料
鸭脖
爱学习
展开
-
定向抓取漫谈
网络爬虫(web crawler)又称为网络蜘蛛(web spider)是一段计算机程序,它从互联网上按照一定的逻辑和算法抓取和下载互联网的网页,是搜索引擎的一个重要组成部分。一般的爬虫从一部分start url开始,按照一定的策略开始爬取,爬取到的新的url在放入到爬取队列之中,然后进行新一轮的爬取,直到抓取完毕为止。我们看一下crawler一般会遇到什么样的问题吧:抓取的网转载 2012-04-25 19:45:54 · 1270 阅读 · 0 评论 -
股票种类简介
我国上市公司的股票有A股、B股、H股、N股、S股等的区分。这一区分的主要依据股票的上市地点和所面对的投资者而定。 A股的正式名称是人民币普通股票。它是由我国境内的公司发行,供境内机构、组织、或个人(不含台、港、澳投资者)以人民币认购和交易的普通股票。1990年我国A股股票一共只有10只,至1997年底,A股股票增加到720只,A股总股本为1646亿股,总市值17529亿元人民币,与GDP的比率为原创 2012-04-26 10:21:05 · 1418 阅读 · 0 评论 -
判断涨跌以及抽取股票名称的源代码
using System;using System.Collections.Generic;using System.Linq;using System.Text;using System.Net;using System.IO;using System.Xml;/* 标题:调用新浪分词服务算法 * 作者:贾道远 * 时间:2012/4/13 * 用原创 2012-04-26 20:22:35 · 1408 阅读 · 0 评论 -
Linux中文件夹的解读
Linux根据版本的不同, 文件的组织结构当然会有所差别,但主要的文件夹应该是一样的,了解这些文件夹的含义,对于了解Linux有着重要的意义.1, / Linux文件系统的入口,也是处于最高一级的目录;2, /bin 系统所需要的那些命令位于此目录,比如 ls、cp、mkdir等命令;功能和/usr/bin类似,这个目录中的文件都是可执行的、普通用户都可以使用的命令。作为基础系统所需转载 2012-05-01 15:12:50 · 602 阅读 · 0 评论 -
花旗队分词技术
花旗队分词技术徐亚渤1、 什么是分词技术?分词技术就是 SE 针对用户提交查询的关键串进行的查询处理后根据用户的关键词串用各种匹配方法进行的一种技术。2、 介绍分词技术之前,有必要对搜索引擎技术做一下简单的介绍:搜索引擎,搜,就是大量信息的抓取,抓取回来后的信息进行智能提取,排重,质量分析等处理。索,就是大量处理后信息的存储,信息排序,快速查询等。引擎,就是指系统不原创 2012-05-07 16:25:49 · 20286 阅读 · 0 评论 -
爬取高考数据
下面是我的高考爬虫程序,做一下备份原创 2012-06-20 12:56:42 · 2802 阅读 · 0 评论