
数据抓取
digmouse
顺气自然
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
curl搞乱了编码
我用curl模拟了浏览器,但是最后发现抓取的所有的html,怎么识别都是utf8的编码。不知道是我程序的问题还是curl就是如此。 function get_html($url) { $ch = curl_init(); curl_setopt ($ch,CURLOPT_URL,$url); curl_setopt($ch,CURLOPT_RETURNTRANSFER原创 2008-12-11 11:41:00 · 3912 阅读 · 3 评论 -
汉语分词算法简介
选自:分词技术研究报告(报告人:杨超) 现有的分词算法主要可分为三大类:基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法。1、 基于字符串匹配的分词方法这种方法又叫做机械分词方法,它是按照一定的策略将待分析的汉字串与一个“充分大的”机器词典中的词条进行配,若在词典中找到某个字符串,则匹配成功(识别出一个词)。按照扫描方向的不同,串匹配分词方法可以分为正向匹配和逆转载 2008-12-12 13:59:00 · 401 阅读 · 0 评论 -
[转]什么是中文分词?
信息的飞速增长,使搜索引擎成为人们查找信息的首选工具,Google、百度、中国搜索等大型搜索引擎一直是人们讨论的话题。随着搜索市场价值的不断增加,越来越多的公司开发出自己的搜索引擎,阿里巴巴的商机搜索、8848的购物搜索等也陆续面世,自然,搜索引擎技术也成为技术人员关注的热点。 搜索引擎技术的研究,国外比中国要早近十年,从最早的Archie,到后来的Excite,以及altvista转载 2008-12-15 07:43:00 · 381 阅读 · 0 评论 -
html的变化
今天对一个网站进行采集,需要对一段html进行定位,但是总是找不到,我很是奇怪,最后发现了,原来是那段html编码在ff下面看是一个样子,拿到dw下面是另外一个样子,后者才是准确的。修改后就可以了。原创 2008-12-25 10:01:00 · 323 阅读 · 0 评论