PHP 简单的小偷程序

本文介绍了如何使用PHP的小偷程序抓取远程网站数据,通过file_get_contents函数读取整个网页内容,并利用正则表达式ereg和eregi进行匹配和替换,解决相对路径导致的图片无法显示的问题。示例中展示了处理相对路径图片URL的过程,但遇到了超时问题。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

小偷程序:把远程网站上的数据(图片,网页及其他文件)抓取到本地,处理后再显示

正则表达式:用于字符串的模式分割 、匹配、查找及替换操作。
相关函数:
int ereg ( string $pattern , string $string [, array &$regs ] )
若省略参数返回的数组,找到则返回值为 True 否则 返回 False
与之对应 eregi() 不区分大小写。 
 string file_get_contents ( string $filename [, bool $use_include_path = false [, resource $context[, int $offset = 0 [, int $maxlen ]]]] )
读取整个文件,比如:

用此函数可以获取网页信息
他就是小偷程序的基础。
比如:
<?php
$url=file_get_contents("http://www.ubuntu.org.cn/index_kylin");
echo $url;
?>


但是对于另一个网站:
<?php
$url=file_get_contents("http://www.alangzhong.com/index.html");
echo $url;
?>
发现很多的背景图片是看不见的。



查看网页源代码我们发现,这是
<img width="116" height="98" 
src="/upload/201503/b123ec26-bb8f-43be-b5ad-cdf45153d053.png"/>
图片的地址使用了相对路径,而我们本地没有这样的文件,当然显示不出来。

用正则表达式选定图片,然后远程地址替换相对路径:
下面代码的超时问题没有解决。

<?php
//ini_set('max_execution_time', '0');   //三者都没用啊,一直超时
//@ini_set('default_socket_timeout', 20000);
//set_time_limit(2); 
$url=file_get_contents("http://www.alangzhong.com/index.html");
//echo $url;
$fp = @fopen($url, "r") or die("超时");  //为什么不断超时
$contents = file_get_contents($url);
eregi("<img width=\"116\" height=\"98\" src=\"/upload/201503/b123ec26-bb8f-43be-b5ad-cdf45153d053.png\"/>",$contents,$rg);
//  远程地址替换相对路径
$rg[1]=str_replace("src=\"../upload/","src=\"http://www.alangzhong.com/index.html/upload/",$rg[1]);

echo $rg[1];
?>






采集车 当前版本:V1.1 采集车是一款完全免费的万能采集工具,无论您是使用wordpress,dede或其它任何系统管理您的知识,只要您经过简单的上传操作,系统就可以完美运。 使用方法: 第一步:下载客户端放入网站的根目录 第二步:到官网注册采集车帐号并绑定站点 第三步:从客户网站访问(用浏览器打开)采集车文件caijiche.php,并输入官网免费提供的激活码激活程序,此激活码的功能是为了通信完全设计。 第四步:到采集车官网控制客户端进行采集。 官方网站:www.caijiche.com 联系方式:QQ:caijiche@gmail.com(2558581450) 如果用数字搜索不到,请用EMAIL搜索QQ帐号 EMAIL:caijiche@gmail.com 官方论坛:http://www.caijiche.com/forum 下载地址:http://www.caijiche.com/release/caijiche.zip 视频教程网址:http://www.caijiche.com/forum/forum.php?mod=viewthread&tid=35&extra=page=1 采集车具有以特征: 1、完全免费 采集车是一款完全免费的信息收集工具,我们本着团结共享的精神,尽量压缩建站成本。 2、高通用性 无论您是使用wordpress,dede或其它任何系统管理您的知识,只要您经过简单的上传操作,系统就可以完美运行; 3、高稳定性 系统具有高稳定性,只要简单设计好任务,系统就可以完全按照您的意愿完美执行,您要做的就是坐享其成!; 4、高速采集 系统经过大量优化,占用CPU小,运行速度快,让您的服务器物尽其用!告别挂机采集! 5、智能采集 系统具有智能采集引擎,您只需要选择您要采集的关键词,系统将按您的要求自动查找相关文章并发到到您的系统当中; 6、智能发布 整个发布过程完全智能化,当然您还可以按照您的需求进行个性化的设置,完美兼容各种内容管理系统; 7、定时任务 定时任务可以让您的网站定时得到更新,告别繁琐的管理过程,把每天有限的精力集中到其它工作上!; 8、活动推广 活动推广可以让您简单轻松的推广您自己的网站和协助他人推广网站,通过大家的相互协作,达到共同进步的目的。 9、规则共享 所有的采集规则可以共享,共享后其它朋友可以使用您的规则进行采集,当然,这样您肯定可以获得应有的回报! 10、安全性高 系统所有协议均采用高强度加密算法进行加密,程序入口单一,通信安全放心!
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值