
采集器
文章平均质量分 51
用户昵称2024
这个作者很懒,什么都没留下…
展开
-
一唯,ev录屏过程中断电视频的恢复,视频恢复修复
一唯,ev录屏过程中断电视频的恢复,视频恢复修复操作分为3步。1)再用ev在同样机器、同样模式(如全屏录制等)方式下录制一份别的视频,保存为good.mp42)下载 如下几个文件3)用法很简单,先得找一个没有问题的、拥有同样分辨率和比特率的视频 good.mp4,拿recover_mp4.exe给分析一下,分析完会产生两个文件:”video.hdr” 和 “audio.hdr”。#recover_mp4.exe good.mp4 --analyze开始处理有问题的文件bad.mp4,原创 2021-12-13 18:18:46 · 12206 阅读 · 1 评论 -
火车头采集器基本用法
fiddler软件用法,有2和4版本的差别1)get简单的实际网页如page写实际的在添加上可以用(*)代替2)post的需要cookies与user-agent:同时类型选择post3)post后有跳转的,手写参数处理参数,在参数中行前部手写或者复制粘贴前缀,有时一页中有多页链接的,可以用下级链接的原创 2016-01-14 14:14:49 · 2050 阅读 · 1 评论 -
火车头采集器 截取字符串 正则表达式
有时需要从采集内容或者网址中截取部分字符串,可以使用正则表达式截取如从/.../中截取出来,\/[\w]+\/,截取/example/字符串,含//符号,非常实用附录:以此网址为列 http://tieba.baidu.com/p/2376714043 采集 标题、时间、邮箱 来讲解 标题我们需要采集和 中间的内容写法 (?[\s\S]*?)这种与 正则参数原创 2016-05-02 22:06:45 · 16049 阅读 · 0 评论 -
火车头采集器 当前网址内容采集 以及软件误标为已经采集的处理
火车头采集器 当前网址内容采集 以及软件误标为已经采集的处理火车头采集当前一组网页内容,不需要采集下一级别网页的内容,只需要在添加网址时用文件导入(网址文件列表),当然如果网页少可以只手工添加几个。另外如果发现采集的近1000文件中有几个损坏的,通常的原因是没有采集到内容,这是可以在data文件夹中找到数据库,把内容为空的记录复制到excel中,然后再只复制当前pageurl列到文本文件中原创 2016-05-04 12:10:39 · 3720 阅读 · 0 评论 -
火车头采集器 页面图片等信息采集
火车头采集器 页面图片等信息采集有些采集的页面中有图片或者其他内容如链接的word文档等等,如果采集下来,并保持链接呢。火车头采集器中给了较好的操作。在内容采集中,选择内容下载,如果仅仅是图片,勾选下载图片即可,还可以过滤页面中的垃圾信息,只选择页面中部分图片进行下载。此地请注意。一定要在总步骤的第四步中保存文档位置选择保存路径,否则鬼知道下载到哪里去了(它提示你正常下载,可是给出原创 2016-05-06 08:45:11 · 3627 阅读 · 0 评论 -
火车头采集器 采集https网站 以及网站cookie 避免 蜘蛛 爬虫 程序等
火车头采集器 采集https网站并不是想象中的困难,有时https网站只是用了这个加密协议,但是事实上的数据并没有加密,所以仍然可以采集。如果确实有困难的可以通过,http分析软件来确认地址,如HttpAnalyzerStdV7,分析真实访问地址。网站中的cookie,需要用正式浏览器获得,建议是ie浏览器,软件兼容性好。同时为了避免 蜘蛛 爬虫 程序等,模拟浏览器选择真实的ie,原创 2017-04-18 14:28:36 · 15730 阅读 · 1 评论 -
火车头采集器 采集Ajax页面 一页自动刷新列表的 网站 xpath 标签
对于采用ajax技术的页面,每次刷新或者向后滚动鼠标既可以换到新的列表,而浏览器中地址没有变化。此时采用的方法为Fiddler查看或者类似工具,找到真实的页面地址即可。另外可以在采集中单独添加标签,与标题,内容同等重要,只是主要标签有先后顺序之分,有些内容地址复杂的可用xpath工具自动提取采集到的标签,作为属性之一,在后面的文件命名等极为重要原创 2017-04-18 14:36:38 · 9841 阅读 · 0 评论 -
火车头采集器 内容发布 utf8 模板 utf-8 乱码
火车头采集器 内容发布 utf8 模板一直没有能把utf-8编码的网站内容顺利采集下来。尝试了几个方法,如采集时网页(顶部设置)编码设置成utf-8,发布时gb2312,全是乱码。或者相反的设置,保存不到文件。而用gb2312发布的虽然有内容,但是文字全是无法识别的。后来进入模板库,分析每一个文件模板文件,总算发现问题。原来模板文件的格式不是utf8的,只是改了一个gb2312的ht原创 2017-05-17 10:57:19 · 3381 阅读 · 0 评论