
页面更新识别
Together_CZ
欲戴其冠,必承其重
展开
-
网站被黑检测-网页挂马及暗链检测
转自:网站被黑检测-网页挂马及暗链检测网页挂马及暗链检测 什么是网页挂马 网页挂马是指恶意攻击者攻击WEB网站后,在网页中嵌入一段代码或脚本,用于自动下载带有特定目的木马程序,而恶意攻击者实施恶意代码或脚本植入的行为通常称为“挂马”。 什么是SEO暗链 SEO暗链是SEO黑帽手法中相当普遍的一种手段。笼统地说,它就是指一些人用非正常的手段获取其他网站的权限后,修改转载 2017-05-27 18:43:03 · 10086 阅读 · 0 评论 -
python使用lxml解析html获取页面内所有叶子节点的xpath路径
因为需要使用叶子节点的路径来作为特征,但是原始的lxml模块解析之后得到的却是整个页面中所有节点的xpath路径,不是我们真正想要的形式,所以就要进行相关的处理才行了,差了很多网上的博客和文档也没有找到一个是关于输出html中全部叶子节点的API接口或者函数,也可能是自己没有那份耐心,没有找到合适的资源,只好放弃了寻找,但是这并不说明没有其他的方法了,在对页面全部节点的xpath输出之后观察得到的原创 2017-06-30 22:53:38 · 8192 阅读 · 17 评论 -
python实现字典树的插入、查找功能并基于pickle模块持久化存储字典树
字典树是一个很有意思的东西,一直想用用试试,最早接触的时候也是在学长讲的时候了解到了这么一个东西,今天想起来了就实现了一下,很简单,因为我只是需要插入和查找这么两个功能用于后续的工作,对于字典树的介绍我就不多说了因为网上的教程讲解什么也都很多,在这里作为一个探索学习的记录就贴一下具体的一些介绍和性质,均来源于网上,如下: 字典树(Trie)可以保存一些字符串->值的对应关系。基本上,它跟原创 2017-06-26 17:13:22 · 5479 阅读 · 1 评论 -
python解析页面DOM树形成xpath列表,并计算DOM树的最大深度
最近对python的解析HTML的能力叹为观止,毕竟python这样强大的工具根本不缺乏解析html和xml的第三方库,我使用的是lxml当然还有其他比较好使的如:HTMLParser、BeautifulSoup等,鉴于我比较喜欢xpath这样的语法表达所以这里使用的也是lxml 要做的就是对于解析后的DOM树形成一个完整的xpath路径的列表,列表中的每一个路径都是从根节点到叶子节点的原创 2017-06-25 16:14:45 · 7696 阅读 · 11 评论 -
python使用lxml库对解析后的DOM树形成的xpath计算得到平均值、中位数、方差
这篇文章的内容是接着上一篇的内容继续的,上一篇文章中简单的得到了DOM的最大深度,这里我要接着对得到的数据进行计算,分别得到均值、中位数、方差。 利用均值和中位数的目的是:利用统计的特征来衡量一下DOM树每一条路径的向中部数值的聚拢程度或者说是大多数路径的分布集中在什么取值的区域内,以便于接下来的分析工作。 利用方差的目的是:利用整体的统计特征来观察整体的路径波动性是怎么样的,原创 2017-06-25 16:34:39 · 4391 阅读 · 0 评论 -
有关信息抽取的文章列表(1)
转自:http://blog.youkuaiyun.com/ictextr9/article/details/3727257这里总结了近几年来,一些知名会议上有关信息抽取的文章,不断更新中。[1] Rui Cai, Jiang-Ming Yang, Wei Lai, Yida Wang, and Lei Zhang. iRobot: An Intelligent Crawler for We转载 2017-06-14 07:24:58 · 7230 阅读 · 0 评论 -
用python解析html
转自:http://blog.youkuaiyun.com/adrianfeng/article/details/5881850 Python中,有三个库可以解析html文本,HTMLParser,sgmllib,htmllib。他们的实现方法不通,但功能差不多。这三个库中提供解析html的类都是基类,本身并不做具体的工作。他们在发现的元件后(如标签、注释、声名等),会调用相应的函数,这些函数必转载 2017-06-14 10:37:51 · 3497 阅读 · 0 评论 -
python使用BeautifulSoup的prettify功能来处理HTML文档,之后使用Levenshtein编辑距离计算文档间的相似度
字符串的处理可谓是一个老生常谈的话题了,处理的方法也是有很多的积累的,利用字符串的匹配来计算文档整体之间的相似度是一个惯用的方法,但里面还有很多具体的细节需要注意,今天在使用Levenshtein距离的时候遇到了一个问题,不太知道该如何衡量了,这里先说一下做的事情: 首先使用BeautifulSoup来解析html文档,去除除了html文档非标签节点之外的内容,之后使用prettify函原创 2017-06-27 16:28:12 · 5595 阅读 · 2 评论 -
python实现对解析之后的DOM进行层次化处理升序输出
最近在着手做html的相关处理工作,因为前期的想法偏差,使用滑窗机制得到的签名居然和网页文本得到的签名是一模一样的,我调试了很多次都是这样,最终只好暂时搁浅,不明白是哪里出了问题,现在的做法是回归HTML的解析,得到页面的DOM树来进行下一步计算,不使用浏览器内嵌的开源引擎Webkit进行渲染,因为那样带来的结果就是时间代价太高了,对于得到的DOM树可以有进一步的处理得到每一层次的结点进行计算,这原创 2017-06-15 10:05:18 · 3786 阅读 · 1 评论 -
如何计算文本文档词向量之间的相似度----一些概念与方法
在计算文本相似项发现方面,有以下一些可参考的方法。这些概念和方法会帮助我们开拓思路。 相似度计算方面Jaccard相似度:集合之间的Jaccard相似度等于交集大小与并集大小的比例。适合的应用包括文档文本相似度以及顾客购物习惯的相似度计算等。Shingling:k-shingle是指文档中连续出现的任意k个字符。如果将文档表示成其k-shingle集合,那么就可以基转载 2017-06-27 22:10:25 · 9590 阅读 · 2 评论 -
文本、词相似度论文阅读笔记
基于语义理解 的文本相似度算法 与 基 于统 计学 的相 似度计算 方法相 比,基于语 义理解的相似度计算方法 不需要大规模语料库的支持 ,也不需要 长时间 的训练 ,具有准确率高 的特点 ,相关 的研究 主要有使用 W ordN et 进行相 似度计算 的方法 ;目前 ,基于语义理解 的相似 度计算大 多限于词语 或句子范 围 。 文本的相似度包括:词语 与词语 、词语与原创 2017-06-28 08:21:16 · 4195 阅读 · 0 评论 -
网页抽取技术和算法与WebCollector
网页抽取技术和算法,持续更新。本文由WebCollector提供,转载请标明出处。转自:http://blog.youkuaiyun.com/AJAXHu/article/details/48382381网页抽取简介基于正则表达式的网页抽取基于CSS选择器的网页抽取基于机器学习的网页抽取一. 网页抽取简介网页抽取在大多数情况下,指提取网页中的结构化数据。网页抽取技术近十几年方法和工转载 2017-07-07 20:29:19 · 5074 阅读 · 0 评论 -
python对lxml解析html得到的xpath路径去除()、[]得到模式路径
使用lxml对html解析会得到所有节点的路径信息,基于这些路径信息想进一步得到精简的具有代表性的模式路径,在这里采用的方法是:去除路径中的()、[]等辅助信息,这些信息就是兄弟节点的位置信息,在模式路径的获取中,这些位置数据是需要剔除的,具体实现很简单,如下:#!usr/bin/env python#encoding:utf-8'''__Author__:沂水寒城功能:将每个节点的原创 2017-07-08 13:24:36 · 4165 阅读 · 1 评论 -
python模块之feedparser学习使用
今天在看书的时候无意间发现了一个号东西就是feedparser模块,feedparser 号称是一个 universal feed parser,使用它我们可轻松地实现从任何 RSS 或 Atom 订阅源得到标题、链接和文章的条目了,这个号称并不是说的话,是因为这个模块真的很强大,解压打开后可以直接使用: python setup.py install 安装使用,也可以使用:p原创 2017-07-21 15:56:45 · 23263 阅读 · 0 评论 -
python调用Java代码并执行--------jpype使用篇
一直想可以做到在python的环境中,执行java的程序,而不需要单独的去执行java程序之后得到的结果再用python处理,恰好今天找到了一个很不错的讲解,需要的资源里面也都有。转自:http://www.cnblogs.com/junrong624/p/5278457.html一、JPype简述1.JPype是什么? JPype是一个能够让 pyth转载 2017-06-29 14:37:40 · 25613 阅读 · 0 评论 -
浅谈局部敏感哈希LSH
思想局部敏感哈希的基木思想是通过一组哈希函数,把相似的数据对象哈希到相同的哈希桶中,使得越相似的数据对象被哈希到相同桶中的概率越高。在查询时,查询的对象经过相同的哈希函数哈希到某些哈希桶中,这些桶中的数据对象构成候选集,这就过滤掉大量的相似概率很低的数据对象。接着对候选集中的数据项逐一计算与查询项的精确距离或相似度,验证其与查询项之间的相似性。该框架称为过滤验证框架(Filter-and-Refin原创 2017-06-04 15:09:09 · 5899 阅读 · 0 评论 -
Larbin学习小结
转自:http://blog.youkuaiyun.com/neo_2011/article/details/7026917Larbin是一个用C++开发的开源网络爬虫,有一定的定制选项和较高的网页抓取速度。下图表示了一般爬虫抓取网页的基本过程。抓取以/Larbin.conf中的startUrl做为种子URLs开始。 下面先来看用于处理url的类:上面的类图只显示了转载 2017-05-29 15:13:19 · 3093 阅读 · 0 评论 -
爬虫Larbin解析(一)——Larbin配置与使用
转自:http://www.cnblogs.com/kaituorensheng/p/3676851.html介绍功能:网络爬虫开发语言:c++开发者:Sébastien Ailleret(法国)特点:只抓取网页,高效(一个简单的larbin的爬虫可以每天获取500万的网页) 安装安装平台:Ubuntu 12.10下载:http://sourceforge.net/projects/larbi转载 2017-05-29 15:14:36 · 3501 阅读 · 0 评论 -
开源爬虫larbin分析
转自:http://www.cnblogs.com/FengYan/archive/2012/02/04/2338630.html1. larbin简介(百度百科) larbin是一种开源的网络爬虫/网络蜘蛛,由法国的年轻人Sébastien Ailleret独立开发,用c++语言实现。larbin目的是能够跟踪页面的url进行扩展的抓取,最后为搜索引擎提供广泛的数据来源。 La转载 2017-05-29 15:15:17 · 3470 阅读 · 0 评论 -
Shellcode的原理及编写
转自:http://blog.youkuaiyun.com/maotoula/article/details/185026791.shellcode原理Shellcode实际是一段代码(也可以是填充数据),是用来发送到服务器利用特定漏洞的代码,一般可以获取权限。另外,Shellcode一般是作为数据发送给受攻击服务的。 Shellcode是溢出程序和蠕虫病毒的核心,提到它自然就会和漏洞联想在一起,毕竟转载 2017-05-29 15:17:12 · 3802 阅读 · 0 评论 -
了解黑客的关键工具---揭开Shellcode的神秘面纱
了解黑客的关键工具---揭开Shellcode的神秘面纱2008-02-01 14:01:57标签:黑客 Shellcode 入侵 休闲 网络安全原创作品,允许转载,转载时请务必以超链接形式标明文章 原始出处 、作者信息和本声明。否则将追究法律责任。http://zhaisj.blog.51cto.com/219066/61428了解黑客的关键工具---揭开Shellcod转载 2017-05-29 15:17:43 · 3497 阅读 · 0 评论 -
各个域名后缀含义
转自:https://jingyan.baidu.com/article/1974b289a649daf4b1f774cb.html 很多人在注册域名的时候不明白域名后缀的含义,在这里就介绍两种最为常用的域名,介绍下他们的区别以及适用的范围。需要先查询是否被注册,我们经常去的就是西部数据和万网,查询并注册未被注册的域名,一般无论是什么域名 首年都为50元之下,第二年可能会加几元转载 2017-05-29 15:51:31 · 17846 阅读 · 0 评论 -
XML简介
转自:http://blog.youkuaiyun.com/skyer518/article/details/379047571.简介Extensible Markup Language,翻译过来为课扩展标记语言,XML技术是W3C组织发布的,目前推荐遵循的是W3C组织于2000发布的XML1.0规范。XML技术除用于保存有关系的数据之外,它还经常用作软件配置文件,以描述程序模块之间的关系。在一个软件转载 2017-06-16 21:49:09 · 3081 阅读 · 0 评论 -
DTD(Document Type Definition) 简介
转自:http://blog.youkuaiyun.com/skyer518/article/details/37904759文档类型定义(DTD)可定义合法的XML文档构建模块。它使用一系列合法的元素来定义文档的结构。DTD 可被成行地声明于 XML 文档中,也可作为一个外部引用。DTD是一套关于标记的语法规则,它定义了文档的逻辑结构,规定了文档中所使用的元素、实体、元素的属性、元素与实体之间的转载 2017-06-16 21:50:03 · 3677 阅读 · 0 评论 -
DOM树节点解析
目录(?)[+]转自:http://blog.youkuaiyun.com/skyer518/article/details/37904787DOM是解析XML文件的官方标准,它与平台和语言无关。DOM解析将整个XML文件载入并组装成一棵DOM节点树,然后通过遍历、查找节点以读取XML文件中定义的数据。由于DOM解析中把所有节点都载入到内存中,因而它比较耗资源,而且它需要把整棵节点转载 2017-06-16 21:50:59 · 6464 阅读 · 0 评论 -
Locality Sensitive Hashing(LSH)之随机投影法
http://www.strongczq.com/2012/04/locality-sensitive-hashinglsh%E4%B9%8B%E9%9A%8F%E6%9C%BA%E6%8A%95%E5%BD%B1%E6%B3%95.html1. 概述LSH是由文献[1]提出的一种用于高效求解最近邻搜索问题的Hash算法。LSH算法的基本思想是利用一个hash函数把集合中的元素映射成hash值,使转载 2017-06-07 18:50:15 · 5064 阅读 · 0 评论 -
elasticsearch
转自:http://baike.baidu.com/link?url=HCstVnAPtXJ0brZDlLaciRXrMycEmx4pDDPTFsc5-Ku2W4LC53DItJ-7u8XfSJB8fmOop3PX6sncsFGhIFezCRCTpP5pVkUcvskingYNh7_elasticsearchElasticSearch是一个基于Lucene的搜索服务器。它提转载 2017-06-28 22:39:09 · 3324 阅读 · 0 评论 -
一个基于特征向量的近似网页去重算法——term用SVM人工提取训练,基于term的特征向量,倒排索引查询相似文档,同时利用cos计算相似度
一个基于特征向量的近似网页去重算法——term用SVM人工提取训练,基于term的特征向量,倒排索引查询相似文档,同时利用cos计算相似度摘 要 在搜索引擎的检索结果页面中,用户经常会得到内容相似的重复页面,它们中大多是由于网站之间转载造成的。为提高检索效率和用户满意度,提出一种基于特征向量的大规模中文近似网页检测算法DDW(Detect near-Duplicate WebPag转载 2017-06-03 20:42:33 · 4709 阅读 · 0 评论 -
一个基于特征向量的近似网页去重算法
转自;http://www.cnindex.fudan.edu.cn/zgsy/2009n1/caoyujuan.htm一个基于特征向量的近似网页去重算法曹玉娟1,2 牛振东1 彭学平1 江 鹏1(1北京理工大学计算机科学技术学院 100081) (2北京航天飞行控制中心 100094)摘 要 在搜索引擎的检索结果页面中,用户经常会得到内容相似的重复页面,它们中转载 2017-06-03 20:43:49 · 4671 阅读 · 0 评论