步骤1
看到文本——>提取有效信息——>利用有效信息
文本:In this little training challenge, you are going to learn about the Robots_exclusion_standard.
The robots.txt file is used by web crawlers to check if they are allowed to crawl and index your website or only parts of it.
Sometimes these files reveal the directory structure instead protecting the content from being crawled.
Enjoy!
有效信息:robots.txt
利用:这里有效信息为一个txt文件,尝试访问。
反馈:
user-agent:意思为该事件的适用对象
user-agent:* 意思为适用对象为全体对象
disallow: 意思为禁止访问
disallow :/fl0g.php意思为禁止访问的文件为/fl0g.php
disallow: *意思为禁止访问全体文件
步骤二
根据步骤一的线索,访问/fl0g.php
成功获得flog!
结束语
就这?
本文介绍了如何通过robots.txt文件控制网站爬虫访问,包括理解user-agent和disallow指令,以及实际操作中阻止/disallow指定文件如/fl0g.php的示例。
9708

被折叠的 条评论
为什么被折叠?



