Robots协议: 也称为爬虫协议、机器人协议等)的全称是“网络爬虫排除标准”(Robots Exclusion Protocol),网站通过Robots协议告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取。 在网站根目录下放一个robots.txt文本文件,有时候它会声明此网站不可以被git。 因此我们可以在网址后面加上robots.txt 查看哪些不可以被git到,从中获取信息