直接祭出代码
/**
* 爬虫网址
*/
public static String path = "https://www.ximalaya.com/yule/18103710/";
/**
* 本地保存路径
*/
public static final String WORKSPACE = "/test";
/**
* 定义四个文件类 a链接 img链接 文件链接 访问失败的链接
*/
public static File aLink, imgLink, textLink, errorLink;
public static void main(String[] args) {
// 创建文件夹
File directory = new File(WORKSPACE);
if (!directory.exists() && !directory.isDirectory()) {
directory.mkdir();
}
aLink = new File(WORKSPACE + "/ALinks.txt");
imgLink = new File(WORKSPACE + "/ImgLinks.txt");
textLink = new File(WORKSPACE + "/TextLinks.txt");
errorLink = new File(WORKSPACE + "/ErrorLinks.txt");
File[] files = new File[] { aLink, imgLink, textLink, errorLink };
try {
for (File file : files) {
if (file.exists())
file.delete();
file.createNewFile();
}
} catch (IOException e) {
e.printStackTrace();
}
Document doc = null;
try {
doc = Jsoup.pa

本文介绍了如何使用Python爬虫提取网页上的所有链接、图片和文件。通过示例代码详细展示了实现这一目标的具体步骤,适用于初学者入门。
最低0.47元/天 解锁文章





