今天在用Python爬取HTML上的一个doc文件时,由于在BeautifulSoup函数里面没有指定解析器,所以打印不出doc文件里面的内容
显示说系统默认使用最佳的解析器lxml,而文件上需要用xml解析器才能打印,就去官网看了下,原来在使用BeautifulSoup时,如果不指定解析器的话,默认使用lxml,所以文件打印不出来,只要在BeautifulSoup(markup,xml)加上指定的解析器,就可以打印出来。
今天在用Python爬取HTML上的一个doc文件时,由于在BeautifulSoup函数里面没有指定解析器,所以打印不出doc文件里面的内容
显示说系统默认使用最佳的解析器lxml,而文件上需要用xml解析器才能打印,就去官网看了下,原来在使用BeautifulSoup时,如果不指定解析器的话,默认使用lxml,所以文件打印不出来,只要在BeautifulSoup(markup,xml)加上指定的解析器,就可以打印出来。