
BeautifulSoup
农民小飞侠
如果放弃了,那还谈什么理想
展开
-
python Automatic-Corpus-Generation sgml文件解析为csv
最近需要用到文本纠错的数据集,但是是sgml格式的,类似xml格式的,我这里顺手用beautifulsoup解析了一下,核心代码还是来自https://github.com/wdimmy/Automatic-Corpus-Generation,但是我修改了一下,分享一下代码:import loggingimport osimport codecsfrom tqdm import tqdmfrom bs4 import BeautifulSoup import pandas as pdde原创 2020-08-25 11:06:05 · 751 阅读 · 0 评论 -
python pandas提取网页的所有表格输出到csv中
今天有人叫我把一个网页的所有的表格都提取出来,其实就是把所有的table标签都解析出来,我这里用pandas神器做了一下,发现出奇的简单:import pandas as pdimport osfrom selenium import webdriverfrom bs4 import BeautifulSoupbrowser = webdriver.Chrome()document_each_year=browser.get(url) html = browser.page_so原创 2020-08-21 21:31:13 · 1048 阅读 · 0 评论 -
python3 beautifulsoup解析网页下载图片
今天有朋友叫我解析以下img的url,然后下载图片,这里我分享一下我的下载过程。import urllib.requestfrom bs4 import BeautifulSoup#获取页面信息def getHtml(url): html = urllib.request.urlopen(url).read() return htmlurl='https://pa...原创 2020-04-16 14:13:55 · 903 阅读 · 0 评论