爬虫学习笔记
weixin_44984151
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
bs4解析具体使用
from bs4 import BeautifulSoup 对象的实例化: 1.本地html文件加载 fp=open('./test.html','r',encoding='utf-8') soup=BeautifulSoup(fp,'lxml') 2.互联网获取页面加载 page_text=response.text soup=BeautifulSoup(page_text,'lxml') 提供用于数据解析方法和属性: 1.soup.tagname:返回文档中第一次出现对应的标签 2.soup.find(原创 2020-12-22 19:54:03 · 552 阅读 · 0 评论 -
简单的图片批量爬取
一、获取html页面内容 用requests获取,用beautifulsoup解析 import os import requests from fake_useragent import UserAgent from bs4 import BeautifulSoup ua = UserAgent(verify_ssl=False) # print(ua.random) user_agent=ua.random # url='https://www.yunbtv.com/vodtype/oumeiju.h原创 2020-12-18 20:44:27 · 293 阅读 · 1 评论 -
在桌面创建文件夹
#!/usr/bin/python # -*- coding: UTF-8 -*- import os, sys # 创建的目录 path = "/Users/apple/Desktop/test" os.makedirs( path,mode=0o777, exist_ok=False); print('路径被创建')``原创 2020-12-18 18:12:23 · 305 阅读 · 1 评论 -
三行代码爬取网页中table数据
import pandas as pd if __name__ == '__main__': url='https://hz.house.ifeng.com/news/2014_10_28-50087618_1.shtml' data =pd.read_html(url)[0] #[0]表示网页中第一个表格 data.to_csv('房产数据.csv', encoding='utf-8', index=False)原创 2020-12-23 22:56:42 · 317 阅读 · 1 评论
分享