
爬虫学习
厄运鹰人
NLP学徒
展开
-
爬虫框架2(BeautifulSoup解析网页)
列表数据翻页 # -*- coding:utf-8 -*- #@Time : 2020/6/2 0002 15:04 #@Author: Yang-Zhenping #@File : signal_spider.py import requests import json from bs4 import BeautifulSoup def get_url(html): title_=[] url_list=[] res=requests.get(html) res.encod原创 2021-09-16 20:12:52 · 172 阅读 · 0 评论 -
爬虫框架1(模拟浏览器)
模拟浏览器(模拟人工点击浏览器) 谷歌插件chromedriver.exe 必备包 1.selenium from selenium import webdriver import time,random,datetime import os from selenium.webdriver.chrome.options import Options os.environ['NLS_LANG']='SIMPLIFIED CHINESE_CHINA.UTF8' # 模拟浏览器,使用谷歌浏览器,将chromedr原创 2021-09-16 20:01:44 · 300 阅读 · 0 评论 -
数据处理及爬虫学习
数据处理 json json格式: 格式1:[{“name”:”jack” “age”:”18”} ,{“name”:”jack” “age”:”18”} ] 格式2:{“name”:”jack” “age”:”18”}{“name”:”jack” “age”:”18”}{“name”:”jack” “age”:”18”}{“name”:”jack” “age”:”18”} 读取json文本,有两种方法: 针对json格式1,通过json.load(file)直接转换为多个dict 针对js原创 2020-10-18 14:51:08 · 434 阅读 · 0 评论