- 博客(18)
- 收藏
- 关注
原创 Python爬虫-爬取国外新闻网站标题和文本信息
种子 URL:爬虫从一个或多个种子 URL 开始,这些 URL 是起点。发送请求:爬虫向这些种子 URL 发送 HTTP 请求,通常是 GET 请求。获取响应:服务器返回网页的 HTML 内容作为响应。解析内容:爬虫解析 HTML 内容,提取所需的数据(如文本、链接、图片等)。提取链接:从网页中提取出所有链接,并将这些链接加入待访问队列。重复过程:爬虫重复上述步骤,直到达到某个停止条件,如爬取了一定数量的页面,或所有页面都被爬取完毕。爬虫的分类。
2025-01-05 13:29:52
2549
原创 面板数据标准化(熵权法)标准化+熵值+权重
面板数据标准化(熵权法)标准化+熵值+权重import numpy as npimport pandas as pdfrom openpyxl import load_workbook读取数据data = pd.read_excel('./XX.xlsx', sheet_name="XX")需要标准化的列columns_to_standardize = ['y', 'x1', 'x2', 'x3', 'x4', 'x5', 'x6', 'x7', 'x8']定义标准化函数,将数据标准
2024-12-23 15:56:44
272
原创 基于Python的障碍度模型分析和熵权法-障碍度技术路线讲解
可能存在障碍度为 0 的情况,当对象的某个指标是所有对象中最高的,极差法之后结果是 1,偏离度为 0,最后的障碍度也为 0,即该指标已经满分,没有障碍,无需优化。障碍度模型一般配合熵权topsis使用,当基于topsis给对象排序之后,可以继续用障碍度模型计算每个对象的待优化项,障碍度越高越亟需优化。计算单一指标对总目标的贡献,一般用指标的全局权重表示,记作 ( F )。根据指标层级关系,将底层指标的障碍度向上求和汇总,得到上层指标的障碍度。计算指标偏离度 ( I ),表示指标实际值与最优值之间的差距。
2024-12-11 23:56:09
552
原创 基于豆瓣爬虫的pylab数据动态交互显示
爬虫+ pylab数据动态交互显示云计算课上的小实训,用一个上午来写 崩的文章目录爬虫+ pylab数据动态交互显示前言一、爬取豆瓣的网站获取想要的contents二、使用步骤1.引入库数据连接pymatlabpost一个完整的代码4.效果展示总结前言老师想让我们做一个基于爬虫的数据可视化,要实时,要交互!!提示:以下是本篇文章正文内容,下面案例可供参考一、爬取豆瓣的网站获取想要的contentsheaders={'User-Agent': 'Mozilla/5.0 (Window
2021-12-01 13:03:58
329
原创 输出前 n 个Fibonacci数
前言输出前 n 个Fibonacci数提示:这里可以添加本文要记录的大概内容:本题要求编写程序,输出菲波那契(Fibonacci)数列的前N项,每行输出5个,题目保证输出结果在长整型范围内。Fibonacci数列就是满足任一项数字是前两项的和(最开始两项均定义为1)的数列,例如:1,1,2,3,5,8,13,…。提示:以下是本篇文章正文内容,下面案例可供参考输入格式:输入在一行中给出一个整数N(1≤N≤46)。输出格式:输出前N个Fibonacci数,每个数占11位,每行输出5个。如果最后
2021-07-05 19:38:36
308
原创 多裁判制,转盘,抓兔子等期末程序设计编程题
多裁判制,转盘,抓兔子等期末程序设计编程题第一个抓兔子~~第二个,转盘小游戏先说一下游戏规则吧,第三个游戏 我把它叫做多裁判评分制游戏,(可能是我对游戏的理解比较强烈哈哈哈)游戏比较简单,可以说这次的期末考试叶不难,但是我为什么只有六十分???? 难道是老师对我的编程不满意????第一个抓兔子~~import randomtry: o = int(input("想要定义的洞口数:")) p = int(input("玩家最多参与游戏的次数:"))except: print("
2021-01-15 18:19:29
172
原创 豆瓣读书top250爬取
练习豆瓣爬取读书top 250 13:12 非 json 格式from urllib.request import urlopen,Requestfrom bs4 import BeautifulSoupimport timeimport xlwtheaders={'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/85.0.4183.121 Safa
2021-01-10 20:21:41
1154
2
原创 爬取世界五百强
from urllib.request import urlopen, Requestfrom bs4 import BeautifulSoupfrom time import sleepheaders = { 'User-Agent': ' Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/84.0.4147.105 Safari/537.36 '}html = u
2021-01-09 16:27:31
517
原创 爬取豆瓣电影.json
目前只抓了个html下来。。。from urllib import requestimport jsonheaders={'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/79.0.3945.88 Safari/537.36'}def fetch_data(url): req = request.Request(url,headers=
2021-01-09 16:24:27
234
原创 爬取豆瓣音乐top250
爬取豆瓣音乐并写入excelfrom urllib.request import urlopen,Requestfrom bs4 import BeautifulSoupimport timeimport xlwttitles=[]time_list=[]attribute_list=[]zhuanji_list=[]score=[]headers={'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64; rv:6.0) Gecko/20100
2021-01-09 16:21:31
465
原创 论文的下载
论文下载写入文件夹from urllib.request import urlopen,Requestfrom bs4 import BeautifulSoupfrom urllib.request import urlretrieveimport osheaders={'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3947.100 Safa
2021-01-09 16:18:53
99
原创 前程无忧网站爬取
爬取前程无忧网站 写入excelfrom urllib.request import urlopen,Requestfrom bs4 import BeautifulSoupimport jsonimport xlwtlentitles=[]job_href=[]company_name=[]providesalary_text=[]workarea_text=[]jobwelf=[]companyind_text=[]careerinfo=[]workbook=xlwt.Wor
2021-01-09 16:17:41
738
原创 列维坦油画爬取
from urllib.request import urlopen,Requestfrom bs4 import BeautifulSoupimport osfrom urllib.request import urlretrieveheaders={'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3947.100 Safari/537.36
2021-01-09 16:16:36
167
原创 json 爬取图片保存本地3.0
from urllib import requestimport jsonimport osfrom urllib.request import urlretrievedef fetch_data(url): req = request.Request(url) # 请求url(GET请求) with request.urlopen(req) as f: # 打开url请求(如同打开本地文件一样) return json.loads(f.read().de
2021-01-09 14:36:42
462
原创 乱世佳人小说网页的爬取
乱世佳人的小说文本爬取from urllib.request import urlopen, Requestfrom bs4 import BeautifulSouptitles=[]texts=[]首先引用urlopen ,Request,Beautiful建立两个列表存放标题和每篇文章的内容def updatepages(url, header): ret = Request(url, headers=header) html = urlopen(ret).read().
2020-11-08 15:20:35
176
原创 2020-10-26
from tkinter import *import randomimport pygame as pyfile=r’D:\CloudMusic\ttdd.mp3’py.mixer.init()py.mixer.music.load(file)py.mixer.music.play(-1, 30)“”“音乐播放 -1代表循环播放, 第二个参数代表开始播放的时间(秒”""going = Trueungoing= Falsedata = [‘周嘉铖’,‘钱珑超’,‘徐展’,‘尤桉哲’,‘钱
2020-10-26 13:09:18
167
原创 小游戏
第二章 设计一个的报数小游戏。28人的小游戏 ,从1到28 号报数重复1-3,报到3的人坐下,到最后剩下俩人的序号。list=([i for i in range(1,29)])list [1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28]将前两个数字设为变量a,b用list.pop()将
2020-09-15 22:46:09
130
原创 markdown的学习
第一章 从学习markdown开始!!!!!首先我们来学习一下代码的展示代码片尝试改变文本首先我们来学习一下代码的展示代码片print("hello world")print( for i in range(1,29):while ...尝试改变文本删除强调 * 强调*标记加粗应用co2是二氧化碳...
2020-09-15 18:52:06
101
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人