小胡学python-优快云博客

原创 Python爬虫-爬取国外新闻网站标题和文本信息

种子 URL：爬虫从一个或多个种子 URL 开始，这些 URL 是起点。发送请求：爬虫向这些种子 URL 发送 HTTP 请求，通常是 GET 请求。获取响应：服务器返回网页的 HTML 内容作为响应。解析内容：爬虫解析 HTML 内容，提取所需的数据（如文本、链接、图片等）。提取链接：从网页中提取出所有链接，并将这些链接加入待访问队列。重复过程：爬虫重复上述步骤，直到达到某个停止条件，如爬取了一定数量的页面，或所有页面都被爬取完毕。爬虫的分类。

2025-01-05 13:29:52 2549

原创面板数据标准化（熵权法）标准化+熵值+权重

面板数据标准化（熵权法）标准化+熵值+权重import numpy as npimport pandas as pdfrom openpyxl import load_workbook读取数据data = pd.read_excel('./XX.xlsx', sheet_name="XX")需要标准化的列columns_to_standardize = ['y', 'x1', 'x2', 'x3', 'x4', 'x5', 'x6', 'x7', 'x8']定义标准化函数，将数据标准

2024-12-23 15:56:44 272

原创基于Python的障碍度模型分析和熵权法-障碍度技术路线讲解

可能存在障碍度为 0 的情况，当对象的某个指标是所有对象中最高的，极差法之后结果是 1，偏离度为 0，最后的障碍度也为 0，即该指标已经满分，没有障碍，无需优化。障碍度模型一般配合熵权topsis使用，当基于topsis给对象排序之后，可以继续用障碍度模型计算每个对象的待优化项，障碍度越高越亟需优化。计算单一指标对总目标的贡献，一般用指标的全局权重表示，记作 ( F )。根据指标层级关系，将底层指标的障碍度向上求和汇总，得到上层指标的障碍度。计算指标偏离度 ( I )，表示指标实际值与最优值之间的差距。

2024-12-11 23:56:09 552

原创基于豆瓣爬虫的pylab数据动态交互显示

爬虫+ pylab数据动态交互显示云计算课上的小实训，用一个上午来写崩的文章目录爬虫+ pylab数据动态交互显示前言一、爬取豆瓣的网站获取想要的contents二、使用步骤1.引入库数据连接pymatlabpost一个完整的代码4.效果展示总结前言老师想让我们做一个基于爬虫的数据可视化，要实时，要交互！！提示：以下是本篇文章正文内容，下面案例可供参考一、爬取豆瓣的网站获取想要的contentsheaders={'User-Agent': 'Mozilla/5.0 (Window

2021-12-01 13:03:58 329

原创输出前 n 个Fibonacci数

前言输出前 n 个Fibonacci数提示：这里可以添加本文要记录的大概内容：本题要求编写程序，输出菲波那契（Fibonacci）数列的前N项，每行输出5个，题目保证输出结果在长整型范围内。Fibonacci数列就是满足任一项数字是前两项的和（最开始两项均定义为1）的数列，例如：1，1，2，3，5，8，13，…。提示：以下是本篇文章正文内容，下面案例可供参考输入格式:输入在一行中给出一个整数N（1≤N≤46）。输出格式:输出前N个Fibonacci数，每个数占11位，每行输出5个。如果最后

2021-07-05 19:38:36 308

原创多裁判制，转盘，抓兔子等期末程序设计编程题

多裁判制，转盘，抓兔子等期末程序设计编程题第一个抓兔子~~第二个，转盘小游戏先说一下游戏规则吧，第三个游戏我把它叫做多裁判评分制游戏，(可能是我对游戏的理解比较强烈哈哈哈)游戏比较简单，可以说这次的期末考试叶不难，但是我为什么只有六十分？？？？难道是老师对我的编程不满意？？？？第一个抓兔子~~import randomtry: o = int(input("想要定义的洞口数：")) p = int(input("玩家最多参与游戏的次数："))except: print("

2021-01-15 18:19:29 172

原创豆瓣读书top250爬取

练习豆瓣爬取读书top 250 13：12 非 json 格式from urllib.request import urlopen,Requestfrom bs4 import BeautifulSoupimport timeimport xlwtheaders={'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/85.0.4183.121 Safa

2021-01-10 20:21:41 1154 2

原创爬取世界五百强

from urllib.request import urlopen, Requestfrom bs4 import BeautifulSoupfrom time import sleepheaders = { 'User-Agent': ' Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/84.0.4147.105 Safari/537.36 '}html = u

2021-01-09 16:27:31 517

原创爬取豆瓣电影.json

目前只抓了个html下来。。。from urllib import requestimport jsonheaders={'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/79.0.3945.88 Safari/537.36'}def fetch_data(url): req = request.Request(url,headers=

2021-01-09 16:24:27 234

原创爬取豆瓣音乐top250

爬取豆瓣音乐并写入excelfrom urllib.request import urlopen,Requestfrom bs4 import BeautifulSoupimport timeimport xlwttitles=[]time_list=[]attribute_list=[]zhuanji_list=[]score=[]headers={'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64; rv:6.0) Gecko/20100

2021-01-09 16:21:31 465

原创论文的下载

论文下载写入文件夹from urllib.request import urlopen,Requestfrom bs4 import BeautifulSoupfrom urllib.request import urlretrieveimport osheaders={'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3947.100 Safa

2021-01-09 16:18:53 99

原创前程无忧网站爬取

爬取前程无忧网站写入excelfrom urllib.request import urlopen,Requestfrom bs4 import BeautifulSoupimport jsonimport xlwtlentitles=[]job_href=[]company_name=[]providesalary_text=[]workarea_text=[]jobwelf=[]companyind_text=[]careerinfo=[]workbook=xlwt.Wor

2021-01-09 16:17:41 738

原创列维坦油画爬取

from urllib.request import urlopen,Requestfrom bs4 import BeautifulSoupimport osfrom urllib.request import urlretrieveheaders={'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3947.100 Safari/537.36

2021-01-09 16:16:36 167

m0_50833892的博客