使用Python3爬取人名

最新推荐文章于 2025-11-26 11:30:07 发布

翻译最新推荐文章于 2025-11-26 11:30:07 发布 · 3k 阅读

文章标签：

#爬虫 #python

Python 专栏收录该内容

6 篇文章

订阅专栏

本文介绍如何使用requests-html库进行网页爬取，包括安装配置、基本使用方法及示例代码，适合初学者快速上手。

文章目录

安装 requests-html
爬取相关网站

安装 requests-html

本文主要参考requests-html官方文档，详细资料可见参考文献

pipenv install requests-html
#need python 3.6 above

爬取相关网站

可以将下面的网站，替换成人名比较多的网站，比如xx大全等，这里就不细说，可自行百度

 from requests_html import HTMLSession
 session = HTMLSession()
 r = session.get('https://python.org/')

可以先打印出来absolute_links，然后访问这个页面下的链接，打印页面文件，然后在进行相关的后处理

r.html.absolute_links

print(r.html.text)

参靠文献：
1、http://html.python-requests.org/

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

飞虹舞毓

关注关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

使用Python爬取知乎热门问答并构建知识图谱

专注于Python爬虫开发，分享爬虫技巧、项目实战与反爬经验，使用Scrapy、BeautifulSoup等工具，解决数据抓取难题。

07-02

477

本文介绍了一个基于知乎问答数据构建知识图谱的技术方案。项目采用Python技术栈，从数据爬取（使用requests、BeautifulSoup等工具）、文本处理（HanLP、LTP进行实体识别）、到关系抽取（规则+BERT模型），最后通过Neo4j构建知识图谱并进行可视化（PyVis）。文章详细说明了各环节的技术选型与实现方法，同时指出了反爬机制、关系抽取准确率等挑战。该方案为知识图谱构建提供了完整的技术路径，可应用于问答推荐、搜索引擎等场景。

python3爬取网易云歌单数据清洗_网易云音乐古风歌词统计分析

weixin_39794213的博客

12-17

710

因为没办法展示代码，所以在这里先贴上github项目地址，有兴趣的可以去看看。顺便求个star~github项目地址：https://github.com/Encaik/TongJi一、调查目的目前古风已经作为一个潮流名词出现在了大众眼中，而我作为爱好者中的一员，打算以此为方向，进行一次统计调查。以爬虫为工具，对古风歌曲的歌词进行数据分析，从而获取到一些古风歌曲风格等方面的信息。预期目的为得到歌词...

参与评论您还未登录，请先登录后发表或查看评论

python爬虫提取人名_Python爬虫-常用数据提取方式

weixin_39929096的博客

11-23

271

Python爬虫，常用的请求的方式又urllib和第三方库requests，获取标签或字段的方式不同，有xpath,bs4,正则；这几个的话正则肯定是执行效率比较高的，当然编写过程也比较繁琐，一般都是在用xpath和bs4，正则的话是一个基础，最好是掌握一下。那么将逐一来介绍这些模块的使用安装pip3 install requestspip3 install bs4pip3 install lxm...

软件测试|使用Python提取出语句中的人名

Tester_muller的博客

10-20

1508

在自然语言处理（NLP）中，提取文本中的人名是一项常见的任务。Python作为一种流行的编程语言，拥有强大的NLP库和工具，使我们能够轻松地进行这项任务。在本文中，我们将使用Python示例来演示如何提取文本中的人名。spaCy是一个高性能、易于使用的自然语言处理库，可以处理多种语言，提供了许多预训练模型和可扩展功能。本文主要介绍了提取人名的功能，后续我们还将介绍spaCy的其他强大功能。

一篇最全Python 爬虫超详细讲解（零基础入门,适合小白）

最新发布

Libra1313的博客

11-26

1005

爬虫的基本流程：发送请求,解析网页,提取并保存数据.常用库requests用于发送请求,用于解析HTML.进阶技术：处理动态网页需要用到Selenium,而大规模爬取可以使用Scrapy框架.应对反爬：通过伪装请求头、设置延迟以及使用代理IP等方式绕过反爬机制.黑客/网络安全学习包资料目录成长路线图&学习规划配套视频教程SRC&黑客文籍护网行动资料黑客必读书单面试题合集因篇幅有限，仅展示部分资料，需要点击下方链接即可前往获取优快云大礼包：《黑客&网络安全入门&进阶学习资源包》免费分享。

豆瓣网电影人名数据爬取

01-03

豆瓣网电影人名数据爬取，得到的是全网段的数据

python爬虫提取人名_python爬虫—爬取英文名以及正则表达式的介绍

weixin_39636079的博客

11-23

1480

python爬虫—爬取英文名以及正则表达式的介绍爬取英文名：一. 爬虫模块详细设计(1)整体思路对于本次爬取英文名数据的爬虫实现，我的思路是先将A-Z所有英文名的连接爬取出来，保存在一个csv文件中；再读取csv文件当中的每个英文名链接，采用循环的方法读取每一个英文名链接，根据每个英文名链接爬取每个链接中的数据，保存在新的csv文件当中。需要写一个爬取英文名链接的函数、将爬取的内容保存在csv文...

【更新】爬取姓名大全的名字

weixin_34376986的博客

03-11

300

接上文，可以不用一个网址一个网址的输入了，能抓取页面http://www.yw11.com/namelist.php上列出的所有名字大全，不必再像上一个程序一样一个网址一个网址的输入了。嘿嘿。#coding=utf-8 importurllib2 importre frombs4importBeautifulSoup importsys reload(sys)...

python怎么爬取网站所有用户_如何用 Python 爬取需要登录的网站？

weixin_39540271的博客

11-29

876

最近我必须执行一项从一个需要登录的网站上爬取一些网页的操作。它没有我想象中那么简单，因此我决定为它写一个辅助教程。在本教程中，我们将从我们的bitbucket账户中爬取一个项目列表。教程中的代码可以从我的 Github 中找到。我们将会按照以下步骤进行：提取登录需要的详细信息执行站点登录爬取所需要的数据在本教程中，我使用了以下包（可以在 requirements.txt 中找到）：requests...

Python爬虫爬取哈利波特小说，并用数据可视化分析出场人物

Python免费教程

07-23

1725

本文的文字及图片来源于网络,仅供学习、交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理。先简单介绍一下jieba中文分词包，jieba包主要有三种分词模式：精确模式：默认情况下是精确模式，精确地分词，适合文本分析；全模式：把所有能成词的词语都分出来, 但是词语会存在歧义；搜索引擎模式：在精确模式的基础上，对长词再次切分，适合用于搜索引擎分词。 jieba 包常用的语句：精确模式分词：jieba.cut(text,cut_all = False)，当cut_all

python爬取作品集_Python爬虫爬取哈利波特小说集，并用数据可视化剖析登场人物...

weixin_36420854的博客

12-29

507

前言本文的文字及图片来源于网络,仅供学习、交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理。先简单介绍一下jieba中文分词包，jieba包主要有三种分词模式：精确模式：默认情况下是精确模式，精确地分词，适合文本分析；全模式：把所有能成词的词语都分出来, 但是词语会存在歧义；搜索引擎模式：在精确模式的基础上，对长词再次切分，适合用于搜索引擎分词。jieba 包常用的语...

python3爬取姓氏

12-16

用python3和Beautifusoup爬取姓氏，并存储到数据库中，适合python刚入门的同学下载学习，里面注释详细，大家也可以去我博客观看：http://blog.youkuaiyun.com/ma853756059/article/details/78819306 谢谢

怎样借助Python爬虫给宝宝起个好名字

数据与算法之美

07-23

2115

Beginning每个人一生中都会遇到一件事情，在事情出现之前不会关心，但是事情一旦来临就发现它极其重要，并且需要在很短的时间内做出重大决定，那就是给自己的新生宝宝起个名...

python爬虫提取人名_Python2爬取学生名单

weixin_39987985的博客

11-20

1072

背景：学校的网站可以根据学号查学生姓名和成绩（三年后的补充：借助sql注入漏洞跳过密码，但是该网站现在已经被弃用了），所以我希望通过Python的爬虫得到年级所有同学的学号与姓名对应表。实现：首先需要算出所有学生的学号以方便查询。接下来要把学号和考试场次包装成待会要填入的信息，这可以用urllib模块里的函数urlencode完成。之后要访问网站，先用urllib2模块里的Request函数获得访...

爬取百度明星姓名

weixin_43596589的博客

05-18

834

爬取百度明星姓名今天有个需求，获取2021-05-08今天比较有名气的明星，包括有流量的有演技的大火的写了个py文件如下从百度获取 import requests from lxml import etree def run_xpath(url_str): # 定义爬取的url url = "https://www.baidu.com/s?wd=" # local_proxy = ipPool.getProxy() local_proxy = {'http': '1

爬姓名大全网站的姓名

weixin_34026484的博客

11-12

440

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 #coding=utf-8 importurllib2 importre frombs4importBeautifulSoup impor...

java随机姓名根据网络爬虫爬取百家姓和名字

m0_68055637的博客

01-01

1320

java随机姓名根据网络爬虫爬取百家姓和名字

Python3之xpath爬虫，获取网页里面的标题和相应的链接