
爬虫
灵海之森
一剑霜寒十四州
展开
-
关于快速复制粘贴一些文献的元数据的教程
虽然是20年写的,但最近改了改还能用。项目地址:https://github.com/stay-leave/CNKI-selenium-crawler配置:本项目使用selenium模块,浏览器使用的是火狐。1.下载geckodriver,地址https://github.com/mozilla/geckodriver/releases2.将适配的安装包放置在火狐浏览器的安装路径、Python的Stricpts文件夹3.将火狐的安装路径添加到电脑环境变量的用户变量的path中。功能:1原创 2022-01-04 20:58:28 · 3770 阅读 · 4 评论 -
自然基金项目爬虫测试(已失效)
一年前写的小爬虫,用的自动化测试。还是可以自动登录,但网站现在好像不向普通用户提供查询服务了。写了一次不容易,代码还是保存在这里。#coding='utf-8'from selenium import webdriverfrom selenium.webdriver.support.ui import WebDriverWaitfrom selenium.webdriver.common.by import Byfrom selenium.webdriver.support.select imp原创 2022-01-01 21:11:59 · 730 阅读 · 0 评论 -
基于LDA和baidu-aip的舆情分析项目
概述本文主要分为数据获取(微博爬虫)、文本分析(主题抽取、情感计算)。项目场景:以微博为数据源,分析新冠疫苗舆情的主题演化和情感波动趋势,结合时事进行验证,从而得出特殊事件对于舆情的特定影响,为突发公共事件的社交媒体舆情合理引导提供建议。项目代码地址:https://github.com/stay-leave/weibo-public-opinion-analysis1.数据获取包括微博正文爬虫、评论爬虫和用户信息爬虫。具体是将这三个爬取的结果当做三个相联结的关系表,首先爬取正文,而后用正原创 2021-12-29 18:47:46 · 3793 阅读 · 6 评论 -
微博评论数据爬取思路及代码分享
很久没有发帖了,之前做了有关微博的数据分析,现在将爬取微博评论的思路和代码分享出来,写得有些粗糙,欢迎批评指正。一、获取bid和uid就是网址https://weibo.cn/comment/KrsH5tpeY?uid=2000016880&rl=0&gid=10001#cmtfrm其中KrsH5tpeY的bid,2000016880是uid这个就可以将博文唯一地标识出来了。二、爬取一个博文的评论数据包括用户ID、用户名、评论内容和时间。首先是单条评论数据。观察到用户名和id原创 2021-08-02 09:17:57 · 6081 阅读 · 3 评论 -
关于([WinError 10060] 由于连接方在一段时间后没有正确答复或连接的主机没有反应,连接尝试失败。)的解决方案。实测有效!
在爬取一个小站时,遇到了前几十条网页能顺利爬取,但突然报错的情况。报错信息如下:Message=HTTPConnectionPool(host=‘pub.sinoss.net’, port=80): Max retries exceeded with url: /portal/webgate/CmdProjectView?proj_id=212473&applier=%C0%EE%BB%B3%C1%C1 (Caused by NewConnectionError(’<urllib3.conn原创 2021-01-20 18:18:32 · 43571 阅读 · 16 评论 -
Python爬取社科基金项目数据(指定学科)
**目标:**获取数据库中所有的图档学科的项目数据。(写了一中午)思路1.先获取一页的数据信息,发现一页有20条立项数据,最后一页有十多条数据。2.进入第一页,查看页面源码,获得需要取得的数据定位。3.本人使用的正则,遇到了有几个不同维度的值处于相同元素标签的情况,在使用xpath定位获取失败后,我将他们放在了一个嵌套列表里,后又将大列表按步长切分。4.将若干个列表的相同位置的切片合并,获得每一个立项数据的完整形式。5.为了遍历爬取所有页面,构造了所有页面的网址列表。6.存储所有页面的数原创 2020-11-08 20:16:03 · 1496 阅读 · 1 评论 -
Python下载qq音乐歌曲实例教程
1.目标实现输入歌曲名下载歌曲的功能。2.前期工作mid=0014WVQT3nDVyzpurl=C4000001xPPq0vaUFU.m4a?guid=6488443882&vkey=9500AB02A1928CBD8BAE5DEE9B7ADB5521EFA232A0E9B941F77BE86B41CAC6726ECE081E248DBEB573CAAD591577B6D1A2F6D24F4476CA8F&uin=0&fromtag=663.观察网址https://isu原创 2020-06-16 14:38:01 · 5735 阅读 · 6 评论 -
小说爬取实例
书籍主页疫情期间无事,今天试着爬取一部科幻小说。代码主要分为两个部分。一是书籍主页源码爬取分析,这这里,获取各章节的url。二是单独一章的内容爬取。最后使用列表循环即可实现所有章的爬取。代码如下:#coding=gbkimport requestsimport reheaders = { 'Accept-Encoding': 'gzip, deflate, sdch'...原创 2020-02-25 11:15:03 · 343 阅读 · 0 评论