Python爬虫学习记录（0）——Python 爬虫抓站记录（虾米，百度，豆瓣，新浪微博）

最新推荐文章于 2024-11-28 12:02:34 发布

原创

最新推荐文章于 2024-11-28 12:02:34 发布 · 1.4w 阅读

14 ·

CC 4.0 BY-SA版权

python 下用到的库，urllib, urllib2, BeautifulSoup, cookielib, mechanize, re

看Firebug模拟浏览器行为。

1. 虾米

虾米不用登陆，没有IP限制，最简单。Python抓了下Xiami电台的试听数里用的是

import urllib2

content = urllib2.urlopen('http://www.xiami.com/artist/top/id/1234').read()

每个歌手爬个两三页。把试听数10000以上的歌记下来。歌手id大概有11w。

处理网页用split，正则表达式re.compile， BeautifulSoup都成。

( Beautiful Soup的中文文档 http://www.crummy.com/software/BeautifulSoup/bs3/documentation.zh.html )

from BeautifulSoup import BeautifulSoup

soup = BeautifulSoup(content)

就能对soup操作了，支持正则表达式，譬如

soup.find('p', align=re.compile('^b.*'))['id']可以从 <p id="secondpara" align="blah"> 中抓出 secondpara，可以通过这个抓到a href=""中间的url

soup.find("b", { "class" : "lime" })可以抓到 <b class="lime">Lime</b>

soup.find("b", { "class" : "lime" }).string 可以提取到<>与</>中间的内容 Lime。

2. 百度

如果想在空间里取米粒之类的操作就要登陆，

最低0.47元/天解锁文章

200万优质内容无限畅学

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

cwyalpha

关注关注

2
点赞
踩
14

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

python3--爬虫--微博爬虫实战

weixin_46863267的博客

09-10

2374

爬取目标用户的微博写在前面：微博有三个网站，不同的网站爬取得难度不同，分别是网页端：这里写目录标题爬取目标用户的微博一、目标页面解析页面内容整个过程结果展示一、目标页面首先确定好目标用户，这里选择知名演员李现的微博账号。爬取数据不用于非法或者违规的用途，单纯用于学习研究。打开李现的微博主页，在链接中可以看到他的账号id是2360812967，这个是用来识别每个微博账号的id。这是打开网页的源代码，会发现里面没有我们直接看到的如图中的内容，因为页面是通过Ajax动态渲染得到的，所以直接的网页源代

Python 超简单爬取新浪微博数据

four91的博客

05-18

6213

新浪微博的数据可是非常有价值的，你可以拿来数据分析、拿来做网站、甚至是*****。不过很多人由于技术限制，想要使用的时候只能使用复制粘贴这样的笨方法。没关系，现在就教大家如何批量爬取微博的数据，大大加快数据迁移速度！我们使用到的是第三方作者开发的爬虫库weiboSpider（有工具当然要用工具啦）。 1. 下载项目进入下方的网址，点击Download ZIP下载项目文件 github.com/dataabc/wei… 或者你有git的话可以在cmd/te...

参与评论您还未登录，请先登录后发表或查看评论

用Python爬虫抓站的一些技巧

06-22

用Python爬虫抓站的一些技巧，主要介绍怎么利用PYTHON来抓取网页的数据

Python爬虫爬取新浪微博热搜

qq_47880276的博客

02-02

2504

Python爬虫爬取新浪微博热搜文章目录Python爬虫爬取新浪微博热搜网页分析数据爬取数据存储全部代码网页分析找到热搜的排名，标题和热度，发现它们在同一路径数据爬取 import requests from lxml import etree url= 'https://s.weibo.com/top/summary?Refer=top_hot&topnav=1&wvr=6' #print(response.text) headers={ 'User-Agent':

python实现爬取新浪微博

09-15

爬取新浪微博信息：因为微博移动端的信息比PC端更容易爬取，所以本脚本是利用微博移动端爬取信息，爬虫微博访问自己的页面和访问其他用户的页面，得到的网页格式不同，所以无法爬取自己的微博信息

python爬虫教程pdf-《Python爬虫开发与项目实战》pdf完整版

weixin_37988176的博客

11-01

1846

【实例简介】【实例截图】【核心代码】目录前言基础篇第1章　回顾Python编程21.1　安装Python21.1.1　Windows上安装Python21.1.2　Ubuntu上的Python31.2　搭建开发环境41.2.1　Eclipse PyDev41.2.2　PyCharm101.3　IO编程111.3.1　文件读写111.3.2　操作文件和目录141.3.3　序列化操作151.4　进程和...

阿里P7主管疫情期间在家写出Python爬虫开发与项目实战，不过如此

马小婧QAQ

06-06

779

阅前建议对于学习本书有两点建议，希望能引起读者的注意。第一点，读者可根据自已的实际情况选择性地学习本书的章节，假如之前学过Python或者Web前端的知识，前两章就可以蜻蜓点水地看一下。第二点，大家从实战项目中应该学习分析过程和编码的实现方式，而不是具体的代码，授人以渔永远比授人以鱼更加有价值。下面介绍下整体内容，文末附项目实战视频及本书的领取方式。本文结构本书总共分为三个部分：基础篇、中级篇和深入篇。基础篇包括第1~7章，主要讲解了什么是网络爬虫、如何分析静...

豆瓣电台到虾米收藏自动化迁移工具发布

- **DoubanFM2Xiami**: 这是工具或脚本的名称，它实现了一个特定的功能，即将豆瓣电台的喜欢的曲目导入到虾米音乐的收藏中。 - **豆瓣电台**: 豆瓣提供的一项音乐流媒体服务，用户可以收听各种电台，收藏喜欢的曲目...

Python实现各大音乐网站/FM平台歌曲下载

Henryhaohao的爬虫博客

11-19

3130

Python实现各大音乐网站/FM平台歌曲下载项目Github地址: https://github.com/Henryhaohao/API_Music_Download Author

基于Python的新浪微博数据爬虫

07-10

基于Python的新浪微博数据爬虫_周中华基于Python的新浪微博数据爬虫_周中华

python抓取新浪微博数据

04-08

python作为人工智能或者大数据的宠儿，我自然要学习，作为一个小白，第一个实现的工能就是爬虫，爬数据，收集数据，我以我爬微博的事情为例子，附上代码，大家一起学习

python 爬虫抓站

VergiL Wang的专栏

07-20

292

python 爬虫抓站记录（虾米，百度，豆瓣，新浪微博） python 下用到的库，urllib, urllib2, BeautifulSoup, cookielib, mechanize, re 看Firebug模拟浏览器行为。 1. 虾米虾米不用登陆，没有IP限制，最简单。Python抓了下Xiami电台的试听数里用的是 import urllib2 con...

使用python爬虫抓站的一些技巧总结：进阶篇 (转)

05-08

1144

本文出处:http://obmem.info/?p=753Posted onNovember 23, 2010byobserver以前写过一篇使用python爬虫抓站的一些技巧总结，总结了诸多爬虫使用的方法；那篇东东现在看来还是挺有用的，但是当时很菜（现在也菜，但是比那时进步了不少），很多东西都不是很优，属于”只是能用”这么个层次。这篇进阶篇打算把“能用”提升到“用得省事省心”这个层次。一、gzip/deflate支持<br />现在的网页普遍支持gzip压缩，这往往可以解决大量传输时间，以VeryCD的主

用python爬虫抓站的一些技巧总结

moon_shine的专栏

11-21

498

转自http://gae-django-cms.appspot.com/ 这些脚本有一个共性，都是和web相关的，总要用到获取链接的一些方法，再加上simplecd这个半爬虫半网站的项目，累积不少爬虫抓站的经验，在此总结一下，那么以后做东西也就不用重复劳动了。 - 1.最基本的抓站 import urllib2 content = urllib2.urlopen('http://XXX

Python爬虫记录

sinat_31131353的博客

09-28

215

1.有道翻译元素如下代码： import urllib.request import urllib.parse url = 'http://fanyi.youdao.com/translate_o?smartresult=dict&smartresult=rule' data = {} data['action'] = 'FY_BY_CLICKBUTTION' dat...

Python微博动态爬虫

Python爬虫学习记录（0）——Python 爬虫抓站 记录（虾米，百度，豆瓣，新浪微博）

Python爬虫学习记录（0）——Python 爬虫抓站记录（虾米，百度，豆瓣，新浪微博）