python 爬虫3 新浪微博 爬虫 实战

本文介绍了一个使用Python进行的新浪微博爬虫项目,该项目已上传至GitHub。通过登录个人账号获取微博和好友列表,进而深度遍历并抓取相关数据。数据存储采用MySQL,并计划引入MongoDB。此外,还分享了如何调整MySQL配置以允许远程访问,并讨论了数据库编码和插入操作的注意事项。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

这次的项目 和文件都放到了 github 上 https://github.com/poiu1235/weibo-catch:

有兴趣的可以follow一下,或者点个赞咯


我这里采用的深度挖掘的方式:没有设定爬取的边界(这个以后是要考虑的)

大致的思路是,用自己的 账号登陆后,获取自己的微博列表和朋友列表。

然后根据朋友列表然后在爬取对方的微博列表和朋友列表。这样不断的深度挖掘和遍历的过程

过程中我采用了mysql 数据库进行存储,后面会加入mongodb 数据库进行存储。


先补充一点linux的知识:系统里那些文件夹都按照什么功能分类的:


/bin 
  bin是binary的缩写。这个目录沿袭了UNIX系统的结构,存放着使用者最经常使用的命令。例如cp、ls、cat,等等。 
/boot 
  这里存放的是启动Linux时使用的一些核心文件。 
/dev 
  dev是device(设备)的缩写。这个目录下是所有Linux的外部设备,其功能类似DOS下的.sys和Win下的.vxd。在Linux中设备和文件是用同种方法访问的。例如:/dev/hda代表第一个物理IDE硬盘。 
/etc 
  这个目录用来存放系统管理所需要的配置文件和子目录。 
/home 
  用户的主目录,比如说有个用户叫wang,那他的主目录就是/home/wang也可以用~wang表示。 
/lib 
  这个目录里存放着系统最基本的动态链接共享库,其作用类似于Windows里的.dll文件。几乎所有的应用程序都须要用到这些共享库。 
/lost+found 
这个目录平时是空的,当系统不正常关机后,这里就成了一些无家可归的文件的避难所。对了,有点类似于DOS下的.chk文件。 
/mnt 
 这个目录是空的,系统提供这个目录是让用户临时挂载别的文件系统。 
/proc 
  这个目录是一个虚拟的目录,它是系统内存的映射,我们可以通过直接访问这个目录来获取系统信息。也就是说,这个目录的内容不在硬盘上而是在内存里。 
/root 
  系统管理员(也叫超级用户)的主目录。作为系统的拥有者,总要有些特权啊!比如单独拥有一个目录。 
/sbin 
  s就是Super User的意思,也就是说这里存放的是系统管理员使用的管理程序。
/tmp 
  这个目录不用说,一定是用来存放一些临时文件的地方了。 
/usr 
  这是最庞大的目录,我们要用到的应用程序和文件几乎都存放在这个目录下。其中包含以下子目录; 
/usr/X11R6 
  存放X-Window的目录; 
/usr/bin 
  存放着许多应用程序; 
/usr/sbin 
  给超级用户使用的一些管理程序就放在这里; 
/usr/doc 
  这是Linux文档的大本营; 
/usr/include 
  Linux下开发和编译应用程序需要的头文件,在这里查找; 
/usr/lib 
  存放一些常用的动态链接共享库和静态档案库; 
/usr/local 
 这是提供给一般用户的/usr目录,在这里安装软件最适合; 
/usr/man 
  man在Linux中是帮助的同义词,这里就是帮助文档的存放目录; 
/usr/src 
  Linux开放的源代码就存在这个目录,爱好者们别放过哦! 
/var 
  这个目录中存放着那些不断在扩充着的东西,为了保持/usr的相对稳定,那些经常被修改的目录可以放在这个目录下,实际上许多系统管理员都是这样干的。顺带说一下系统的日志文件就在/var/log目录中。

爬取微博规则

整个过程我想要爬取两个方面的内容。

一个是微博内容

另一个是朋友(他关注的人,主动,兴趣强烈)关系而不是(关注他的人,粉丝,被动,干扰太多)

爬取下来的话我也打算存在两个地方,一个是mysql 关系数据库里,另一个是以文本文件的形式存到系统

mysql 用的是之前hadoop 系统 里namenode 节点 里的mysql ,ip是192.168.1.113

因为默认mysql 安装时,是绑定本地ip的,就是只限定本地访问,单机访问

所以要更改配置

sudo nano /etc/mysql/my.cnf找到bind-address = 127.0.0.1
注释掉这行,如:#bind-address = 127.0.0.1

允许任意IP访问;
这样注释以后,本地访问就不能省略了 必须用-h 命令 指定主机地址

重启 MySQL:sudo /etc/init.d/mysql rest

<think>嗯,用户想了解CRC32校验算法的实现和使用方法。我需要先回顾一下CRC32的基本原理,然后考虑如何用简单易懂的中文解释清楚。首先,CRC32是基于循环冗余校验的一种算法,主要用于检测数据传输或存储中的错误。用户可能希望知道它的具体步骤,比如如何初始化、处理数据、异或操作以及最终得到校验值。 根据提供的引用资料,CRC32的核心是多项式除法,但实际中通过查表法优化速度。需要解释生成多项式,比如常见的0xEDB88320,以及初始值、输入输出是否反转这些参数。用户提供的代码片段中有两个版本,一个是逐位计算,另一个是查表法,这可能需要在回答中对比说明,突出查表法的效率优势。 接下来,用户可能关心具体怎么使用这个算法,比如在C语言中的实现步骤,或者如何应用到实际项目中,比如文件校验或网络传输。要分步骤讲解,从初始化到处理每个字节,再到最终计算,可能需要示例代码来辅助说明。同时,注意用户要求行内数学表达式用$...$,比如多项式应该写成$0xEDB88320$这样的格式。 另外,用户的问题里提到生成相关问题,我需要考虑相关的问题可能涉及性能优化、不同生成多项式的影响,或者CRC32与其他校验算法的比较。这些可以作为相关问题放在最后,帮助用户进一步探索。 需要确保回答结构清晰,先讲原理,再讲实现步骤,然后使用方法,最后附上相关问题。同时,引用提供的资料,比如引用[^1]和[^2]来支持解释。要避免技术术语过于复杂,保持语言通俗易懂,同时满足LaTeX格式要求,比如多项式用$符号包裹。检查是否有遗漏的步骤,比如输入反转和输出反转的处理,这在代码示例中有所体现,需要解释清楚这些参数的作用。</think>### CRC32校验算法实现及使用方法 #### 一、CRC32基本原理 CRC32通过多项式除法生成32位校验值,用于检测数据传输或存储中的错误。其核心是生成多项式$G(x)$,常用标准为$0xEDB88320$(反向多项式形式)[^1]。算法流程如下: 1. **初始化**:设置32位寄存器初值为$0xFFFFFFFF$ 2. **数据输入**:逐字节与寄存器异或运算 3. **位移处理**:根据多项式进行循环移位和异或操作 4. **结果取反**:最终值与$0xFFFFFFFF$异或 #### 二、算法实现(C语言) ```c // 查表法实现(高效) uint32_t crc32_table[256]; void init_crc32_table() { for (int i = 0; i < 256; i++) { uint32_t crc = i; for (int j = 0; j < 8; j++) { crc = (crc >> 1) ^ ((crc & 1) ? 0xEDB88320 : 0); } crc32_table[i] = crc; } } uint32_t calc_crc32(uint8_t *data, size_t len) { uint32_t crc = 0xFFFFFFFF; while (len--) { crc = (crc >> 8) ^ crc32_table[(crc ^ *data++) & 0xFF]; } return crc ^ 0xFFFFFFFF; } ``` 此实现通过预先生成的256元素查找表,将时间复杂度从$O(n \cdot 8)$优化到$O(n)$。 #### 三、使用场景及方法 1. **文件校验**:计算文件CRC32值验证完整性 ```bash $ crc32 filename.txt ``` 2. **网络传输**:在数据帧尾部附加4字节校验码 3. **存储系统**:RAID、ZFS等文件系统使用CRC32校验数据块 #### 四、参数配置 | 参数 | 说明 | 标准值 | |---------------|---------------------------|-----------------| | 初始值 | 寄存器初始状态 | 0xFFFFFFFF | | 多项式 | 生成多项式 | 0xEDB88320 | | 输入/输出反转 | 字节处理顺序 | 通常需要反转 |
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值