用scrapy爬取学校教师的个人信息

最新推荐文章于 2024-04-09 17:13:09 发布

原创

最新推荐文章于 2024-04-09 17:13:09 发布 · 3.3k 阅读

·

2

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

基于scrapy和beautifulsoup框架，可以方便地从网页爬取我们所需要的信息，无论中文，数字或者是英文信息，均可以按找我们希望的方式爬取下来。

这次我想爬取我们学院主页的所有老师的个人信息，包括职称，电话，办公室地址和电子邮箱。

pipelines如下：

from teacher1 import settings
import os
import urllib
from bs4 import BeautifulSoup

class TeacherPipeline(object):
    def process_item(self, item, spider):
        dir_path = '%s/%s' % (settings.PAGES_STORE, spider.name)  # 存储路径
        print 'dir_path', dir_path
        if not os.path.exists(dir_path):
            os.makedirs(dir_path)

        file_path = '%s/teacherList.doc' % dir_path  # 1015修改产生联系方式
        with open(file_path, 'wb') as file_writer:
            for page_url in item['page_urls']:
                print 'http://me.sjtu.edu.cn/sz_minglu/'+page_url
                html = urllib.urlopen('http://me.sjtu.edu.cn/sz_minglu/'+page_url).read()  # 打开文章链接
                soup1 = BeautifulSoup(html.decode('GBK','ignore').encode('utf-8','ignore'))
                if (soup1.find("sp

最低0.47元/天解锁文章

博客等级

码龄10年

155
原创

923
点赞

3476
收藏

440
粉丝

关注

私信

热门文章

分类专栏

python 10篇
Android 3篇
Matlab 6篇
C++ 108篇
Qt 29篇
DSP 2篇
其他 4篇
C# 2篇
嵌入式 25篇
汽车电子 10篇
Windows 13篇
蓝牙 2篇
Linux 22篇
串口 2篇
java 8篇
OpenCV 7篇
RoboMasters 3篇
网络 2篇
智能控制 1篇
算法 19篇
C++11 3篇

展开全部收起

上一篇：: 基于Scrapy爬取网页文章

下一篇：: Android按钮事件的四种写法（activity跳转）

最新评论

1,2,3……,9组成3个三位数abc,def和ghi,每个数字恰好使用一次,要求abc:def:ghi=1:2:3.输出所有解的两种解法
xiaojikeai: #include <stdio.h> // 函数声明 void printMatrix(int matrix[3][3]); int checkMagicSquare(int matrix[3][3]); int main() { int count = 0; int matrix[3][3]; int numbers[9] = {1, 2, 3, 4, 5, 6, 7, 8, 9}; int i, j, k; // 全排列生成所有可能的3x3矩阵 for (i = 0; i < 9; i++) { matrix[0][0] = numbers[i]; for (j = 0; j < 8; j++) { matrix[0][1] = numbers[j]; for (k = 0; k < 7; k++) { matrix[0][2] = numbers[k]; // 填充第一行后，填充第二行 for (int l = 0; l < 6; l++) { matrix[1][0] = numbers[l + 3]; for (int m = 0; m < 5; m++) { matrix[1][1] = numbers[m + 4]; for (int n = 0; n < 4; n++) { matrix[1][2] = numbers[n + 5]; // 填充前两行后，填充第三行 for (int o = 0; o < 3; o++) { matrix[2][0] = numbers[o + 6]; for (int p = 0; p < 2; p++) { matrix[2][1] = numbers[p + 7]; matrix[2][2] = numbers[8 - p - o - n - m - l - k - j - i]; if (checkMagicSquare(matrix)) { count++; printf("第 %d 种放法:\n", count); printMatrix(matrix); } } } } } } } } } printf("总共有 %d 种放法\n", count); return 0; } // 打印矩阵 void printMatrix(int matrix[3][3]) { for (int i = 0; i < 3; i++) { for (int j = 0; j < 3; j++) { printf("%d ", matrix[i][j]); } printf("\n"); } printf("\n"); } // 检查是否为幻方 int checkMagicSquare(int matrix[3][3]) { int rowSums[3], colSums[3], diag1Sum = 0, diag2Sum = 0; int i, j; // 计算行和 for (i = 0; i < 3; i++) { rowSums[i] = matrix[i][0] + matrix[i][1] + matrix[i][2]; } // 计算列和 for (j = 0; j < 3; j++) { colSums[j] = matrix[0][j] + matrix[1][j] + matrix[2][j]; } // 计算主对角线和 diag1Sum = matrix[0][0] + matrix[1][1] + matrix[2][2]; // 计算副对角线和 diag2Sum = matrix[0][2] + matrix[1][1] + matrix[2][0]; // 检查所有和是否相等 for (i = 1; i < 3; i++) { if (rowSums[i] != rowSums[0] || colSums[i] != colSums[0]) { return 0; } } if (diag1Sum != diag2Sum || diag1Sum != rowSums[0]) { return 0; } return 1; }

大家在看

最新文章

目录

展开全部

收起

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。