开心实习之第二十一天~

最新推荐文章于 2025-12-20 09:26:15 发布

原创最新推荐文章于 2025-12-20 09:26:15 发布 · 396 阅读

CC 4.0 BY-SA版权

文章标签：

今天依旧爬虫这一块。爬取大学排名后的那些收获——一次爬虫+数据分析的实践心得，爬取高三网上的中国大学排名，然后用数据分析工具处理数据、做可视化。过程不算复杂，但从头到尾走一遍，感觉对“爬虫”和“数据分析”这俩词的理解，终于从书本上的概念变成了手上的技能。想聊聊这次实践里印象最深的那些点，说不定能给同样刚入门的朋友一点启发。

爬数据：原来“抓网页”是这么回事一开始总觉得“爬虫”是个很高大上的技术，好像得写特别复杂的代码才能从网上拿数据。但真上手做了才发现，基础的爬虫逻辑其实挺“实在”的——无非就是告诉电脑“去哪个网页”“要抓哪些内容”“怎么把内容存起来”。就拿这次爬大学排名来说，步骤其实很清晰：先用`requests`库让电脑去访问目标网址（http://www.bspider.top/gaosan/），拿到网页的源代码；然后用`BeautifulSoup`解析代码，定位到表格里的“学校名称”“总分”“星级排名”这些数据——这里最关键的是找到数据在网页里的位置，比如案例里用`table>tbody>tr`定位表格行，再用`td`标签提取每一列的内容，就像在一堆文件里按“文件夹路径”找到自己要的文档一样；最后用`csv`库把提取到的数据存成表格，方便后面分析。当然，过程中也踩了点小坑。比如一开始没注意网页编码，导致提取的文字乱码，后来加上`r.encoding = r.apparent_encoding`才解决；还有次因为网络问题，请求网页时超时了，好在代码里加了`try-except`异常处理，没让程序直接崩溃。这些小细节，看书时觉得“不重要”，实操时才发现是“必须注意”的——毕竟爬虫的核心是“稳定拿到数据”，而不是写一行漂亮的代码。 ## 处理数据：原来“整理数据”比“爬数据”更考验耐心拿到存好的`school.csv`文件时，我还挺兴奋的，觉得“搞定了”。结果打开表格一看，发现“总分”那一列有不少空值——有的学校数据里没填分数，这在实际爬取中太常见了，毕竟不是所有公开数据都那么规整。这时候才明白，“拿到数据”只是第一步，“让数据能用”才是更重要的事。案例里给了四种处理缺失值的方法，每种都有自己的道理，用的时候得琢磨琢磨场景： - **直接删除有缺失的行**：代码里用`df.dropna()`就行，简单粗暴。但这招只能在缺失数据很少的时候用，要是空值太多，删着删着数据就没剩多少了，分析起来就没意义了。 - **用指定内容替换空值**：比如案例里用“暂无分数信息”填充，这招很适合“不想丢数据，但也没法计算”的情况，至少能让表格看起来完整，别人一看就知道“这里数据不全”。 - **用均值或中位数补全**：这两种方法更“数据化”。比如计算“总分”的平均值，用这个平均值填到空值里——适合数据分布比较均匀的情况；如果数据里有极端值（比如有的学校总分特别高，有的特别低），用中位数就更稳妥，不容易被极端值带偏。原来处理数据不只是“修修补补”，更像在做“数据体检”：得先看看数据有什么问题，再根据问题选合适的“治疗方案”。这一步做得好，后面的分析结果才靠谱。 ## 可视化：数据“说人话”的魔法处理完数据，就到了最“直观”的环节——可视化。以前看报告里的图表总觉得“就那样”，自己画了才知道，好的可视化真能让数据“开口说话”。这次用了两种图：柱状图和饼图，各有各的本事。柱状图最适合“比多少”。案例里统计了不同星级学校的数量（8星8所、7星16所……1星260所），画成柱状图后，一眼就能看出“1星学校最多”“8星学校最少”；后来又试了水平柱状图，把坐标轴转了个方向，数据对比反而更清楚了。这里有个小细节特别重要：一定要设置中文字体（`plt.rcParams["font.sans-serif"]=["SimHei"]`），不然图表里的“学校个数”“8星”这些字会变成乱码，白忙活一场。饼图则擅长“看占比”。当数据变成“8星占1%、1星占31.7%”时，用饼图能直观看到各星级学校在总数（820所）里的分量——比如1星学校占了近三分之一，3星学校占了五分之一，一下子就明白这个排名里“中低星级学校是主力”。以前总觉得“可视化就是画个图”，现在才懂，它其实是“把数字翻译成图像”的过程。数字再多再杂，只要选对了图表，规律和结论就能直接“跳”出来。 ## 最后：原来技术的意义，是解决“自己关心的问题” 做完这个项目，最大的感受是：爬虫和数据分析从来不是孤立的技术，它们合在一起，能帮我们快速解决很多“想知道但懒得手动查”的问题。比如我一直好奇“国内哪些学校是‘世界一流大学’”，以前可能得一个个查资料、记笔记，现在用爬虫几分钟就能把所有8星学校（北大、清华、浙大等）的信息抓下来，再用表格一整理，一目了然；想知道“不同层次的学校数量分布”，不用自己数，画个饼图就清清楚楚。当然，过程中也发现了很多可以改进的地方：比如网页结构如果变了，解析数据的代码就得跟着改；如果爬取的网站有反爬机制，可能还需要加代理或者模拟浏览器行为……但这些“不完美”反而让我觉得有意思——技术就是在解决这些小问题的过程中慢慢变熟练的。总的来说，这次实践让我明白：不管是爬虫还是数据分析，都不用怕“太复杂”。从一个小案例开始，一步步爬数据、理数据、画图表，你会发现，那些看起来高深的技术，其实就是帮我们“更高效地了解世界”的工具而已。下次打算试试爬一爬专业排名的数据。