爬虫实习日志

做爬虫实习工作了快 1 月了,故整理一下思绪。

第一周的一两天熟悉工作环境,做了简单的WEB爬虫项目,以为是练手的…没想到第二天就直接布置项目了,虽然比较简单,后续也会继续维护修改。第二周开始主要做APP爬虫方面的东西,涉及到的量比较大,现在也还在编写,主要通过这些项目和一些杂项掌握的有:

  • 分布式爬虫掌握、学会优化项目
  • 初步了解了逆向工程
  • 熟练掌握APP抓包
  • 对安卓Xposed破解SSL pinning有初步了解
  • 对scrapy和scrapy-redis框架更深入了解
  • redis、kubernates、docker、git技能掌握

中途花了一两天阅读了scrapy源码,有比较大的收获。在编写项目过程中写了一些extension、middleware、其他自定义模块,还有Xpath、正则等等这些技巧细节方面不展开了。

除了这些硬技术,在项目代码上,能跑不一定好用,考虑到以后的维护,很多东西是要仔细考虑的,比如spider类、item的字段、redis_key、redis_item等等是值得花心思去想,由重构了一天项目代码的我有感。

优化爬虫上,除了单机scrapy、简单scrapy-redis的逻辑优化,在整个项目层面上还要解耦。既然有kubernates,就要发挥k8s的优点,学会写Dockerfile和yaml文件,让整个项目低耦合,便于调试、管理和维护。低耦合具体表现在url,requests,key,items等保存在redis中,redis中的具体items又由其他脚本转移到mysql。一个较大的爬虫则可以拆分功能为几个爬虫,打包成不同docker镜像,启动命令用Dockerfile中的CMD,在部署时kubernates又可以再重写CMD。有日志,可分步执行,容器组的并发可控,易控,比scrapy更可靠。

杂谈:
今天成功干掉了小红书,获取到对应数据,首先我们要找的小红书的数据比较隐蔽,属于比较模糊的标签,没有具体定义而让我自己去想办法,之前是花了一些时间没找到。找到接口和对应数据后,需要签名等等一堆字段,唯一幸运的是网上有人做过,但逆向实在是下策,而且字段中有session_id,完全掌握在服务端手中,于是看向了Appium。还没学完Appium…就有点烦躁,突然想到可以从小程序入手,最终是 APP->小程序->WEB端仅剩的接口爬取了所需的数据。这样的例子还挺多的,需要有发散的思维。

实习日记是一种记录实习期间所学、所思和所感的有效方式。以下是关于如何写实习日记以及一些示例的详细说明: --- ### 如何写实习日记 1. **明确目标** 在开始写实习日记之前,明确记录的目标,例如提升写作能力、总结每日收获或为未来的职业发展积累经验。 2. **记录基本信息** 包括日期、天气、实习地点和当天的主要任务。这些信息有助于回顾整个实习过程。 3. **描述工作内容** 详细记录当天的工作任务、遇到的问题以及解决方法。可以包括具体的工作流程和技术细节。 4. **反思与感悟** 分析当天的工作经历,思考哪些地方可以改进,或者从中学到了什么新知识。这部分是实习日记的核心价值所在。 5. **计划与展望** 根据当天的经验,制定接下来的行动计划或设定短期目标。这有助于保持持续进步。 6. **格式清晰** 使用简洁明了的语言,分段落书写,便于阅读和回顾。 --- ### 实习日记 示例 #### 示例一:技术类实习日记 ``` 日期:2023年11月1日 天气:晴 实习单位:某科技公司 今日任务: - 学习Python爬虫的基础知识。 - 尝试编写一个简单的网页数据抓取程序。 遇到的问题: - 在解析HTML时遇到了编码问题。 - 解决方法:查阅资料后发现需要指定正确的编码格式。 感悟: - 编程不仅仅是代码的堆砌,还需要深入理解背后的逻辑。 - 资料搜索和自我学习能力在工作中非常重要。 明日计划: - 继续优化爬虫程序。 - 学习更多关于数据清洗的知识。 ``` #### 示例二:市场营销类实习日记 ``` 日期:2023年11月2日 天气:多云 实习单位:某广告公司 今日任务: - 协助团队进行市场调研。 - 整理客户反馈数据并制作报告。 遇到的问题: - 数据分析过程中部分数据不完整。 - 解决方法:与团队成员沟通后补充缺失数据。 感悟: - 团队合作是完成任务的关键。 - 数据整理虽然繁琐,但对决策至关重要。 明日计划: - 完成市场调研报告初稿。 - 参加团队会议,讨论下一步策略。 ``` --- ### 提高实习日记质量的技巧 1. **保持真实** 记录的内容应基于实际经历,避免夸大或虚构。 2. **注重细节** 描述工作中的具体操作步骤和关键点,让日记更具参考价值。 3. **定期回顾** 每周或每月回顾一次日记,总结整体进展和不足之处。 4. **结合职业规划** 将实习中的收获与个人职业目标相结合,明确发展方向。 ---
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值