- 博客(2)
- 收藏
- 关注
原创 Python爬取某直聘公司信息
首先读取各公司url使用Selenium访问模拟用户浏览器行为,然后使用xpath定位所需元素,最后保存至文件中。Selenium无法使用有账号密码认证的代理池。解决:配置动态ip代理池。同一个ip访问次数过多会被403。
2024-08-23 12:55:23
447
原创 已解决Hive on Spark Failed to execute spark task, with exception ‘org.apache.hadoop.hive.gl.metadata...
报错显示103的8032(MR)端口拒接链接 使用nc测试一下。搭建hadoop数仓时部署hive on spark。测试结果不通的 好像是启动集群时103的mr没起来。jps检查一下(这里用的是xcall的一个小脚本)结合这报错可能是连接超时了 改下连接超时参数试一下。重试一下发现还是报错检查一下日志。先去查一下hive的日志。保存重试成功运行问题解决。问一下chatgpt。
2024-08-11 10:39:04
299
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人