- 博客(12)
- 收藏
- 关注
原创 JS逆向之python+node爬取头条
JS逆向之python+node爬取头条在最近的需求中需要对今日头条的数据进行爬取,于是花了两天多的时间,终于爬下来了,下面直接进入正题。分析思路在爬取网站之前,按照套路先打开网站分析一下,确定一下整体的思路。主要是获取web网站主页下的资讯新闻url,再通过url拿到详情页的正文,先打开开发者工具对主页进行抓包主页的html没有数据信息,页面数据应该是ajax传递的,在调试接口中找...
2020-04-08 13:14:51
1212
3
原创 在命令行运行py文件报错No module named "XXX"
试了网上很多方法都不行,最后使用最笨的方法在idea的控制台中打印出环境变量import sysprint(sys.path)然后手动添加
2019-08-27 17:45:03
1250
原创 pytesseract安装使用中的一些问题
使用pytesseract的一些坑,弄了好长时间,分享下: File "D:\Program Files\Python36\lib\site-packages\pytesseract\pytesseract.py", line 46, in run_tesseract proc = subprocess.Popen(command, stderr=subprocess.PIPE) F...
2019-08-19 16:11:50
1750
1
原创 突破数据限制爬取百度、腾讯poi数据
这两天工作中需要获取地图poi数据,发现百度、腾讯都有类似的接口,但发现都对数据有限制,百度限制单次返回400条,腾讯限制200条,为了突破这一限制,思路是取原来的圆形检索的外切矩形,再将矩形分割成四个小矩形,分别获取其中的数据,再将结果集拼接返回完整的结果。 实现是依赖的geopy库,可以通过已知的经纬度、距离和方向生成新的经纬度,这样就可以通过中心点和半径来获取矩形检索的左下和...
2019-07-24 12:25:44
2364
5
原创 python中的除法,取整和求模
/是精确除法,//是向下取整除法,%是求模%求模是基于向下取整除法规则的四舍五入取整round, 向零取整int, 向下和向上取整函数math.floor, math.ceil//和math.floor在CPython中的不同/在python 2 中是向下取整运算C中%是向零取整求模。...
2018-11-08 16:43:30
5938
原创 hive第一课
1.hive基本思想Hive是基于Hadoop的一个数据仓库工具(离线),可以将结构化的数据文件映射为一张数据库表,并提供类SQL查询功能。 2.为什么使用Hive直接使用hadoop所面临的问题 :人员学习成本太高项目周期要求太短MapReduce实现复杂查询逻辑开发难度太大为什么要使用Hive操作接口采用类SQL语法,提供快速开发的能力。避...
2018-09-19 11:54:03
127
转载 Linux下mysql的安装,卸载和可能出现的问题
rpm安装 mysql的彻底卸载 可能会出现的问题大全 安装mysql5.5.20遇到cannot create directory `/var/lib/mysql’: Permission denied
2018-08-20 16:54:11
189
原创 格式化HDFS的元数据目录
找到你在hdfs-site.xml中配置的文件目录,将它全部删除,记得是全部 然后删除logs一定要删了,然后再重新创建
2018-08-11 12:55:12
602
原创 tar (child):hadoop-2.7.7.tar.gz: Cannot open:
解压hadoop二进制源码时tar -zxvf hadoop-2.7.7.tar.gz -C /apps出现错误tar (child): hadoop-2.7.7.tar.gz: Cannot open: No such file or directory tar (child): Error is not recoverable: exiting now tar: Child...
2018-08-10 16:36:36
5440
1
原创 搭建本地yum源
1, 挂载光盘 mkdir /mnt/cdrom#mount /dev/cdrom /mnt/cdrom卸载挂载用umount /mnt/cdrom2,让网络yum源文件失效 cd /etc/yum.repos.d/ rename .repo .repo.bak * #重命名所有的.repo文件 cp CentOS-M...
2018-08-09 11:46:08
203
原创 远程连接工具SecureCRTPortable连接不上linux的解决方法
今天学习linux用远程工具连接时,连接不上,出现了一个类似函数的东西,运用了排除法, 1.先检查了虚拟机服务是否开启 2.然后ping网关看能通吗 3.然后pingDNS域名,再ping www.baidu.com 都能ping通,百思不得其解 然后通过查资料,输入route 发现default 后面并没有分配默认网关 于是输入routeadd default gw 192.168...
2018-08-08 20:00:12
10345
1
原创 MyBatis中遇到的java.lang.ExceptionInInitializerError错误以及解决办法
我遇到的 java.lang.ExceptionInInitializerError的错误 我的Mapper.xml 我的SqlMapConfig.xml配置文件 错误原因及解决方法 这个错误让我很头疼,反复找不到原因 最后决定重新再做一遍工程,最后终于发现了 可以看到 我在Mapper.xml中参数返回值中用的是别名,所以要在SqlMapConfig.xml文件中配置ty...
2018-07-26 15:21:09
12693
1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人