
python
我的Y同学
这个作者很懒,什么都没留下…
展开
-
使用python的selenium爬取AJAX动态网站实例
使用python的selenium爬取AJAX动态网站实例一、如何判断一个网站的资源是AJAX动态更新 打开目标网址(本例使用巨潮资讯网站做学习交流使用)http://www.cninfo.com.cn/new/commonUrl?url=disclosure/list/notice#sseMain在浏览器右键->检查元素或使用快捷键f12,选择network->XHR,会看到这样的页面。目前泽里没有任何东西刷新网页后就会显示所有使用AJAX的动态资源。这里需要进行寻找分析,比如我原创 2020-12-25 15:21:02 · 2895 阅读 · 0 评论 -
python网络爬虫之selenium爬取实例
python网络爬虫之selenium今天终于进入到了selenium的学习,使用click()方法对百度首页进行了测试,目的是爬取全部百度热搜。除了获取第一页展示的6个标题外,还要通过 click()方法模拟点击 “换一换” 按钮获取剩下3页的(一共4页)注释满满的代码:from selenium import webdriver# 目标网址url = 'https://www.baidu.com/'# 驱动火狐浏览器driver = webdriver.Firefox(executab原创 2020-12-24 17:51:03 · 960 阅读 · 2 评论 -
python实现K-Means算法
python实现K-Means算法k-means算法的实现原理就不再赘述,给大家说一下程序的大致思路。程序定义了两个方法,一个是计算欧氏距离(也就是两点之间线段最短,用勾股定理求斜边的长度)一个就是冗余很大的均值junzhi方法,这个方法实现了算法中的求均值、求每次更新的聚类中心步骤,方法最后使用if条件判断程序的出口if origin_center_data_new != origin_center_data: junzhi(origin_data, origin_center_data_new)原创 2020-12-23 00:36:15 · 644 阅读 · 2 评论 -
使用Scrapy框架通过response获取元素为none的问题
使用Scrapy框架通过response获取元素为none的问题最近在学习python的网络爬虫,有个学习任务是需要爬取巨潮资讯的某一板块的咨询如下图的内容:使用的代码如下class JuchaonewsSpider(scrapy.Spider): name = 'juchaonews' allowed_domains = ['www.cninfo.com.cn'] start_urls = ['http://www.cninfo.com.cn/new/commonUrl?u原创 2020-12-22 16:54:39 · 2049 阅读 · 0 评论 -
启动cmd后启动scrapy显示不是内部命令的解决办法
启动cmd后启动scrapy显示不是内部命令的解决办法解决办法一:在系统变量path中添加scrapy的安装路径。如图选中部分确定后,重启cmd,问题解决。解决办法二:cmd中输入命令 cd 到scrapy的安装路径,我这里是 C:\Users\何中豪\AppData\Roaming\Python\Python38\Scripts...原创 2020-12-20 14:47:35 · 494 阅读 · 0 评论