- 博客(14)
- 资源 (2)
- 收藏
- 关注
原创 xpath获取两个标签之间的内容
在使用xpath解析网页数据时,会面临一些不好处理的网页,如下所示:目标是分别拿到中的文本和其后跟随的标签的内容。使用xpath进行处理:拿到数据在将结果保存为自己想要的格式即可。附上全部代码:...
2022-06-15 09:21:07
1773
原创 Echart报错echarts is not defined
使用Echart时,引入Echart.js和自己写的js容易出现的错误:首先,报错如下:这是因为在引入时,顺序出现错误,应该先引入echart.js,然后在引入自己写的js。这样才不会出错。
2021-04-06 21:13:39
1592
原创 mac下安装Superset
数据可视化软件superset一.python虚拟环境1.安装虚拟环境命令:`pip install virtualenv`2.创建虚拟环境:`virtualenv python3 -p venv_superset`3.进入虚拟环境:`source ./venv_superset/bin/activate`4.安装superset所需依赖:`pip install -r requirements.txt`5.安装superset:`pip install superset`所需python依
2021-04-02 13:07:15
921
1
原创 python将网页转换为图片保存
前言:我们可能会遇到将html网页转为图片,介绍我遇到的两种不同情况下的方式。环境:python中的selenium1.网站中的网页转换为图片:思路:使用selenium的PhantomJS将网页转换为图片。#-*- coding=utf-8 -*-#@Time : 2020/8/7 10:08 PM#@Author : 小邋遢#@File : tset.py#@Software : PyCharmfrom selenium import webdriver # 从selenium库导
2020-08-07 22:42:59
5997
1
原创 数据挖掘慕课习题第三章
前言这几天忙着老师布置的任务,没时间刷网课,之前写这些就是想着大家有时间可以花在自己喜欢的事情上,还考虑写个自动刷课的,但是也没时间做。有想法的小伙伴可以做一个。第三章第一节有监督的学习和无监督的学习的根本区别在于:(1分)学习过程是否需要人工干预学习样本是否需要人工标记学习结果是否需要人工解释学习参数是否需要人工设置单选2. 已知池中有两种鱼,比例为7:3,若随机捞上一条,按...
2020-04-29 11:41:59
8856
2
原创 清华大学数据挖掘课程幕课习题(第一章)
第一章第二节1.“教育不是灌输,而是点燃火焰” 这一思想出自于:苏格拉底。2.如何学好数据挖掘技术?认真学习幕课视频;充分利用课后阅读材料;勤于动手,实践出真知;主动思考,知其然,知其所以然。第一章第三节1.在超市环境中对客户位置轨迹进行记录和分析的主要目的有哪些?对拥挤人群进行预警;优化商场布局;个性化营销。2. 在实际数据分析工作中,数据类型转换和数据自身的错误是面临的主要挑战之一。...
2020-04-29 11:02:24
7535
原创 科研论文课程幕课习题(第一二章)
**第一章**1.对于论文标题的撰写,以下描述正确的是:标题应尽量精炼简洁标题需注意保护知识产权标题应反映核心技术标题可以尽量起的宽泛2.什么样的论文,能被称为优秀的论文:论文能开辟一个新的方向论文能获得学术界重视,获得足够的引用论文有一定的研究价值论文有一定的创新意义3.对于论文摘要的撰写,以下正确的是:摘要应覆盖文章的亮点及效果摘要是标题的扩充摘要内容尽量多,字...
2020-04-29 11:02:13
32530
6
原创 清华大学数据挖掘课程幕课习题(第二章)
第二章第一节多选1. 以下关于数据预处理的描述正确的是:(1分)需要借助领域知识核心内容就是缺失数据填充数据挖掘工作的基础性工作主要靠标准化算法自动处理单选2. 小张的个人信息中身份证号倒数第二位是单数,性别为女。这种情况被称为:(1分)Missing DataInconsistent DataNoisy DataRedundant Data单选3. 学生小明在调查问卷中...
2020-04-29 11:02:01
16605
3
原创 数据挖掘幕课第四章习题
第四章第一节如图所示的感知机(阈值为0)实现的逻辑功能是:(1分)或门与门非门与非门单选2. 在感知机的判决函数中,w0的作用是:(1分)为了后续学习算法推导的方便其实在实际中可以略去控制判决平面到原点的距离控制判决平面的方向单选3. 我们很难刻意忘掉一个人的原因是:(1分)记性好,没办法刻骨铭心,矢志不渝天长地久有时尽,此情绵绵无绝期神经元的大规模分布...
2020-04-29 10:59:11
10951
6
原创 mac搭建hadoop
前言:网上看了很多mac安装hadoop的教程,自己亲自来实际操作一遍。1.首先要配置ssh,开启mac远程登陆,并将当前用户加入到允许用户登陆列表。1.1选择系统偏好设置–共享,然后如下操作:1.2避免使用hadoop命令时,多次输入密码。以下命令一直按回车即可,最后如果报一个警告,直接yes即可。ssh-keygen -t rsacat ~/.ssh/id_rsa.pub >...
2020-04-23 11:47:50
606
原创 python 将数据存入xml中
前言:将数据写入格式为xml中。利用python模块xml中的dom将数据写入xml中,明确以下几个事情:1.模块导入为:from xml.dom.minidom import Document2.实例化一个dom:dom = Document()3.创建标签:sortnumber = dom.createElement("Sortnumber")4.将标签加入到dom中:dom.app...
2020-04-23 11:46:34
2333
原创 定时爬虫自动抓取过去一周的数据
前言:前两天要爬一个撤稿论文网站,抓包发现请求方式是post。遇到post怎么办?不要慌,来一遍:1.利用前端知识分析请求数据。2.selenium模拟浏览器。但是因为数据比较着急要,在看了post请求数据后,有两条没看懂是如何生成的,便果断转selenium。(太年轻了,修行之路漫漫)经过分析后知道这个网站主要是输入国籍和时间就可以拿到所属国家的撤稿论文数据,但是只展示600条数据,因此...
2020-04-10 22:18:01
840
原创 requests+selenium获取cookies
目的:对于一些网页的cookies值变化的,用selenium模拟浏览器拿到cookies,再用requests发送请求拿到数据。通过一个小代码展示一下:目标:拿到黑龙江省采购网中标信息。思路:1.构造URL,selenium拿到cookies,发送post请求。2.拿到每一个中标项目的URL,发送get请求,拿到数据。3.保存数据。具体代码如下:import requestsf...
2020-03-02 18:44:49
1353
原创 selenium+chromedriver的心得
对于一些ajax,或者请求方式为post,且需要发送数据的网页可以使用selenium+chromedriver来解决。虽然效率上比较慢,但是代码简单。以下以一个简单例子来了解以下:目的:抓取甘肃省政府采购网信息中的中标公告的内容。分析网页后得到如下思路:1.构造每一页的url2.点击中标公告,点击查询,得到中标页面3.得到每一个公告的URL,拿到数据。4.保存数据构造每一页ur...
2020-03-02 16:41:20
500
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅