自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(13)
  • 问答 (1)
  • 收藏
  • 关注

原创 使用xpath和bs4解析网页的区别(着重于获取文本内容)

数据采集课写实验的时候要求爬取高校的老师信息,因为我一般都用的是xpath来解析网页获取内容,但是当我对数据进行清洗的时候(因为有些老师的英文名都是空(= = 基本上全部都是空)),发现xpath解析下来的空标签中的空字符串不会被算作text()的一部分,这就导致我将数据转化为字典时非常的不好分类,因为有些有有些没有;所以我就打算去看看之前学的,使用bs4作为测试,发现bs4对于没有文本内容的标签使用get_text()方法进行处理的时候,还是会将其作为一个空字符串进行返回,这就达到了我想要的目的;

2022-03-25 17:40:46 3072 1

原创 使用SCP传输文件报错:ssh: connect to host xx.xx.xx.xx port 22: Connection refusedlost connection

因为回家了想要访问学校服务器给老师修juypter修不了,所以从学长那里得知需要通过做了内网穿透的老师服务器连接需要维修的服务器,而传输文件则需要用scp先进行传输给老师的公网服务器,再用scp内网传输文件,所以我打算先熟悉scp的操作---通过我自己vmware上的两台虚拟机但是在我在自己虚拟机上使用的scp传输的过程中出现了一点小问题,即每次我scp /home/hadoop/*.pdf felx@另一台虚拟机地址:/home/hadoop/桌面 的时候都会报错:ssh connection ref

2022-01-19 16:51:16 7644

原创 关于我想往自己写的管理系统登陆界面插个背景图片却一直被复制粘贴的网络方法误导这件事---JFrame设置背景图片

怎么说呢,一开始整个系统的功能实现完我是很开心的,想着完善下系统的布局和整体背景,准备从登录界面开始下手(嘿嘿)从优化布局这块,看了会资料和视频学会了Spring布局,整理了下登陆的界面的布局,感觉还行,又加了个原神的图标给这个登录UI,很有成就感!but!当我开始着手背景的设置的时候,我被一直误导进了一个错误的方向----也不能说完全错误网路上绝大多数的方法都是使用JLayeredPane()进行背景图片的插入,大体思路是创建一个JPanel,再往JPanel里插入放入图片的Image

2021-12-23 22:31:08 948

原创 关于ntp使用的总结

NTP是一个时间同步协议,使用NTP能够使得不同服务器之间的时间同步,从而更好地完成集群的各个任务一、ntp基本配置信息: 配置文件在/etc/ntp.conf中,而可以从/etc/services文件中查找到ntp的端口号----123 通过监听端口查看ntp有无运行:netstat -antpu | grep 123 启动ntp:service ntpd start 二、实现服务器之间的时间同步 ntpda...

2021-10-31 21:10:33 1325

原创 Hive的基础配置

一、使用元数据服务的方式访问Hive(用JDBC访问Hive的前提)

2021-09-08 12:31:15 369

原创 实验室基础Hive学习

一、Hive的概念介绍(相当于Hadoop的客户端) 1> Hive处理的数据存储在HDFS中 2>Hive分析数据的底层是MR(在安装完Hive的时候它底层已经完成了对应SQL语句和MR编程的对应关系的模板的写入,将所有MR模板封装在Hive中),而当客户端输入的SQL语句时,就会根据这些模板来进行对应地翻译成MR程序,并打成jar包,在YARN上运行 3>执行在YARN上 本质:将HQL转化成MR程序...

2021-09-06 21:51:55 561

原创 MR高级编程

一、MR中的Counter计数器

2021-08-24 11:44:28 646 1

原创 MR基础编程实训--------美国新冠疫情的统计

一、实现的目的 ●MR自定义对象序列化●MR自定义排序●MR自定义分区●MR自定义分组(reduce阶段的v的合并阶段的k的依据)●MR自定义分组拓展:topN...

2021-08-14 12:16:13 624

原创 hadoop入门(大数据专业菜狗)

一、hdfs的架构 Client:对文件的切分(块),与namenode、datanode交互 namenode:管理命名空间,管理块的映射信息,处理客户端的读写请求 datanode:存储实际的数据块,执行数据块的读写操作...

2021-08-05 22:57:09 722

原创 实验室java基础学习

peace

2021-07-22 22:54:30 289

原创 大数据菜狗为了实验室重拾python之路

一、continue和break continue是跳出当前循环直接进入下一次循环;break是直接跳出当前循环 注意:continue在使用中必须注意是否会进入死循环的问题(主要看用于控制循环次数的变量在continue语句之前有没有对应的进行更改)这种情况是可以进行的i=0while (i<10): if (i == 3): i += 1 #使用continue时需要确认是否会进入死循环 ...

2021-07-14 17:39:56 227

原创 机器学习配套算法实训

import numpy as npfrom numpy import genfromtxtfrom sklearn import linear_modelimport matplotlib.pyplot as pltdata = genfromtxt(r"longley.csv", delimiter = ',')# 生成50个值,从0.001到1,默认生成50个值(20个岭系数的候选值)alphas_to_test = np.linspace(0.001, 1)x_data = dat.

2021-06-03 23:29:51 425 1

原创 学习机器学习算法之旅

加入学校实验室需要进行机器学习的了解和深入,此篇博客为记录我在b站上学习的笔记,希望大佬能对其中的一些问题进行指正注意:验证的方式,与之前的算法无关交叉验证法:将数据拆分为多份,每次取其中的一份为为测试集,其余的作为数据集来训练模型,用训练好的模型带入测试集求出误差,迭代所有的数据,将求出的误差取平均值。正则化:Lamda是正则项的系数,lamda取值大,说明正则项越重要,反之则反;岭回归:岭回归的代价函数:(正则化)加入了偏差(正则...

2021-06-02 23:18:04 370 1

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除