自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(21)
  • 问答 (7)
  • 收藏
  • 关注

原创 主成分分析(pca)

# -*- coding: utf-8 -*-"""Created on Fri Dec 3 10:09:23 2021@author: 继续革命"""import numpy as npimport pandas as pddf=pd.read_csv(r'/nba_data本赛季.csv')print(df.shape)df.columns=['sepal_len','sepal_wid', 'petal_len','petal_wid','class']p

2022-01-22 23:24:47 231 1

原创 爬取知乎图片

import requestsfrom lxml import etree url='https://zhuanlan.zhihu.com/p/408232419'headers={ 'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/96.0.4664.45 Safari/537.36 Edg/96.0.1054.29' }re

2022-01-19 23:23:13 273

原创 主题分析()

import numpy as npimport jieba# 文档链表with open('十九大报告.txt','r') as f: docment=[] docment.append(f.read())# 进行分词,并存入list:result = []for doc in docment: document3_cut = jieba.cut(doc) result.append(' '.join(document3_cut)) # 获取词频向量:f

2022-01-18 19:21:24 278

原创 聚类分析(k均值聚类)

from sklearn import datasetsimport matplotlib.pyplot as pltfrom sklearn.cluster import KMeansimport pandas as pddf=pd.read_csv('iris.csv')#加载数据集lris_df = datasets.load_iris()#挑选出前两个维度作为x轴和y轴#聚类前x_axis = lris_df.data[:,0]y_axis = lris_df.data

2022-01-17 23:28:22 285

原创 爬虫动态采集

爬取各地区gdp数据并保存import requestsimport json.encoderimport pandas as pdimport matplotlib.pyplot as plt# 获取数据def getData(): headers = { 'Connection': 'keep-alive', 'Accept': 'application/json, text/javascript, */*; q=0.01', 'X-R

2022-01-16 23:49:00 327

原创 实现图片二值化

from PIL import Imageimg = Image.open('xx.jpg') # 模式L”为灰色图像,它的每个像素用8个bit表示,0表示黑,255表示白,其他数字表示不同的灰度。Img = img.convert('L')Img.save("xpr1.jpg") # 自定义灰度界限,大于这个值为黑色,小于这个值为白色threshold = 200 table = []for i in range(256): if i < threshold:

2022-01-15 23:41:05 2112

原创 预测nba本赛季球队夺冠的胜率并进行相关分析

import numpy as npimport joblibimport pandas as pd #数据分析库import os,glob #os基本的系统控制(读写),glob(正则表达式的文件读取)from collections import Counterimport matplotlib.pyplot as pltimport seaborn as snsimport warnings #去除警告提示的from pyecharts.c

2022-01-14 23:10:11 636

原创 数据库的内容怎么存放到服务器中呢

如题,怎么将数据库中的表放到服务器中,编写的软件如何连接数据库

2022-01-13 19:50:03 641

原创 pca降维法

降维是数据处理中一个常见的步骤,它可以将多维的数据降到二维甚至更低,而降维后的数据完全可以表示原数据其中,pca降维法是我们最常用的一种数据我用的是之前文章中爬取的nba赛事数据def pca_data(data): from sklearn.decomposition import PCA x=data.drop(data.columns[0],axis=1) #x1=x.drop('冠军',axis=1) pca =PCA(n_components='mle') #

2022-01-12 23:41:45 710

原创 大数据上手项目(第五天)hadoop-ha(高可用)配置

什么是hadooop,什么是hadoop-ha(高可用)hadoopHadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力进行高速运算和存储。具有可靠、高效、可伸缩的特点。Hadoop的核心是YARN,HDFS和Mapreduce下图是hadoop生态系统,集成spark生态圈。在未来一段时间内,hadoop将于spark共存,hadoop与spark都能部署在yarn、mesos的资源管理系统之上2

2022-01-11 22:16:47 828

原创 大数据上手项目(第四天)创建新用户并安装配置zookeeper

2021-11-24 22:23:38 1617

原创 python爬虫实操|懂的都懂

本来想学习一下动态网页的爬取,准备爬知乎没想到啊没想到,爬到了一堆好东西直接上代码import requestsfrom lxml import etree url='https://zhuanlan.zhihu.com/p/408232419'headers={ 'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/96.0.466

2021-11-23 22:35:44 545

原创 大数据上手项目(第三天)jdk的配置和时钟同步服务

1、关闭防火墙,selinux在安装jdk之前先关掉防火墙,以及SELINUXsystemctl stop firewalld.service #直接关闭防火墙systemctl disable firewalld.service #禁止开机自启动打开selinux的conf目录vi /etc/selinux注释掉下面两行并添加#SELINUX=enforcingSELINUX=disabled#SELINUXTYPE=targeted完成后需要重启2、jdk安装在根目录下新

2021-11-23 22:19:06 1129

原创 查看本机ip信息

win+R输入cmd输入ipconfig

2021-11-21 21:57:43 1405

原创 大数据上手项目(第二天)静态ip的配置以及修改主机名

在成功登录虚拟机后,应该设置静态ip,这样方便后面的配置这里就是手把手教学vi /etc/sysconfig/network-scripts/ifcfg-ens33需要注意的是:BOOTPROTO=dhcp需要改成static,dhcp是自动获取ip地址,static是静态ip地址ONBOOT=no改成yes,启动网络服务添加IPADDR=你的ip,GATEWAY=网关地址,NETMASK=255.255.255.0,DNS1=8.8.8.8大部分人都卡在了网关地址上点击右上角编辑

2021-11-21 21:54:55 2097

原创 linux镜像文件的下载

下载地址:http://archive.kernel.org/centos-vault/6.1/isos/x86_64/后缀iso为压缩文件minimal是迷你版,其中缺少一些东西,但是日常学习够用了可以按照自己的要求下载

2021-11-20 22:35:20 972

原创 大数据上手项目(第一天)linux操作系统的搭建

边学边练,我们会完整的做一个大数据项目来练手项目准备:VMware虚拟机,linux操作系统,hadoop架构,python等第一天,先要搭建好虚拟机为什么我们要使用linux呢?主要是因为linux是开源的,且目前企业中也在大量使用linux做服务器,这对以后的工作会很有帮助1.下载虚拟机软件在百度输入vmware下载就可以了https://customerconnect.vmware.com/cn/downloads/#all_products这里我们选择VMware Workstati

2021-11-20 22:22:25 1370

原创 python爬虫实操|爬取nba中国官网球员数据

本次我们将爬取Ajax动态加载数据并进行简单数据分析,其主要方式是找到数据的json包,将其保存到本地目录,进行数据分析提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档文章目录前言一、业务分析二、步骤1.找到数据2.抓取数据3.分析数据总结前言提示:这里可以添加本文要记录的大概内容:例如:随着人工智能的不断发展,机器学习这门技术也越来越重要,很多人都开启了学习机器学习,本文就介绍了机器学习的基础内容。提示:以下是本篇文章正文内容,下面案例可供参考一、业务分析目标网站:N

2021-11-17 12:35:51 9409 20

原创 python爬虫实操|练手项目

爬虫入门练习项目本人是大三学生,分享一些学习心得,如果有错误,请大佬指导这里我们爬取的是新华网时政新闻的排行榜,xpath比较简单,且爬取的条目比较少,特别适合新手练习项目分析首先我们要选取目标网站新华网 “http://xinhuanet.com/politicspro/”打开网址,可以看到排行榜在网页左侧,有三条数据需要爬取,分别是排名,新闻题目,链接点击鼠标右键,检查,打开开发者选项排名题目以及链接接着我们就可以将xpath写出来了#准备爬取的内容所在地址//ul[@

2021-11-09 11:38:32 411

原创 有关kafka主节点无法启动

kafka无法正常启动最近新配置是kafka,在第一次启动时,第一台机器报错 ERROR [KafkaServer id=1] Fatal error during KafkaServer startup. Prepare to shutdown (kafka.server.KafkaServer)java.lang.NoSuchMethodError: org.apache.zookeeper.ZooKeeper.multi(Ljava/lang/Iterable;Lorg/apache/zookee

2021-11-07 22:12:30 1359

原创 为什么hadoop各服务可以启动,但是打不开50070和8088

![在这里插入图片描述](https????/img-blog.csdnimg.cn/20211026210719319.jpg?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3FxXzUwODU5OTYy,size_16,color_FFFFFF,t_70)

2021-10-26 21:07:38 172

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除