嗯୧⍤⃝-优快云博客

原创主成分分析（pca）

# -*- coding: utf-8 -*-"""Created on Fri Dec 3 10:09:23 2021@author: 继续革命"""import numpy as npimport pandas as pddf=pd.read_csv(r'/nba_data本赛季.csv')print(df.shape)df.columns=['sepal_len','sepal_wid', 'petal_len','petal_wid','class']p

2022-01-22 23:24:47 267 1

原创爬取知乎图片

import requestsfrom lxml import etree url='https://zhuanlan.zhihu.com/p/408232419'headers={ 'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/96.0.4664.45 Safari/537.36 Edg/96.0.1054.29' }re

2022-01-19 23:23:13 312

原创主题分析（）

import numpy as npimport jieba# 文档链表with open('十九大报告.txt','r') as f: docment=[] docment.append(f.read())# 进行分词，并存入list:result = []for doc in docment: document3_cut = jieba.cut(doc) result.append(' '.join(document3_cut)) # 获取词频向量：f

2022-01-18 19:21:24 310

原创聚类分析（k均值聚类）

from sklearn import datasetsimport matplotlib.pyplot as pltfrom sklearn.cluster import KMeansimport pandas as pddf=pd.read_csv('iris.csv')#加载数据集lris_df = datasets.load_iris()#挑选出前两个维度作为x轴和y轴#聚类前x_axis = lris_df.data[:,0]y_axis = lris_df.data

2022-01-17 23:28:22 320

原创爬虫动态采集

爬取各地区gdp数据并保存import requestsimport json.encoderimport pandas as pdimport matplotlib.pyplot as plt# 获取数据def getData(): headers = { 'Connection': 'keep-alive', 'Accept': 'application/json, text/javascript, */*; q=0.01', 'X-R

2022-01-16 23:49:00 399

原创实现图片二值化

from PIL import Imageimg = Image.open('xx.jpg') # 模式L”为灰色图像，它的每个像素用8个bit表示，0表示黑，255表示白，其他数字表示不同的灰度。Img = img.convert('L')Img.save("xpr1.jpg") # 自定义灰度界限，大于这个值为黑色，小于这个值为白色threshold = 200 table = []for i in range(256): if i < threshold:

2022-01-15 23:41:05 2154

原创预测nba本赛季球队夺冠的胜率并进行相关分析

import numpy as npimport joblibimport pandas as pd #数据分析库import os,glob #os基本的系统控制(读写),glob(正则表达式的文件读取)from collections import Counterimport matplotlib.pyplot as pltimport seaborn as snsimport warnings #去除警告提示的from pyecharts.c

2022-01-14 23:10:11 843

原创数据库的内容怎么存放到服务器中呢

如题，怎么将数据库中的表放到服务器中，编写的软件如何连接数据库

2022-01-13 19:50:03 674

原创 pca降维法

降维是数据处理中一个常见的步骤，它可以将多维的数据降到二维甚至更低，而降维后的数据完全可以表示原数据其中，pca降维法是我们最常用的一种数据我用的是之前文章中爬取的nba赛事数据def pca_data(data): from sklearn.decomposition import PCA x=data.drop(data.columns[0],axis=1) #x1=x.drop('冠军',axis=1) pca =PCA(n_components='mle') #

2022-01-12 23:41:45 748

原创大数据上手项目（第五天）hadoop-ha（高可用）配置

什么是hadooop，什么是hadoop-ha（高可用）hadoopHadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下，开发分布式程序。充分利用集群的威力进行高速运算和存储。具有可靠、高效、可伸缩的特点。Hadoop的核心是YARN,HDFS和Mapreduce下图是hadoop生态系统，集成spark生态圈。在未来一段时间内，hadoop将于spark共存，hadoop与spark都能部署在yarn、mesos的资源管理系统之上2

2022-01-11 22:16:47 878

原创大数据上手项目（第四天）创建新用户并安装配置zookeeper

我

2021-11-24 22:23:38 1660

原创 python爬虫实操|懂的都懂

本来想学习一下动态网页的爬取，准备爬知乎没想到啊没想到，爬到了一堆好东西直接上代码import requestsfrom lxml import etree url='https://zhuanlan.zhihu.com/p/408232419'headers={ 'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/96.0.466

2021-11-23 22:35:44 573

原创大数据上手项目（第三天）jdk的配置和时钟同步服务

1、关闭防火墙，selinux在安装jdk之前先关掉防火墙，以及SELINUXsystemctl stop firewalld.service #直接关闭防火墙systemctl disable firewalld.service #禁止开机自启动打开selinux的conf目录vi /etc/selinux注释掉下面两行并添加#SELINUX=enforcingSELINUX=disabled#SELINUXTYPE=targeted完成后需要重启2、jdk安装在根目录下新

2021-11-23 22:19:06 1158

原创查看本机ip信息

win+R输入cmd输入ipconfig

2021-11-21 21:57:43 1430

原创大数据上手项目（第二天）静态ip的配置以及修改主机名

在成功登录虚拟机后，应该设置静态ip，这样方便后面的配置这里就是手把手教学vi /etc/sysconfig/network-scripts/ifcfg-ens33需要注意的是：BOOTPROTO=dhcp需要改成static，dhcp是自动获取ip地址，static是静态ip地址ONBOOT=no改成yes，启动网络服务添加IPADDR=你的ip，GATEWAY=网关地址，NETMASK=255.255.255.0，DNS1=8.8.8.8大部分人都卡在了网关地址上点击右上角编辑

2021-11-21 21:54:55 2142

原创 linux镜像文件的下载

下载地址：http://archive.kernel.org/centos-vault/6.1/isos/x86_64/后缀iso为压缩文件minimal是迷你版，其中缺少一些东西，但是日常学习够用了可以按照自己的要求下载

2021-11-20 22:35:20 1023

原创大数据上手项目（第一天）linux操作系统的搭建

边学边练，我们会完整的做一个大数据项目来练手项目准备：VMware虚拟机，linux操作系统，hadoop架构，python等第一天，先要搭建好虚拟机为什么我们要使用linux呢？主要是因为linux是开源的，且目前企业中也在大量使用linux做服务器，这对以后的工作会很有帮助1.下载虚拟机软件在百度输入vmware下载就可以了https://customerconnect.vmware.com/cn/downloads/#all_products这里我们选择VMware Workstati

2021-11-20 22:22:25 1396

原创 python爬虫实操|爬取nba中国官网球员数据

本次我们将爬取Ajax动态加载数据并进行简单数据分析，其主要方式是找到数据的json包，将其保存到本地目录，进行数据分析提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录前言一、业务分析二、步骤1.找到数据2.抓取数据3.分析数据总结前言提示：这里可以添加本文要记录的大概内容：例如：随着人工智能的不断发展，机器学习这门技术也越来越重要，很多人都开启了学习机器学习，本文就介绍了机器学习的基础内容。提示：以下是本篇文章正文内容，下面案例可供参考一、业务分析目标网站：N

2021-11-17 12:35:51 9749 20

原创 python爬虫实操|练手项目

爬虫入门练习项目本人是大三学生，分享一些学习心得，如果有错误，请大佬指导这里我们爬取的是新华网时政新闻的排行榜，xpath比较简单，且爬取的条目比较少，特别适合新手练习项目分析首先我们要选取目标网站新华网 “http://xinhuanet.com/politicspro/”打开网址，可以看到排行榜在网页左侧，有三条数据需要爬取，分别是排名，新闻题目，链接点击鼠标右键，检查，打开开发者选项排名题目以及链接接着我们就可以将xpath写出来了#准备爬取的内容所在地址//ul[@

2021-11-09 11:38:32 459

原创有关kafka主节点无法启动

kafka无法正常启动最近新配置是kafka，在第一次启动时,第一台机器报错 ERROR [KafkaServer id=1] Fatal error during KafkaServer startup. Prepare to shutdown (kafka.server.KafkaServer)java.lang.NoSuchMethodError: org.apache.zookeeper.ZooKeeper.multi(Ljava/lang/Iterable;Lorg/apache/zookee

2021-11-07 22:12:30 1505

原创为什么hadoop各服务可以启动，但是打不开50070和8088

![在这里插入图片描述](https????/img-blog.csdnimg.cn/20211026210719319.jpg?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3FxXzUwODU5OTYy,size_16,color_FFFFFF,t_70)

2021-10-26 21:07:38 193

TA关注的人

qq_50859962的博客