- 博客(21)
- 问答 (7)
- 收藏
- 关注
原创 主成分分析(pca)
# -*- coding: utf-8 -*-"""Created on Fri Dec 3 10:09:23 2021@author: 继续革命"""import numpy as npimport pandas as pddf=pd.read_csv(r'/nba_data本赛季.csv')print(df.shape)df.columns=['sepal_len','sepal_wid', 'petal_len','petal_wid','class']p
2022-01-22 23:24:47
231
1
原创 爬取知乎图片
import requestsfrom lxml import etree url='https://zhuanlan.zhihu.com/p/408232419'headers={ 'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/96.0.4664.45 Safari/537.36 Edg/96.0.1054.29' }re
2022-01-19 23:23:13
273
原创 主题分析()
import numpy as npimport jieba# 文档链表with open('十九大报告.txt','r') as f: docment=[] docment.append(f.read())# 进行分词,并存入list:result = []for doc in docment: document3_cut = jieba.cut(doc) result.append(' '.join(document3_cut)) # 获取词频向量:f
2022-01-18 19:21:24
278
原创 聚类分析(k均值聚类)
from sklearn import datasetsimport matplotlib.pyplot as pltfrom sklearn.cluster import KMeansimport pandas as pddf=pd.read_csv('iris.csv')#加载数据集lris_df = datasets.load_iris()#挑选出前两个维度作为x轴和y轴#聚类前x_axis = lris_df.data[:,0]y_axis = lris_df.data
2022-01-17 23:28:22
285
原创 爬虫动态采集
爬取各地区gdp数据并保存import requestsimport json.encoderimport pandas as pdimport matplotlib.pyplot as plt# 获取数据def getData(): headers = { 'Connection': 'keep-alive', 'Accept': 'application/json, text/javascript, */*; q=0.01', 'X-R
2022-01-16 23:49:00
327
原创 实现图片二值化
from PIL import Imageimg = Image.open('xx.jpg') # 模式L”为灰色图像,它的每个像素用8个bit表示,0表示黑,255表示白,其他数字表示不同的灰度。Img = img.convert('L')Img.save("xpr1.jpg") # 自定义灰度界限,大于这个值为黑色,小于这个值为白色threshold = 200 table = []for i in range(256): if i < threshold:
2022-01-15 23:41:05
2112
原创 预测nba本赛季球队夺冠的胜率并进行相关分析
import numpy as npimport joblibimport pandas as pd #数据分析库import os,glob #os基本的系统控制(读写),glob(正则表达式的文件读取)from collections import Counterimport matplotlib.pyplot as pltimport seaborn as snsimport warnings #去除警告提示的from pyecharts.c
2022-01-14 23:10:11
636
原创 pca降维法
降维是数据处理中一个常见的步骤,它可以将多维的数据降到二维甚至更低,而降维后的数据完全可以表示原数据其中,pca降维法是我们最常用的一种数据我用的是之前文章中爬取的nba赛事数据def pca_data(data): from sklearn.decomposition import PCA x=data.drop(data.columns[0],axis=1) #x1=x.drop('冠军',axis=1) pca =PCA(n_components='mle') #
2022-01-12 23:41:45
710
原创 大数据上手项目(第五天)hadoop-ha(高可用)配置
什么是hadooop,什么是hadoop-ha(高可用)hadoopHadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力进行高速运算和存储。具有可靠、高效、可伸缩的特点。Hadoop的核心是YARN,HDFS和Mapreduce下图是hadoop生态系统,集成spark生态圈。在未来一段时间内,hadoop将于spark共存,hadoop与spark都能部署在yarn、mesos的资源管理系统之上2
2022-01-11 22:16:47
828
原创 python爬虫实操|懂的都懂
本来想学习一下动态网页的爬取,准备爬知乎没想到啊没想到,爬到了一堆好东西直接上代码import requestsfrom lxml import etree url='https://zhuanlan.zhihu.com/p/408232419'headers={ 'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/96.0.466
2021-11-23 22:35:44
545
原创 大数据上手项目(第三天)jdk的配置和时钟同步服务
1、关闭防火墙,selinux在安装jdk之前先关掉防火墙,以及SELINUXsystemctl stop firewalld.service #直接关闭防火墙systemctl disable firewalld.service #禁止开机自启动打开selinux的conf目录vi /etc/selinux注释掉下面两行并添加#SELINUX=enforcingSELINUX=disabled#SELINUXTYPE=targeted完成后需要重启2、jdk安装在根目录下新
2021-11-23 22:19:06
1129
原创 大数据上手项目(第二天)静态ip的配置以及修改主机名
在成功登录虚拟机后,应该设置静态ip,这样方便后面的配置这里就是手把手教学vi /etc/sysconfig/network-scripts/ifcfg-ens33需要注意的是:BOOTPROTO=dhcp需要改成static,dhcp是自动获取ip地址,static是静态ip地址ONBOOT=no改成yes,启动网络服务添加IPADDR=你的ip,GATEWAY=网关地址,NETMASK=255.255.255.0,DNS1=8.8.8.8大部分人都卡在了网关地址上点击右上角编辑
2021-11-21 21:54:55
2097
原创 linux镜像文件的下载
下载地址:http://archive.kernel.org/centos-vault/6.1/isos/x86_64/后缀iso为压缩文件minimal是迷你版,其中缺少一些东西,但是日常学习够用了可以按照自己的要求下载
2021-11-20 22:35:20
972
原创 大数据上手项目(第一天)linux操作系统的搭建
边学边练,我们会完整的做一个大数据项目来练手项目准备:VMware虚拟机,linux操作系统,hadoop架构,python等第一天,先要搭建好虚拟机为什么我们要使用linux呢?主要是因为linux是开源的,且目前企业中也在大量使用linux做服务器,这对以后的工作会很有帮助1.下载虚拟机软件在百度输入vmware下载就可以了https://customerconnect.vmware.com/cn/downloads/#all_products这里我们选择VMware Workstati
2021-11-20 22:22:25
1370
原创 python爬虫实操|爬取nba中国官网球员数据
本次我们将爬取Ajax动态加载数据并进行简单数据分析,其主要方式是找到数据的json包,将其保存到本地目录,进行数据分析提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档文章目录前言一、业务分析二、步骤1.找到数据2.抓取数据3.分析数据总结前言提示:这里可以添加本文要记录的大概内容:例如:随着人工智能的不断发展,机器学习这门技术也越来越重要,很多人都开启了学习机器学习,本文就介绍了机器学习的基础内容。提示:以下是本篇文章正文内容,下面案例可供参考一、业务分析目标网站:N
2021-11-17 12:35:51
9409
20
原创 python爬虫实操|练手项目
爬虫入门练习项目本人是大三学生,分享一些学习心得,如果有错误,请大佬指导这里我们爬取的是新华网时政新闻的排行榜,xpath比较简单,且爬取的条目比较少,特别适合新手练习项目分析首先我们要选取目标网站新华网 “http://xinhuanet.com/politicspro/”打开网址,可以看到排行榜在网页左侧,有三条数据需要爬取,分别是排名,新闻题目,链接点击鼠标右键,检查,打开开发者选项排名题目以及链接接着我们就可以将xpath写出来了#准备爬取的内容所在地址//ul[@
2021-11-09 11:38:32
411
原创 有关kafka主节点无法启动
kafka无法正常启动最近新配置是kafka,在第一次启动时,第一台机器报错 ERROR [KafkaServer id=1] Fatal error during KafkaServer startup. Prepare to shutdown (kafka.server.KafkaServer)java.lang.NoSuchMethodError: org.apache.zookeeper.ZooKeeper.multi(Ljava/lang/Iterable;Lorg/apache/zookee
2021-11-07 22:12:30
1359
原创 为什么hadoop各服务可以启动,但是打不开50070和8088

2021-10-26 21:07:38
172
空空如也
hive整合hbase出现报错
2022-05-02
kafka主节点无法启动,其余节点正常启动
2021-11-07
hadoop为什么打不开50070和8088端口
2021-10-27
怎么可以用python达到这样的效果
2021-06-30
怎么可以计算年龄组的差值,并按大小输出年龄组和差值
2021-06-28
为什么会出现两个40~44 seaborn
2021-06-22
TA创建的收藏夹 TA关注的收藏夹
TA关注的人