- 博客(6)
- 收藏
- 关注
转载 windows下使用eclipse操作虚拟机中hdfs上的文件时报错:java.io.IOException: No FileSystem for scheme: hdfs
错误:java.io.IOException: No FileSystem for scheme: hdfs解决办法:确保所有的jar包都添加到了项目中,尤其是hadoop/share/hadoop/common/hdfs中的jar包;在项目的pom.xml文件中,添加如下依赖: <dependency> <groupId>org.apache.ha...
2019-04-16 17:18:25
471
原创 总结:编写Hive UDF自定义函数(通过IP地址查询所属省份地市和运营商)
文件记录字段包括:起始IP(Start_ip),结束IP(End_ip),运营商(IDC),省份(Province),地市(City)1. 将输入的点分十进制IP地址转换成长数字类型IP地址是一个32位的二进制数,将它划分为4个字节,每个字节是8位,因此每个字节所能表示的最大数字是2^8=255(从0开始)public static long ip2long(String ip) { if...
2019-04-11 19:30:21
3017
翻译 常用的降维方法
什么是降维?大数据时代,随着数据的喷涌式生成以及数据收集量的不断增加,可视化数据变得越来越困难,提取关键信息的难度也在不断上升。而通过把高维的数据转变为低维数据,使其能够通过可视化工具直观的展示或者变成易处理的模型特征的过程叫作降维。举个例子,描述一个人的各项特征里包括身高体重,在我们想要解释这个人的身体状况或者体质时,就可以通过身高体重来计算得到这个人的体质指数,那么二维的身高体重转换成...
2018-09-17 15:19:10
7429
原创 使用scikit-learn进行初步的数据预处理
对于机器学习来说,sklearn具有非常丰富且方便的算法模型库,现在我们将使用sklearn中的preprocessing库来对数据进行初步的预处理。1.Z-Score标准化(尽量使均值为0,方差为1)标准化即将数据按比例进行缩放,使其落入一个限定的区间。特点是使得不同量纲之间的特征具有可比性,同时不改变原始数据的分布。属于无量纲化处理。公式需要计算特征的均值和标准差,使用sk...
2018-09-15 13:46:12
899
原创 Linux系统:selenium.common.exceptions.WebDriverException: Message: chrome not reachable
1.运行环境及版本python: Python3.6.5 | Anacondaselenium: 3.14.0chrome: 68.0.3440.84chromedriver: 2.412.问题描述 测试selenium时输入如下代码: &gt;&gt;&gt; from selenium import webdriver...
2018-09-01 17:25:16
6764
1
原创 Hash函数及HashMap的简单介绍
本篇文章将围绕以下几个问题进行学习:一、散列函数散列函数的概念散列函数常见的几种构造方法二、哈希冲突哈希冲突的概念哈希冲突的常见解决办法三、HashMapHashMap的简单介绍HashMap的几个特点HashMap的两个关键因子HashMap查找的时间复杂度分析四、问题小结HashMap中哈希函数的实现方式是什么?为...
2018-08-21 12:41:43
930
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人