自定义博客皮肤VIP专享

*博客头图：

点击选择上传的图片

格式为PNG、JPG，宽度*高度大于1920*100像素，不超过2MB，主视觉建议放在右侧，请参照线上博客头图

请上传大于1920*100像素的图片！

博客底图：

点击选择上传的图片

图片格式为PNG、JPG，不超过1MB，可上下左右平铺至整个背景

栏目图：

点击选择上传的图片

图片格式为PNG、JPG，图片宽度*高度为300*38像素，不超过0.5MB

主标题颜色：

RGB颜色，例如：#AFAFAF

Hover：

RGB颜色，例如：#AFAFAF

副标题颜色：

RGB颜色，例如：#AFAFAF

预览取消提交

自定义博客皮肤

-+

上一步保存

qq_45626019的博客

原创数据分析之数据准备（1-3）

承接数据分析之数据探索https://blog.youkuaiyun.com/qq_45626019/article/details/108074152import pandas as pdimport numpy as nphousing=pd.read_csv(r"D:\sublime\机器学习\dataset\housing.csv")#按照收入类别进行分层抽样housing["income_cat"]=np.ceil(housing["median_income"]/1.5)housing["in

2020-08-18 22:11:14 611

原创数据分析之数据探索（1-2）

承接-数据分析之测试集划分https://blog.youkuaiyun.com/qq_45626019/article/details/108060392导入数据import pandas as pdhousing=pd.read_csv(r"D:\sublime\机器学习\dataset\housing.csv")#按照收入类别进行分层抽样housing["income_cat"]=np.ceil(housing["median_income"]/1.5)housing["income_cat"].wh

2020-08-18 12:30:41 401

原创数据分析之测试集划分（1-1）

以housing.csv数据集为例展开演示如果数据是动态的建议利用爬虫技术，使你持续获得最新数据从https://github.com/ageron/handso-ml/raw/master/datasets/housing上下载数据import osimport tarfilefrom six.moves import urllibdownload_url="https://github.com/ageron/handson-ml/raw/master/"housing_path="dat

2020-08-17 23:14:23 733

原创利用python进行假设检验

概念：假设检验，就是要对总体参数u提出一个假设，然后利用样本信息去验证这个假设是否成立。假设检验的假设：(1)假设检验时，会设置两个假设一个是原假设，也叫零假设，用H0表示。原假设一般是统计者想要拒绝的假设。原假设设置一般为：等于=、大于等于>=、小于等于<=。另一个是备择假设，用H1表示。备择假设是统计者想要接受的假设，备择假设的设置一般为：不等于！=、大于>、小于<。(2)为什么把设计者想要拒绝的假设放在原假设呢？因为原假设如果误判的话，只会犯弃真错误，而犯弃真错误的

2020-08-17 13:35:51 4059

原创 numpy.random模块的使用

(1) numpy.random.uniform(low=0.0, high=1.0, size=None)在[low,high)中均匀生成size个浮点数import numpy as npa=np.random.uniform(1,3,10)print(a)结果：[1.82050159 2.6855366 1.21302458 1.7805841 2.69146851 1.48324765 1.16875348 2.34953967 1.76611582 2.53800658]补充：当

2020-08-14 00:03:01 208

原创 python取整方法汇总

1.向下取整a=math.floor(3.75)#向下取整print(a)a=int(0.75)#向0取整print(a)#或者a=5\\2#取整时保留整数的下界print(a)结果：3结果：0结果：22.向上取整import matha=math.ceil(2.5)print(a)结果：33. 四舍五入a=round(3.2)#当小数末尾为5时，奇数向远离0取整，偶数去尾取整；或言之：奇数进位，偶数去尾print(a)结果：34.分别取整数部分和小数部分im

2020-08-13 16:54:59 882

原创利用二分法查找目标值（python）

利用二分法和牛顿法求平方根首先我们要理解什么是二分法：（一）确定该区间的中间位置K（2）将查找的值T与array[k]比较。若相等，查找成功返回此位置；否则确定新的查找区域，继续二分查找。区域确定如下：a.array[k]>T 由数组的有序性可知array[k,k+1,……,high]>T;故新的区间为array[low,……，K-1]b.array[k]<T 类似上面查找区间为array[k+1,……，high]。每一次查找与中间值比较，可以确定是否查找成功，不成功当前查找区间将缩小

2020-08-13 13:32:48 1266

原创 numpy.random.seed()的用法理解

关于numpy.random.seed()的参数说明seed()用于指定随机数生成时所用算法开始的整数值，如果使用相同的seed()值，则每次生成的随机数都是相同一、当seed()值不同时，接下来产生的随机数也会不同import numpy as npfor i in range(5): np.random.seed(i) a=np.random.random() print(a)a0.54881350392732480.4170220047025740.43599490214200

2020-08-12 18:22:33 629

原创爬虫-IP代理池构建

ip代理池构建（可自动调用）多次爬取，进行ip替换可有效防止访问失败，本代码可直接导入使用import requestsfrom lxml import etreeimport timeimport random#随机选取代理def getip(ipstock1): key1=random.choice(list(ipstock1)) proxies2="https://"+key1+":"+ipstock1[key1] proxies3={"https":proxies2} retu

2020-06-07 12:20:06 287

原创基于wifi信号强度的定位研究

基于wifi信号强度的定位研究Knn算法简介：knn分类算法是数据挖掘分类技术中最简单的方法之一。所谓knn就是在离未知数据k个最近的数据中，找到占比最高的同一类数据，从而预测未知数据类型就是该类数据。而在本次wifi信号定位的实验中，wifi发射器到手机的距离对于信号强度具有完全负相关性，可以抽象的将相关性理解为测试点到测试集点的欧式距离，因此，我组决定使用KNN算法。其次，Knn算法对数...

2020-01-01 10:51:12 2437 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示

确定要删除当前文章？

取消删除