
学习笔记
文章平均质量分 57
周末饺子配啤酒
每天进步一点点
展开
-
R中文分词、绘制云图笔记
1. 准备工作(配置Java环境、安装分词包Rwordseg、rJava、tm,操作顺序如下) (1). 安装JDK、配置Java环境 JDK的安装就按照提示一直next下去就行了,不过安装中一定要注意:JDK安装过程中会出现两次选择路径,第一次是安装JDK,第二次是安装Jre,一定要将这两个的安装路径分开,否则那么jre包中的内容会覆盖掉jdk中的内容,因此,在你安装完成之后,会发原创 2017-09-30 17:16:53 · 1051 阅读 · 0 评论 -
数据分析前篇(numpy数组的简单使用)
导入numpy第三方库import numpy as np多维数组numpy中的多维数组是numpy.ndarray类类型的对象,可用于表示数据结构中的任意维度的数组;numpy中的创建的数组在内存中时连续的创建数组np.arrange(起始,终止,步长):创建一维数组np.array(任何可以被解释为数组的容器)改变数组类型ndarray.dtype...原创 2018-08-04 10:50:04 · 424 阅读 · 0 评论 -
数据分析前篇二(数据可视化)
导入绘图工具包import matplotlib.pypolt as mp基本绘图函数mp.plot(水平坐标(数组),垂直坐(数组),linestyle = '线型',linewight = '线宽',color = '颜色')x = np.linspace(-np.pi, np.pi, 1000) #产生-pi到pi的1000个均匀分布的样本点cos_y = np...原创 2018-08-04 15:31:47 · 520 阅读 · 0 评论 -
数据分析中篇(numpy通用函数)
文件操作读入文件numpy.loadtxt(文件名,delimiter=分隔符,usecols=选择列,unpack=是否解包, dtype=目标类型, converters=转换器)->二维数组(unpack=False)/列一维数组集(unpack=True)保存文件numpy.savetxt(文件名,二维数组,delimiter...原创 2018-08-04 15:45:25 · 264 阅读 · 0 评论 -
数据分析初探(一)----线性拟合
任务目标预测收盘价,时间窗口设置为5,即采用5天的收盘价格,建立线性方程组,预测最后一天的收盘价格模型原理采用线性拟合,现在假设有一组数据(a,b,c,d,e,f)那么根据目前的数据趋势请给出后面的数据是多少那么这就可以总结为线性拟合,根据已知的数据建立线性方程组如下 d = aA+bB+cC e = bA+cB+dC ...原创 2018-08-04 16:37:42 · 1174 阅读 · 0 评论 -
数据分析中篇(数据清洗&特征处理常见手法)
向量卷积原创 2018-08-05 13:59:53 · 979 阅读 · 0 评论 -
常见numpy子模块整理
线性代数子模块(linalg)np.linalg.inv(a,b) 求矩阵的逆np.linalg.solve(a,b) 解线性方程组,返回结果np.linalg.lstsq(a,b)[0] 解线性方程组,返回的第一行是解结果np.linalg.eig() 返回特征值和特征向量np.linalg.svd(M) 返回M矩阵的奇异值分解的矩阵 U Vnp.linalg.det(...原创 2018-08-05 14:17:26 · 542 阅读 · 0 评论 -
机器学习初探---数据预处理
机器学习中对于数的预处理都在sklearn的preprocessing中下面整理了基本的数据预处理方法均值移除为了统一样本中不同特征的基准值和分散度,可以将各个特征的平均值调整为0,标准差调整为1,这个过程为均值移除实现过程import sklearn.preprocessing as sp均值移除后样本 = sp.scale(原始样本)import sklearn.prep...原创 2018-08-05 15:01:27 · 238 阅读 · 0 评论 -
机器学习初探---线性回归器
数据载入x,y = [],[]with open('single.txt','r') as f: for line in f.readlines(): data = [float(substr) for substr in line.split(',')] #遍历每行的数据添加到data x.append(data[:-1]) #特征矩阵 ...原创 2018-08-06 12:52:46 · 598 阅读 · 0 评论 -
机器学习篇(岭回归)
数据读入数据读入&形成特征矩阵x,y = [],[]with open('abnormal.txt','r') as f: for line in f.readlines(): data = [float(substr) for substr in line.split(',')] #遍历每行的数据添加到data x.append(d...原创 2018-08-06 15:25:41 · 742 阅读 · 0 评论 -
机器学习(三)----决策树
模型任务接受波士顿地区的房价特征,一共13个,根据特征预测房子售价数据载入import sklearn.datasets as sd #标准样本数据集housing = sd.load_boston()#使用housing.feature_names查看房价特征#通过housing.data查看特征矩阵,测试集和训练集划分#打乱原数据集,保证数据随机性#随...原创 2018-08-06 20:58:18 · 495 阅读 · 0 评论 -
剑指offer---把数组排成最小的数
题目描述输入一个正整数数组,把数组里所有数字拼接起来排成一个数,打印能拼接出的所有数字中最小的一个。例如输入数组{3,32,321},则打印出这三个数字排成的最小数字为321323。解题思路1、将数组转化为字符串数组2、当str1+str2>str2+str1时将str1插入到str2后面3、对整个字符串数组做相同操作对于python2.x的版本可以直接使用so...原创 2018-08-25 17:23:32 · 195 阅读 · 0 评论 -
数据搜索引擎整理
人工智能大数据,公开的海量数据集下载,ImageNet数据集下载,数据挖掘机器学习数据集下载ImageNet挑战赛中超越人类的计算机视觉系统微软亚洲研究院视觉计算组基于深度卷积神经网络(CNN)的计算机视觉系统,在ImageNet 1000挑战中首次超越了人类进行对象识别分类的能力。他们的系统在ImageNet 2012分类数据集中的错误率已降低至4.94%。这个数据集包含约120万张训练图...转载 2019-06-19 15:10:01 · 6173 阅读 · 0 评论 -
python3学习笔记八(TCP/UDP套接字编程)
本文记录python网络编程中关于TCP套接字编程的客户端和服务端的框架,以及UDP套接字编程的客户端和服务端的框架TCP套接字编程TCP套接字编程是基于TCP三次握手和四次挥手的基础上,因此在数据传输前需要建立连接,那么TCP套接字编程的服务端和客户端端的工作流程如下所示 基础服务端框架'''服务端框架1.0'''import socket...原创 2018-07-20 09:22:27 · 600 阅读 · 0 评论 -
python学习笔记四(字典&集合)
本篇文章主要记录python中量大容器字典和集合,不要说什么列表、元组这俩是序列,虽然都是用来存储数据的但是其本质是不同。但是在python中序列和容器的使用感受差别实在是太小了,主要是看存储的数据的特征选取合适的数据类型就可以了字典定义表现形式:{'key1':value1,'key2':value2}字典是一种可变的容器,字典中的数据采用key-value对进行映射存储(和m...原创 2018-06-27 20:04:25 · 234 阅读 · 0 评论 -
菜鸟日记——R中装包常见错误&解决方法
装包一直是贯穿整个R的学习和使用,不过常见的情况是装包一小时,编程5分钟,陷入install.package ——error——百度——library——error——Google的死循环,最后包是装成功了but装包是为了干啥全忘了!!!为了不再被虐因此整理了自己在学习过程中装包遇到的问题和已经解决的办法。(本博文会不定期更新,毕竟R的本体是装包~〒▽〒~)R七大神器之一——数据处理包:dplyr原创 2017-10-15 22:08:00 · 939 阅读 · 0 评论 -
菜鸟日记——每天一个小实验(day1)
用R做了几天的数据分析,觉得处理数据的想法是无限的,而处理数据的手法是唯一的——always for循环(ε=(´ο`*)))唉),这样将大量的时间花费在构建循环上就会有些本末倒置,因此专门花费时间整合R语言中处理数据的利器,请让我脱离永远的for循环!!!!!!!!!!!!(本文实验是借鉴实验楼的)强大的apply家族 R中对于复合数据的数据类型的子集进行处理的时候有它自己封装好的一套数据处理原创 2017-12-04 21:27:29 · 618 阅读 · 0 评论 -
菜鸟日记——R中xgboost文档解析
特征重要度计算 xgb.importance(colnames(agaricus.train$data), model = bst)Feature:在模型中用到的特征名称 Gain:每个特性对模型的贡献。对于增强的树模型,每个树的每个特征的每一个增益被考虑在内,然后每个特征的平均给整个模型的视觉。最高百分比意味着预测培训所使用的标签的重要功能(仅适用于树模型) Cover:与此特性相关的原创 2017-12-14 17:04:47 · 7309 阅读 · 1 评论 -
菜鸟日记——k-means聚类实现并绘图
最近正在做客户细分模型,利用K-means将客户信息划分成多个组并进行特征刻画使得同一簇内的客户相似度较高,不同簇间的相似度比较低。目前只做到了客户信息聚类。数据准备 原本的数据是一些客户的注册基本信息大部分为离散型数据因此考虑到K-means模型对数值类的数据处理效果要比文本类要好因此将注册信息进行重新编排,用ID类型的数据代替原本的数据,比如注册地点:东莞市<——>01,广州市<——>03原创 2017-11-27 11:17:23 · 15129 阅读 · 1 评论 -
使用tensorflow构建基础电影推荐系统
使用jupyter 可以方便调试第一步:收集数据https://grouplens.org/datasets/movielens/第二步 准备数据import pandas as pdimport numpy as npimport tensorflow as tfratings_df = pd.read_csv('ratings.csv')ratings_df.tail(...原创 2018-05-22 17:11:47 · 5295 阅读 · 2 评论 -
使用线性回归构建混凝土抗压预测系统
第一步:收集数据系统目标为预测混凝土抗压强度:数据集地址第二步:加载数据import pandas as pdfrom sklearn import preprocessing,linear_model #导入模型from sklearn.metrics import r2_score #性能评价得分接近1模型性能越好from sklearn.model_selection ...原创 2018-05-22 18:15:27 · 1955 阅读 · 15 评论 -
python学习笔记(二)
python 学习笔记(二)基于python3.X的字符串&amp;amp;amp;amp;格式化字符串的相关应用,不定期更新添加python 转义字符及其应用原创 2018-06-07 20:38:17 · 251 阅读 · 0 评论 -
Python学习笔记(一)
python学习笔记用python来写推荐系统中间涉及数据处理pandas、numpy、sklearn等包的使用创建用户项目评分矩阵 zeros()的使用创建一个一定类型用0填充的数组, shape:指定数组的类型eg:(5)-长度为5的一维数组;(2,1)-2*1的矩阵 dtype:数据类型 order:代表行有限还是列优先举个例子 : train_data_...原创 2018-06-07 19:35:08 · 437 阅读 · 0 评论 -
python学习笔记(三)
关于List的一些记录list 是Python中最基本的数据结构。序列中的每个元素都分配一个数字 - 它的位置。list是一个可变的数据存储结构创建方法list的创建方式主要有三种直接创建构造函数创建推导式创建# 直接创建方式 L = [] L = [1,2,3,4] L = ['beijing','shanghai'...原创 2018-06-09 20:30:48 · 220 阅读 · 0 评论 -
python学习笔记五(函数基础)
博主在学完python基本数据类型后就开始迫不及待的去编写自己的程序去了,但是写出来的程序总是和大神的差了不是一星半点,后来发现那是因为我和大神之间差了n个函数w(゚Д゚)w,因此勤学努力的博主又去学习了帮助python高逼格编程的函数^_^函数定义python 定义函数的格式如下:def function_name(形参列表): function_body return...原创 2018-07-02 17:54:42 · 360 阅读 · 0 评论 -
python学习记录六(函数基础补充)
在学习完函数编程后,发现又有一个很小但是很重要的问题,那就是python变量的作用域,本文整理了python中变量的作用(全局变量和局部变量)作用域既然要谈到局部变量和全局变量,那么就不可避免的需要说一下python中的作用域划分python中主要有4个作用域分别为Local function:局部作用域(函数内部)enclosing function locals:外部嵌套函数...原创 2018-07-02 19:46:03 · 160 阅读 · 0 评论 -
python学习记录七(高级函数)
python3中有很多比较别致的函数定义方式,让没有见过的同学总是很头痛,这一堆表达式到底是想干什么呀ヽ(#`Д´)ノ,本篇就总结一下python中出现的别致函数定义lambda 表达式定义:创建一个匿名函数对象,不提供函数名lambda [参数1,,参数2,...]:表达式让给定的参数执行表达式的操作然后返回操作结果表达式的调用与函数的调用相同myadd = lambda a...原创 2018-07-02 21:28:42 · 247 阅读 · 0 评论 -
常用数据集整理
常用数据集本文整理了一些网上的免费数据集,分类下载地址如下,希望能节约大家找数据的时间。这篇文章涵盖以下10个领域的数据集下载资源:在这里插入代码片金融交通商业推荐系统医疗健康图像数据视频数据音频数据自然语言处理社会数据处理后的科研和竞赛数据1金融美国劳工部统计局官方发布数据:http://dataju.cn/Dataju/web/datas...转载 2019-06-16 22:18:36 · 1408 阅读 · 0 评论