数据阿伯-优快云博客

原创 anaconda下载地址

Anaconda installer archive：地址1： https://repo.continuum.io/archive/ 地址2：https://mirrors.tuna.tsinghua.edu.cn/anaconda/archive/

2018-10-25 16:29:37 551

原创 MySQL的安装

一、MySQL的下载：点击链接：https://dev.mysql.com/downloads/file/?id=470091调到如下界面，然后点击图中红色标记进行下载。二、MySQL的安装双击下载好的安装包，进入如图操作接下来一直点击next直到出现下图：然后按图操作一直next到下图为止，然后点击execute接下来操作nex

2017-07-14 11:26:15 655

原创 python np.where()

numpy.where()函数是三元表达式x if condition else y的矢量化版本。假设我们有一个布尔数组和两个值数组：x = np.array([1.1, 1.2, 1.3, 1.4, 1.5])y = np.array([2.1, 2.2, 2.3, 2.4, 2.5])condition = np.array([True, False, True, True, Fals

2017-06-30 20:31:55 21375

原创 python nonzero()函数的用法

举个栗子说明一下nonzero()函数的用法：首先构建一个简单的矩阵：from numpy import *a = mat([[1,1,0],[1,1,0],[1,0,3]])print(a)输出结果如下图：print(a.nonzero())第一个array表示非零元素所在的行，第二个array表示非零元素所在的列，分别取对应位置的值组成非零元素的坐标print(le

2017-06-30 19:04:04 20048 1

原创解决Segmentor: Model not loaded!

装完pyltp测试了一下发现安装成功，但是在跑第一个分词程序时却报了如下错误：Segmentor: Model not loaded!打开cmd窗口，输入python，进入python编程界面，输入import pyltp回车，再一次确定pyltp安装是没有问题，后来想了想既然是Model not loaded!，是不是model版本不对啊，我第一次装的是ltp3.3.0，换成最新版3

2017-06-27 09:46:57 11778 12

转载 Python 解决：NameError: name 'reload' is not defined 问题

如果你的python版本是Python 2.X：import sysreload(sys)sys.setdefaultencoding("utf-8")如果你的python版本是python 3.3：import impimp.reload(sys)注意： 1. Python 3 与 Python 2 有很大的区别，其中Python 3 系统默认使用的就是ut

2017-06-26 21:59:43 4413

原创 Python Tkinter 简单登录界面

from tkinter import *class Reg (Frame): def __init__(self,master): frame = Frame(master) frame.pack() self.lab1 = Label(frame,text = "账户:") self.lab1.grid(row = 0

2017-06-18 10:25:04 8423 1

原创自然语言处理一：基于朴素贝叶斯的语种检测

本文来自是对七月在线寒小阳自然语言处理课程的总结。本文使用朴素贝叶斯完成一个语种检测的分类器，准确度经过简单的参数调优可以达到99.1%。机器学习的算法要取得好效果，离不开数据，咱们先拉点数据（twitter数据，包含English, French, German, Spanish, Italian 和 Dutch 6种语言）瞅瞅。# 读取数据in_f =

2017-06-16 11:09:16 2184

原创 windows下Python的Tkinter库的安装

检查有没有安装如上，没有安装TKinter点击如下链接下载安装包：http://wiki.python.org/moin/TkInterwindows下python3.2版本之后是自动安装tkinter的，python3.3的引入方式为：>>> import _tkinter>>> import tkinter>>> tkinter._tes

2017-06-07 19:16:10 179055 23

甲状腺疾病是常见的内分泌疾病的一种，主要是由于甲状腺功能分泌不正常引起。长期的分泌不足或过剩，都会对身体产生危害，需及早治疗。射频消融的原理是利用物理热能对结节进行的原位灭火治疗，人体对于灭活坏死的组织具有吸收排除的特性，可以在一定时间内使坏死的组织消失。射频消融的核心是温度的控制，电路设计为立体电阻抗反馈式自动控制，消融温度达70°C便自动中止电流，既保证病变组织坏死，又不会损伤正常细胞。同时，

2017-06-06 14:24:33 1396 2

原创 pickle的用法

import picklea_dict = {'da': 111, 2: [23, 1, 4], '23': {1: 2, 'd': 'dad'}}# 保存file = open('pickle_example.pickle', 'wb')pickle.dump(a_dict, file)file.close()# 读取file = open('pickle_example.p

2017-06-04 21:51:47 4082

原创 sklearn模型的保存与恢复

举例说明：模型的保存过程：from sklearn.externals import joblibfrom sklearn import svmimport os# os.chdir("workspace/model_save")X = [[0, 0], [1, 1]]y = [0, 1]clf = svm.SVC()clf.fit(X, y)joblib.dump(cl

2017-05-26 22:29:38 6970

原创免费数据集大全

免费数据集，分享给大家，希望能省下大家找数据的时间。https://zhuanlan.zhihu.com/p/25138563

2017-04-06 14:45:10 9114

转载机器学习简易入门（三） - 聚类

摘要：本文简单叙述了如何用聚类来通过投票记录分析美国参议员的实际政治倾向转载自：http://www.cnblogs.com/kylinlin/p/5299078.html本文内容来源：https://www.dataquest.io/mission/60/clustering-basics在前面的两篇文章中使用的线性回归和分类都属于有监督的机器学习（根

2017-04-04 15:46:16 899

转载机器学习简易入门（二） - 分类

机器学习简易入门（二） - 分类摘要：本文简单叙述了如何通过分类算法来评估银行发放贷款的模型转载自：http://www.cnblogs.com/kylinlin/p/5306358.html本文内容来源：https://www.dataquest.io/mission/57/logistic-regression在你向银行申请信用卡或者贷款时，银行会使用根据过往的

2017-04-04 14:52:50 510

转载机器学习简易入门（一） - 线性回归

摘要：本文简单叙述了如何根据标准普尔500指数使用线性回归来预测股票的走势本文内容来源：https://www.dataquest.io/mission/58/regression-basics标准普尔500（S&P 500）说明：http://www.investopedia.com/ask/answers/05/sp500calculation.asp转载自：http:

2017-04-04 13:37:04 1011

原创 svm中gamma的确定

from __future__ import print_functionfrom sklearn.learning_curve import validation_curvefrom sklearn.datasets import load_digitsfrom sklearn.svm import SVCimport matplotlib.pyplot as pltimport n

2017-03-17 15:32:01 8497

原创 knn算法中关于k的取值

from __future__ import print_functionfrom sklearn.datasets import load_irisfrom sklearn.cross_validation import cross_val_scoreimport matplotlib.pyplot as pltfrom sklearn.neighbors import KNeighbo

2017-03-17 15:25:15 19037 1

原创模型保存save

from __future__ import print_functionfrom sklearn import svmfrom sklearn import datasetsclf = svm.SVC()iris = datasets.load_iris()X, y = iris.data, iris.targetclf.fit(X, y)# method 1: pickle

2017-03-17 14:24:32 1110

原创 normalization数据标准化

from __future__ import print_functionfrom sklearn import preprocessingfrom sklearn.cross_validation import train_test_splitfrom sklearn.datasets.samples_generator import make_classificationfrom sk

2017-03-17 10:59:46 479

原创机器学习之多元线性回归demo

下图是数据格式：前两列是属性值x1，x2，第三列是标签值y代码如下from numpy import genfromtxtfrom sklearn import linear_model# -----------------------读取数据---------------------------dataPath = r"Delivery.csv"deliveryDa

2017-03-15 13:53:01 773

原创机器学习之简单线性回归demo

# -*- encoding=utf-8 -*-#简单现行回归：只有一个自变量 y=k*x+b 预测使 (y-y*)^2 最小import numpy as npdef fitSLR(x,y): n=len(x) dinominator = 0 numerator=0 for i in range(0,n): numerator += (x

2017-03-15 13:42:13 846

原创机器学习之支持向量机算法实例

此实例是利用svm算法预测乳腺癌肿瘤是良性还是恶性，数据格式如下图所示：第一列表示编号，2到10列表示数据属性，第11列表示肿瘤标签2表示良性4表示恶性。代码如下from sklearn import svmimport pandasfrom sklearn.cross_validation import train_test_splitfrom sklearn.met

2017-03-15 13:25:54 3167

原创 pandas数据索引变换

mport pandas as pdimport numpy as npfandango = pd.read_csv('fandango_score_comparison.csv')# -----------把FILM设置为index，drop=False表示FILM的值依然保持，也就是多添加了一列FILM-------------------fandango_films = fanda

2017-03-13 20:19:12 937

原创 pandas核心数据结构series详解

import pandas as pdfrom pandas import Seriesimport numpy as npfandango = pd.read_csv('fandango_score_comparison.csv')series_film = fandango['FILM']# print(series_film[0:5])series_rt = fandango[

2017-03-13 20:17:48 659

原创 pandas 自定义函数方法

# --------------------dropna(axis=1)去掉有缺失值的行------------------------------------------drop_na_columns = titanic_survival.dropna(axis=1)new_titanic_survival = titanic_survival.dropna(axis=0,subset=["

2017-03-13 11:40:49 3737

原创 pandas数据预处理与透视表

以下代码是基于python3.5.0编写的import pandas as pdimport numpy as nptitanic_survival = pd.read_csv("titanic_train.csv")# ---------------------------统计age列有多少值为空-------------------------age = titanic_su

2017-03-13 09:42:06 755

原创 pandas数值计算与排序

以下代码是基于python3.5.0编写的import pandasfood_info = pandas.read_csv("food_info.csv")# ---------------------特定列加减乘除-------------------------print(food_info["Iron_(mg)"])div_1000 = food_info["Iron_(m

2017-03-12 20:04:43 3604

原创 pandas数据样本行列选取

注：以下代码是基于python3.5.0编写的import pandasfood_info = pandas.read_csv("food_info.csv")# ------------------选取数据样本的第一行--------------------print(food_info.loc[0])#------------------选取数据样本的3到6行---------

2017-03-10 16:35:00 10697

原创 pandas数据读取与显示

import pandas# ---------------数据的读取------------------------food_info = pandas.read_csv("food_info.csv")print(type(food_info)) #返回，说明pandas是以数据流的格式读取print(food_info.dtypes)# --------

2017-03-10 11:14:48 3684 1

原创 NumPy详细API第五篇

注意：以下代码是基于python3.5.0编写的import numpy as np# ----------------------找最大值-------------------------data = np.sin(np.arange(20)).reshape(5,4)ind = data.argmax(axis=0) #按列找最大值的索引值

2017-03-09 20:56:26 543

原创 NumPy详细API第四篇

注意：以下代码是基于python3.5.0编写的import numpy as np# ---------------exp和sqrt--------------------B = np.arange(3)print(B) # [0 1 2]print(np.exp(B)) # [ 1. 2.71828183 7.3890

2017-03-09 20:54:09 990

原创 NumPy详细API第三篇

注意：以下代码是基于python3.5.0编写的import numpy as npa = np.arange(15).reshape(3, 5)print(a) # array([[ 0, 1, 2, 3, 4],[ 5, 6, 7, 8, 9],[10, 11, 12, 13, 14]])print(a.shape) #

2017-03-09 20:52:52 1533

原创 NumPy详细API第二篇

以下代码是基于python3.5.0import numpy# -----------------------判断数组中是否存在特定值------------------------------vector = numpy.array([5, 10, 15, 20])print(vector == 10) # 判断数组中有没有10，返回布尔值[False T

2017-03-09 20:50:53 741

原创 NumPy详细API第一篇

import numpy# 读取文件内容world_alcohol = numpy.genfromtxt("world_alcohol.txt", delimiter=",",dtype="float",skip_header=1)print(type(world_alcohol))print(world_alcohol)vector = numpy.array([1, 2, 3,

2017-03-09 20:48:09 2881 2

原创机器学习之决策树实例篇

1. python2. Python机器学习的库：scikit-learn 2.1：特性：简单高效的数据挖掘和机器学习分析对所有用户开放，根据不同需求高度可重用性基于Numpy, SciPy和matplotlib开源，商用级别：获得 BSD许可 2.2 覆盖问题领域：分类（classifica

2017-03-08 09:48:04 4263

原创机器学习之决策树理论篇

1. 什么是决策树/判定树（decision tree)? 判定树是一个类似于流程图的树结构：其中，每个内部结点表示在一个属性上的测试，每个分支代表一个属性输出，而每个树叶结点代表类或类分布。树的最顶层是根结点。2. 机器学习中分类方法中的一个重要算法3. 构造决策树的基本算法

2017-03-08 09:35:03 390

原创 AttributeError: '_csv.reader' object has no attribute 'next'

我在使用pyhon3.4运行以下代码时报错：AttributeError: '_csv.reader' object has no attribute 'next'解决方案如下图：再次运行就可以正确执行。

2017-03-08 08:42:40 2540

原创机器学习sklearn多元线性回归2

from __future__ import print_functionfrom sklearn import datasetsfrom sklearn.linear_model import LinearRegressionloaded_data = datasets.load_boston()data_X = loaded_data.datadata_y = loaded_dat

2017-03-07 15:31:00 669

原创机器学习sklearn多元线性回归

from __future__ import print_functionfrom sklearn import datasetsfrom sklearn.linear_model import LinearRegressionimport matplotlib.pyplot as pltloaded_data = datasets.load_boston()data_X

2017-03-07 15:13:10 4014

图像拼接matlab程序

最新世界地图中文版 shp矢量格式

空空如也