第十四章 机器学习库

1.机器学习的一般流程与Numpy安装

numpy库:用于高性能科学计算和数据分析,是常用的高级数据分析库的基础包。

pip3 install numpy

 

解决no module named 'numpy':

第一种方式在venv里面将numpy安装一遍。

第二种方式使用系统的python程序,获取python位置which python3,pycharm-file-default settings-project interpreter-setting-add-system interpreter-粘贴确定,

run-edit configurations-python interpreter-选择系统的解释器。

 

2.Numpy的数组与数据类型

import numpy as np

arr1 = np.array([2, 3, 4])    #列表经过numpy封装,效率远远高于python的列表

print(arr1)

print(arr1.dtype)

 

arr2 = np.array([1.2, 2.3, 3.4])

print(arr2)

print(arr2.dtype)

 

print(arr1 + arr2)    #实现列表累加

 

3.numpy数组和标量的计算

print(arr2 * 10)    #数组直接与标量相乘

 

data = [[1, 2, 3], [2, 3, 4]]

arr3 = np.array(data)    #将data转化为二位矩阵

print(arr3)

print(arr3.dtype)

 

print(np.zeros(10))    #定义一维数组,全都是0,长度10

print(np.zeros((3,5)))    #定义二维数组

print(np.ones((4,6)))    #定义二维数组,全都是1

print(np.empty((2, 3, 2)))    #定义多维空矩阵,打印出来实际上是有值得,因为矩阵完全设为空值,对于矩阵运算是不安全的,会填充随机的值

 

4.numpy数组的索引和切片

arr4 = np.arange(10)

print(arr4)

print(arr4[5:8])    #切片操作

arr4[5:8] = 10    #切片赋值

print(arr4)

arr_slice = arr4[5:8].copy()    #切片副本操作

arr_slice[:] = 15    #全部赋值为15

print(arr_slice)

print(arr4)

 

5.Pandas安装与Series结构

Pandas库:数据预处理和数据清洗。

pip3 install pandas

from pandas import Series,DataFrame

import pandas as pd

pandas自动或自定义进行数据对齐,灵活处理缺失数据,进行连接操作。

obj = Series([4, 5, 6, -7])    #用Series创建一维数组

print(obj)    #对numpy.array进行封装,自动添加索引,使用索引方便的访问到相应数据

print(obj.index)    #取出索引

print(obj.values)    #取出值

#字典当中的key不能重复,key进行哈希映射

#{'a':1, 'b':2, 'c':3}

#a-> aasd2345

#b-> asdegt35

#c-> dfgbuyt21

#新添加元素哈希相同,value会进行覆盖

 

转载于:https://www.cnblogs.com/wcsan/p/9607400.html