import numpy as np
import matplotlib as mpl
import matplotlib.pyplot as plt
from sklearn import datasets(sklearn库,我们用datasets模块)
datasets模块包含了各种数据
datasets.load看到很多方法
dataset.loadiris(鸢尾花数据集)
iris = datasets.load_iris()
我们调用传给自己创建的变量
iris其实是sklearn自己设计的数据结构
整体可以理解为字典
iris.keys()
可以print(iris.DESCR)
还有很多
iris.data
就是一个numpy的矩阵
iris.data.shape
是150*4
这个target对应了150个数据每一个样本的鸢尾花类型
我们来直观的看一下这个数据
取出x的第0列,y的第一列
这个结果信息量很少,我们只看到了 每一个点萼片长度x轴,萼片跨度y轴
我们希望不同颜色标识不同类别的鸢尾花
我们首先将iris数据集中target结果向量付给y
y = iris.target
我们一个类别一个类别绘制散点图,
plt.scatter(X[y==0,0],X[y==0,1],color=“red")
plt.scatter(X[y==1,0],X[y==1,1],color=“blue")
plt.scatter(X[y==2,0],X[y==2,1],color=“green")
plt.show()
太酷了!!!!!!!!!!!!
我们可以设置marker
plt.scatter(X[y==0,0],X[y==0,1],color=“red",marker="o")
plt.scatter(X[y==1,0],X[y==1,1],color=“blue" marker="+")
plt.scatter(X[y==2,0],X[y==2,1],color=“green" marker="x")
plt.show()
我们发现2,3类之间没有太大区分
因为我们整个数据有4个维度,我们只是选了2个维度
我们换两个
X=iris.data[:,2:]
在使用
plt.scatter(X[y==0,0],X[y==0,1],color=“red",marker="o")
plt.scatter(X[y==1,0],X[y==1,1],color=“blue" marker="+")
plt.scatter(X[y==2,0],X[y==2,1],color=“green" marker="x")
plt.show()
很多时候我们数据比较粗糙,可以稍微可视化看看长什么样,帮助我们更好掌握方向
