读取数据和简单的数据探索

xiaoxiao2021-02-28  62

import numpy as np

import matplotlib as mpl

import matplotlib.pyplot as plt

from sklearn import datasets(sklearn库,我们用datasets模块)

datasets模块包含了各种数据

datasets.load看到很多方法

dataset.loadiris(鸢尾花数据集)

iris = datasets.load_iris()

我们调用传给自己创建的变量

iris其实是sklearn自己设计的数据结构

整体可以理解为字典

iris.keys()

可以print(iris.DESCR)

还有很多

iris.data

就是一个numpy的矩阵

iris.data.shape

是150*4

这个target对应了150个数据每一个样本的鸢尾花类型

我们来直观的看一下这个数据

取出x的第0列,y的第一列

这个结果信息量很少,我们只看到了 每一个点萼片长度x轴,萼片跨度y轴

我们希望不同颜色标识不同类别的鸢尾花

我们首先将iris数据集中target结果向量付给y

y = iris.target

我们一个类别一个类别绘制散点图,

plt.scatter(X[y==0,0],X[y==0,1],color=“red")

plt.scatter(X[y==1,0],X[y==1,1],color=“blue")

plt.scatter(X[y==2,0],X[y==2,1],color=“green")

plt.show()

太酷了!!!!!!!!!!!!

我们可以设置marker

plt.scatter(X[y==0,0],X[y==0,1],color=“red",marker="o")

plt.scatter(X[y==1,0],X[y==1,1],color=“blue" marker="+")

plt.scatter(X[y==2,0],X[y==2,1],color=“green" marker="x")

plt.show()

我们发现2,3类之间没有太大区分

因为我们整个数据有4个维度,我们只是选了2个维度

我们换两个

X=iris.data[:,2:]

在使用

plt.scatter(X[y==0,0],X[y==0,1],color=“red",marker="o")

plt.scatter(X[y==1,0],X[y==1,1],color=“blue" marker="+")

plt.scatter(X[y==2,0],X[y==2,1],color=“green" marker="x")

plt.show()

很多时候我们数据比较粗糙,可以稍微可视化看看长什么样,帮助我们更好掌握方向

转载请注明原文地址: https://www.6miu.com/read-2625946.html

最新回复(0)