读取数据和简单的数据探索

xiaoxiao2021-02-28 65

import numpy as np

import matplotlib as mpl

import matplotlib.pyplot as plt

from sklearn import datasets（sklearn库，我们用datasets模块）

datasets模块包含了各种数据

datasets.load看到很多方法

dataset.loadiris（鸢尾花数据集）

iris = datasets.load_iris()

我们调用传给自己创建的变量

iris其实是sklearn自己设计的数据结构

整体可以理解为字典

iris.keys()

可以print(iris.DESCR)

还有很多

iris.data

就是一个numpy的矩阵

iris.data.shape

是150*4

这个target对应了150个数据每一个样本的鸢尾花类型

我们来直观的看一下这个数据

取出x的第0列，y的第一列

这个结果信息量很少，我们只看到了每一个点萼片长度x轴，萼片跨度y轴

我们希望不同颜色标识不同类别的鸢尾花

我们首先将iris数据集中target结果向量付给y

y = iris.target

我们一个类别一个类别绘制散点图，

plt.scatter(X[y==0,0]，X[y==0,1]，color=“red")

plt.scatter(X[y==1,0]，X[y==1,1]，color=“blue")

plt.scatter(X[y==2,0]，X[y==2,1]，color=“green")

plt.show()

太酷了！！！！！！！！！！！！

我们可以设置marker

plt.scatter(X[y==0,0]，X[y==0,1]，color=“red",marker="o")

plt.scatter(X[y==1,0]，X[y==1,1]，color=“blue" marker="+")

plt.scatter(X[y==2,0]，X[y==2,1]，color=“green" marker="x")

plt.show()

我们发现2,3类之间没有太大区分

因为我们整个数据有4个维度，我们只是选了2个维度

我们换两个

X=iris.data[:,2:]

在使用

plt.scatter(X[y==0,0]，X[y==0,1]，color=“red",marker="o")

plt.scatter(X[y==1,0]，X[y==1,1]，color=“blue" marker="+")

plt.scatter(X[y==2,0]，X[y==2,1]，color=“green" marker="x")

plt.show()

很多时候我们数据比较粗糙，可以稍微可视化看看长什么样，帮助我们更好掌握方向

转载请注明原文地址: https://www.6miu.com/read-2625946.html

技术

最新回复(0)