SPSS系列文章是本人根据张文彤的《SPSS20.0统计分析基础教程第2版》学习SPSS中学习笔记,仅作参考和学习。
在SPSS中建立数据文件大致有两种情况:
一种是非电子化的原始数据资料,需要直接将调查问卷中的数据录入SPSS软件,建立数据文件;另一种是已经被录入为其他数据格式的资料,需要将其内容直接读入SPSS中。 针对这两种情况,我们一起来研究下,如何将数据录入到SPSS中,以及如何将其他格式的数据读入SPSS中。1.统计软件中数据的录入格式
统计软件中数据的录入格式和大家平时记录数据用的格式不太相同,SPSS所使用的数据格式也需要遵守相应的格式要求,其基本原则如下:
不同个案(Case)的数据不能在同一条记录中出现,即同一个案的数据应当独占一行(一个个案占一行);每一个测量指标/影响因素只能占据一列的位置,即同一个指标的测量数值都应当录入到同一个变量中去(一个变量占一列)。但有时分析方法会对数据有特别的要求,此时可能会违反“一个个案占一行,一个变量占一列”的原则,这种情况在配对数据中和重复测量数据中最多见。这是因为根据分析模型的要求,需要将同一个观察对象某个观察指标的不同次测量看成是不同的指标,因此被录入成了不同的变量,这是允许的。但对于统计的初学者而言,最好能够严格遵守以上规则,而且无论表现格式怎样,最终的数据集都应当能够包含原始数据的所有信息。
2.变量属性
任何一个变量显然都应当有变量名与之对应,但为了进一步满足统计分析的需求,除变量名外,在统计软件中还常常对每一个变量进一步定义许多附加的变量属性,如变量类型(Type)、变量宽度(Width)、小数位(Decimal)等。
如图,在SPSS的数据管理窗口的变量视图中,可以看出SPSS为每一个变量指定11种变量属性。
变量的存储类型
SPSS中的变量有3种基本类型,分别是数值型、字符串和日期型。根据不同的显示方式,数值型又被分为了5种或者6种(因版本而异),所以SPSS中的变量类型共有8种(9种)。在变量视图中选择“类型”单元格时,可以定义数据类型。如下图所示:
如图所示:左侧为具体的存储类型,右侧则用于进一步定义变量宽度、小数位数等。
(1)数值型(Numeric):在以上3大类变量类型中,数值是SPSS是最常用的变量类型。数值型的数据是由0-9的阿拉伯数字和其他特殊符号,如美元符号、逗号或者圆点组成的。数值型数据根据内容和显示方式的不同,又可分为标准数值型(Numeric)、每3位用逗号分隔的逗号数值型(Comma)、每3位用圆点分隔的圆点数值型(Dot)、科学计数型(Scientific Notation)、显示时带美元符号的美元数值型(Dollar)、用户自定义型(Custom Currency)等6种不同的便是方法。
(2)字符型( String):字符型也是 SPSS 较常用的数据类型,字符型数据 的默认显示宽度为 8个字符位,它区分大小写字母,并且不能进行数学运算。 字符型数据在SPSS的数据处理过程 (如在计算生成新变量时 )中是用一对引号引起来的。 需要注意的是,在输入数据 时不应输入引 号,否则,双引号将会作为字符型数据的一部分。
(3)同期型( Date):这种类型的数据是用来表示日期或时间的。 H期型数据的显示格式有很多,SPSS在对话框右侧会以列表框的方式列出各种显示格式以供用户选择。 如果此处选择的 是mm/dd/yy或类似的两位数年份记录方式,则需要在系统选项的“数据”选项卡中确定具体的世纪范围,目前系统默认为1941-2040年区间。
事实上,SPSS中的日期型变盘存储的是该时间与1582年JO月14日零点相差的秒数,如 1582年10月15日存储的就是 60×60×24=86 400,将变量类型变换为数值型就可以看到。但 是这里只能存储正数,即1582年JO月14日及更早的时间在SPSS中是无效的。 日期型数据主 要在时间序列分析中比较有用,在较为简单的分析问题中完全可以用普通数值型数据 来代替。
变量的测量尺度如果只使用变量类型,很多时候并不能准确地说明变量的含义和属性。比如:变量S2“性别” :用l代表男,2代表女。 在这里1和2只是一个符号,没有任何数字意 义。 2并不比1大,1也并不比2小。
上述 S2变量的存储类型是数值型,但数值的具体含义不同,所携带的信息量不同,适用的统计方法也就不同。如果只以存储类型来说明这个变盘的属性,就不能反映上 述区别。 为此,就有必要给变量增加测量尺度 这一属性。
在统计学中,按照对事物描述的精确程度,将所采用的测量尺度从低到高分为4个层次:定类尺度、定序尺度、定距尺度和定比尺度。 在这 4种测量尺度之间,按照信息量的高 低,可将高层 次测量尺度的测量结果转换为低层次测量尺度的测量结果,但 这样会损失一部分信息,但不能将低层次的测量尺度转换为高层次测量尺度的结果, 这样可能会引人错误的信息。
在SPSS中使用度量标准( Measure)属性对变量的测量尺度进行定义,其中定类尺度变量用“名义( N)”来表示。 能使用的定类尺度的数据可以是数值型变量,也可以是字符型变量。使用定类变量对事物进行分类时,必须符合穷尽和互斥的原则。 穷尽的原则就是指“ 每个个体都必须能归为一个类别”,互斥的原则 是指“每个个体都只能归为一个类别” 。
定序尺度变量用 “序号(0)”来表示。 定序变量同定 类变量一样,其数据可以是数值型变量,也可以 是字符型变量。对于定序变量除了可以计算频率之外,还可以计算累计频率。 如足球喜欢程度这一变量的取值有:1 一非常喜欢,2一喜欢,3一无 所谓,4一不喜欢,5一非常不喜欢,这是一个定序尺度的变量,因而可以计算累计频数和累计频 率。如对于“足球喜欢程度”,不仅可以计算喜欢的人数和比例,还可以计算喜欢及非常喜欢的 累计人数和比例。
定距尺度( Interval M创surement)是对事物类别或次序之间间距的测度,定比尺度( Scale Measurement)是能够测算两个测度值之间比值的一种计量尺度,它的测量结果同定距变量一样也表现为数值,如职工月收入、企业销售额等。
SPSS中默认的变量测量尺度就是定比尺度。但由于定距和定比测量尺度在绝大多数统计分析中没有本质上的差别,在SPSS中就将其合并为一类,统称为“ 度量( S)”
变量名与变量值标签变量名标签: 对变量名的含义进行进一步解释说明,该标签会在结果中输出以方便阅读,增强变量名的可视性和l统计分析结果的可读性。
值( Values)属性: 用于定义变量值标签(对变量;取值含义的解释说明信息,例如1 , 对于性别数据,假设用1表示男,用2表示女)
缺失值
缺失(Missing)属性用于定义变量缺失值。SPSS中缺失值有用户自定义缺失值和系统缺失值两大类。 对于数值型变量的数据,系统缺失值用 一个国点“ . ”表示,而字符型变量默认就是空字符串。另外一类缺失值是用户自定义缺失值。
角色当打开其中一个对话框时,满足角色要求的变量将自 动显示在目标列表中。可用角色包括以下几个。
(1)输入:变量将用做输入(例如,预测变量、自变量)。
(2)目标 :变量将用做输出或目标 (例如,因变量)。 (3)两者:变量将同时用做输入和输出。 (4)无:变量没有 角色分配(将不纳人分析)。
(5)分区:变量用于将数据划分为单独的训练、检验和验证样本。
(6) 拆分:该项的存在主要是为了能够和Clementine(即现在的IBM SPSS Modeler)相互兼容。具有此角色的变量不会在SPSS中自动成为拆分文件变量。
在默认情况下,SPSS 将为所有 变量分配输入角色,需要指出的是,角色分配 只影响支持角色 分配 的对话框。
3.数据的直接录入在SPSS中,新建一个数据文件非常容易。只要打开SPSS ,系统就巳经生成了一个空数据文件,用户只要按自己的需要在其中定义变盘、输入数据,然后保存即可。
界面 开放题和简单单选题的录入(1)在SPSS中定义变量
变量 ID 是被访者的记录号,它的测量尺度应该是定类尺度。但需要指出的是,因为变 量 ID 只是方便检查和核对问卷,不参与后边的数据分析工作, 所以,在要求不严格的情况下,此处的变量类型可采用默认形式不进行修改。
(2)开放题的录入
(3)单选题的录入
(4)设置多选题变量集
在SPSS中选择“分析 ”→“多重响应” →“定义变量集”菜单项,打〕l:“定义多重响应集” 对话框,如下图所示:
4.外部数据的获取
对于 SPSS 格式的数据.只要选择 文件 → 打开 → 数据 菜单项,然后选择文件路径和 文件名打开即可。 如果数据不是 SPSS 格式的,也可以直接读入SPSS,用 SPSS 进行分析。 SPSS可以读入许多非 SPSS 默认类型的数据文件,方式主要有3 种,包括直接打开、利用文本向导读入文本数据,以及利用数据库 ODBC 接口读取数据。
SPSS可以直接打开的数据类型 S附S Statistics ( * . sav) SPSS各版本的数据文件SPSS/PC + ( * . sys) SPSS/PC +版本的数据文件
SPSS/PC + ( * . sys) SPSS/PC +版本的数据文件
便携( * por) Excel SPSS便携格式的数据文件
Excel ( *.xls,*. xlsx, *. xlsm) Excel各版本的数据文件
Lotus( *. w * ) Lotus各版本的数据文件
SYLK( *. slk) 以SYLK(符号链按)格式保存的数据文件
dBASE( *. dbf) dBASE系列数据文件(从dBASEH~N)
SAS( *. sas7bdat, *. sd7,…) SAS各版本的数据文件
Stata( *. dat) Stata 4~8版的数据文件
文本格式(*.txt,*.dat) 纯文本格式的数据文件
读取表格数据