统计0827 第二次课讲义03

由天下分享时间：2024/6/8 15:28:52 加入收藏我要投稿点赞

外部数据的获取

--读取SPSS格式的文件，选择“文件”—“打开”—“数据”菜单项，然后选择文件路径和文件名打开。

--读取非SPSS格式的数据。

下面以常见的Excel格式的数据为例，介绍SPSS获取非SPSS格式数据的功能。

读取单个Excel 文件

首先打开Excel文件，了解一下这个文件的结构，重点需要了解这样几项内容：第一，该文件包含几个数据表，具体应当打开那个哪个表；

第二，如果不需要该表的所有数据，而只需读入一部分，这时需要了解要读入的数据的精

确位置，如单元格A2:F5（左上角单元格名称：右下角单元格名称）。

第三，此部分数据的第一行是否是变量名。如果不是从第一行（即包含变量名之行）开始

读取，那么需要将“读取变量名”前面方框中勾去掉。

在“范围”文本框中指定读取的数据的具体位置，如A2:F5；上方的复选框用于确定单元格的范围的第一行是否为变量名。指定完毕，单击“确定”。

练习：

1．读取全部数据的操作。

2．读取含变量名的部分数据的操作（如A1:D30）。 3．读取不含变量名的部分数据的操作（如A11:D30）。

读取多个Excel文件

如果要将两个或多个Sheet放在一个数据文件中，仍然可以像读取单个Sheet文件那样轻松方便。有两种方式可以实现这一要求：

第一种方式，打开两个SPSS窗口，分别读取两个sheet，然后用“合并个案”，对两个数据文件进行合并。

第二种方式，首先读取其中一个sheet并保存，然后直接从该文件中读取另一个sheet，实现SPSS和Excel的合并。 Tips:

1. 利用排序功能快速查找异常值、极端值

方法是在数据视图中选中列首的相应变量名，然后右击，根据需要选择快捷菜单下方的“升序排列”或“降序排列”菜单项，相应的最小值（或缺失值）、最大值就会成为第一条记录。这时，数据中有无异常值、极端值即可一目了然。

2. 冻结行或列

有时对右侧的若干列，或者上方的若干行进行冻结是非常有用的。操作方式有两种：第一种，“视图”—“工具栏”—“数据编辑器”，在变化后的页面中拖动下方或右方的分界线到指定位置。最多可将数据编辑器分为四部分。第二种，“窗口”—“拆分”菜单项，然后再将其中的分界线拖动到合适的位置。如果要取消冻结，则将分界线重新拖动至右侧或下侧即可，相应的分区就会消失。

第3章变量级别的数据管理

对数据文件的结构进行重新调整或转换，以便适合于相应的统计方法，这被称作数据管理。数据管理师统计分析工作的一个非常重要的环节，直接关系到数据分析的结果，是统计分析工作中不可缺少的一个关键步骤。

在SPSS中，数据文件的管理功能基本上都集中在“转换”和“数据”两个菜单中，其中“转换”主要实现变量级别的数据管理，主要进行变量数值的转换；数据的功能主要是实现文件级别的数据管理，如文件合并、拆分等。本章和下一章将分别介绍这两个菜单的相应功能。

3.1 变量的赋值

变量赋值，是指在原有数据的基础之上，根据用户的要求，使用SPSS算术表达式及函数，对所有记录或满足条件表达式的某些记录进行四则运算，并将结果存入一个用户指定的变量中。该指定变量可以是一个新变量，也可以是一个已经存在的变量。

3.1.1 常用基本概念

1. 算术表达式 2. 函数

根据函数功能和处理对象的不同，可以将SPSS函数分成8类，分别是算术函数、统计函数、分布函数、逻辑函数、字符串函数、日期时间函数、缺失值函数和其他函数。具体见附随讲义“SPSS函数指南”。

函数的具体书写形式为：函数名（参数）。这里的函数名是系统已经规定好的，括号中的参数有时是一个，可以是多个，如果有多个参数，各参数之间要用单字符逗号“,”隔开。

练习：绝对值、最大值和最小值函数的用法。

3.条件表达式与逻辑表达式

3.1.2 “计算变量”过程对话框

变量赋值主要是通过“转换”—“计算变量”菜单项来实现。

3.1.3 案例：年龄变量S3的分组

介绍CCSS数据可库背景。

例3.1 CCSS项目中的受访者年龄为18-64岁，分析时将其分为18-34,35-54,55-64三组，为了便于使用，年龄变量S3被重新赋值后将会保存为新变量TS3，其取值1、2、3分别代表上述3种情况。

3.2 已有变量值的分组合并 3.3 连续变量的离散化

3.4 变量的自动重新编码与数值移动 3.5转换菜单中的其他功能

3.5.1 指定数值的查找与计算

对个案内的值计数（count）的过程用于标识某个变量的取值是否出现某个数值，可以是单个数值，也可是指定区间，并且可以给出条件，从而不必对整个数据集进行操作。

“转换”——“对个案内的值计数”菜单项 “数字变量”（数值变量的误译）用于选入希望进行计数的数值型变量 “定义值”按钮，用于定义希望进行查找/计数的变量值范围。对于符合条件的个案取值为1，否则为0。

例3.5 生成新变量S3Old，用于标识出S3≥55的个案。

（然后再用“分析”-“描述统计”-“频率”菜单项，即可知道符合条件的个案的数量和百分比）

练习：

根据09 social work 数据库，生成新变量highscore，用于标识出最后总分≥70的个案。并计算出符合条件的学生人数和百分比。

根据09 social work 数据库，生成新变量Fhighscore，用于标识出女生中最后总分≥70的个案。

3.5.2 变量的编秩

这实际上就是一个排次序的问题。个案排秩的过程就是用来排次序的专用过程。它就是根据

某变量的数值大小来排出次序（秩次），然后将秩次结果存储到一个新变量中去的过程。

例3.6 根据S2性别分组计算S3年龄的秩次。 “转换”——“个案排序”菜单项

思考：将哪一个变量放入“变量”框中？将哪一个变量放入“排序标准”框中？ “结”按钮用于定义对相同值观测量的处理方式，默认为“均值”，即取平均秩次。不选分组是对总体排秩；选择分组是对组内排秩。

练习：

对09 social work 数据库中的“最后总分”变量分别进行总体排秩和按性别排秩。

第四章文件级别的数据管理

常用的简单过程：包括排序、拆分文件、个案筛选和个案加权，这几个过程并不复杂，但使用得极为频繁，是必须要掌握的内容。

4.1 几个常用过程

4.1.1 排序个案

SPSS中的“个案排序”就是将数据编辑窗口中的数据按照用户指定的某一个或多个变量的变量值的升序或降序重新排列。这里用户所指定的变量称为排序变量。 --对所有记录进行排秩；

--对记录进行分组排序，在每个组内，按照排序变量取值的大小次序对记录进行排序。

--对单变量排序，SPSS提供了一种简易操作方法，就是在数据表格的变量名处右击，弹出的快捷菜单的最后两项就是“升序排列”和“降序排列”。

--对多变量排序，则需要使用“数据”——“排序个案”对话框。

例 1：将CCSS数据首先按照月份升序排列，月份相同再按照ID进行升序排列。 2：将CCSS数据首先按照月份升序排列，月份相同再按照ID进行降序排列。提示：注意两变量选入的顺序。注意两变量的升序和降序

需要说明的几点：

1. 在多重排序中，指定排序变量名的次序是很关键的，先指定的变量在排序时必然优先于

后指定的变量。即记录首先按第1个变量进行排序，对于第1个变量的取值相同的记录考虑按第2个变量排序，以此类推。

2. 可以指定按某变量的升序排序的同时按另一个变量值降序排序，或相反。

3. 排序以后，原来记录数据的排列次序将被打乱。因此，在时间序列的数据中，如果数据

中没有存放记录标志的变量，如年份，则应注意保存原数据的排列顺序，以免造成数据混乱。

4.1.2 分割文件

由于CCSS项目数据是逐月采集的，在对历史数据进行分析的过程中，经常会遇到希望将某种分析结果进行逐月对比的情形。这类需求的解决方式：将数据按月份进行拆分，然后同时完成各月数据的分析。

“数据”——“拆分文件”对话框：

1. 右上部单选按钮组：用于设定如何拆分文件，默认为不拆分文件；第2项为按所选变量

拆分文件，各组的拆分结果会尽量放在一起输出，以便于相互比较；第3种方式则为按所选变量拆分文件后，各组分析结果单独放置。

2. 中部变量选择组：用于选入进行数据拆分的变量，可以选入多个。 3. 右下部单选按钮组该功能很少用到。

例，按月份拆分，并比较各组的S3年龄。

（对比选择右上部三个按钮时输出结果的不同）。注意：分割文件的设定一旦完成，就将在之后的分析中一直有效，而且会被存储在数据集中，直到再次进行设定为止。

4.1.3 选择个案

很多时候并不需要分析全部的数据，而是按要求分析其中的一部分，比如只分析2009年12月的数据，或者只对男性受访者的数据进行分析，这是就可以使用“数据”——“选择个案”对话框来完成。

如果我们想只对2009年12月的数据进行分析。则在“如果条件满足”的“如果”里面设定time=200912。

未选定的个案不包含在分析中，但保留在数据集中，使用该选项会在数据文件中生成名为filter_$的变量，对于选定个案，该变量的值为1，对于未选定个案，该变量的值为0,。而且相应的未被选中的个案ID号也会以反斜杠加以标记。

和分割文件操作相类似，筛选功能将在之后的分析中一直有效，而且会被存储在数据集中，直到再次改变选择条件为止。

4.1.4.加权个案 4.1.5 分类汇总

所谓分类汇总，就是按指定的分类变量对个案进行分组，并按分组对变量求指定的描述统计量，结果可以存入新数据文件中，也可以替换当前数据文件。例如，希望了解不同性别学生的平均分数情况，这时就需要首先对数据按不同性别分类，然后再分别求出各类学生的分数平均值，这个过程就是数据的分类汇总过程。

“数据”——“分类汇总”对话框：（1）“分组变量”列表框：用于选择分组变量，可以有多个。（2）“变量摘要”列表框：用于选择被汇总的变量，可以有多个。（3）“函数”按钮：定义汇总函数的对话框，此处共提供了五组函数。最常用的是第一组。SPSS默认对各类记录分别计算汇总变量的均值。（4）“变量名与标签”按钮：用于定义新产生的汇总变量的名称和标签。（5）“个案数”复选框：用于定义一个新变量以存储同组的个案数。（6）“保存”框组：设定汇总结果的具体输出方式。

实例分析例4.1：按time月份和s0城市对CCSS案例数据中的变量index1进行均数汇总，并将结果输出到新数据文件Sum_index1中。

本例的分组变量不止一个，此时第一个指定的分类变量为主分类变量，其他的依次为第2、3分类变量，且汇总数据文件的记录数等于各分类变量类别数的乘积。思考：本例的汇总数据文件中会有多少条记录？（12）

“数据”——“分类汇总”对话框 “分组变量”列表框：月份城市 “变量摘要”列表框：index1 选中“个案数” 保存：“创建只包含汇总变量的新数据集” 数据集名称：Sum_index1