首页 > 学生作文 > 读后感 > 读后感800字 >

Stata教程

由天下分享时间：2025/5/24 3:26:23 加入收藏我要投稿点赞

例如：当前计算机中正处于STATA状态下，并有二个配对变量x1和x2的数据，因此需要计算两个变量的差：x1-x2，则： gen x=x1-x2

修改数据：STATA 命令：

replace 变量名 = 表达式 [if 逻辑表达式] [in 范围]

如：变量x中所有值为999的数据是缺省资料，现改为STATA缺省值的记号，所有大于100的数据将改为2；x小于或等于100且大于5的所有数据改为1；x小于或等于5的所有数据为0。则：

replace x=. if x==999 replace x =0 if x<=5

replace x=1 if x>5 & x<=100 [2] replace x=2 if x>100

[1]、方括号[]中的子命令表示可以省略，但方括号中的子命令是处理一些特殊情况的。

[2]在逻辑表达式中：“等于”用==表示；“不等于”用~=表示；“或”用|表示；“并且”用&表示。

第二章描述性统计命令与输出结果说明

本节STATA 命令摘要

by 分组变量：]summarize 变量名1 变量名2 ? 变量名m[,detail] ci 变量名1 变量名2 ? 变量名m [, level(#) binomial poisson exposure(varname) by(分组变量) ] cii 样本量均数标准差 [, level(#) ] tab1 变量名 [,generate(变量名)] ? 资料特征描述( 均数，中位数，离散程度)

例：某地测定克山病患者与克山病健康人的血磷测定值如下表(数据摘自四川医学院主编的卫生统计学,1978出版，p21)：患者 2.6 3.24 3.73 3.73 4.32 4.73 5.18 5.58 5.78 6.40 6.53 健康人 1.67 1.98 1.98 2.33 2.34 2.50 3.60 3.73 4.14 4.17 4.57 4.82 5.78 并假定这些数据已以STATA格式存入ex2.dta文件中，其中变量x1为患者的血磷测定值数据，变量x2为健康人的血磷测定值数据。上述数据也可以用变量x表示血磷测定值，分组变量group=0表示患者组和group=1表示健康组(如：患者组中第一个数据为2.6，则x=2.6，group=0；又如：健康组中第三个数据为1.98，则x为1.98以及group为1)，并假定这些数据已以STATA格式存入ex2a.dta文件中。计算资料均数，标准差命令 summarize，以述资料为例： use ex2,clear summarize x1 x2 结果：

变量样本数均数标准差最小值最大值 Variable | Obs Mean Std. Dev. Min Max ---------+------------------------------------------------------------------- x1 | 11 4.710909 1.302977 2.6 6.53 x2 | 13 3.354615 1.304368 1.67 5.78 11

即：本例中急性克山病患者组的样本数为11，血磷测定值均数为4.711(mg%)，相应的标准差为1.303，最小值为2.6以及最大值为6.53；健康组的样本量为13，血磷测定值均数为3.3546，相应的标准差为1.3044，最小值为1.67以及最大值为5.78。

计算资料均数，标准差，中位数，低四分位数和高四分位数的命令summarize以及子命令detail，仍以述资料为例： use ex2,clear

summarize x1 x2,detail 结果：

x1 ------------------------------------------------------------- Percentiles Smallest( 最小值) 1% 2.6 2.6 5% 2.6 3.24 10% 3.24 3.73 Obs 11(样本数) 25% 3.73 (低四分位) 3.73 Sum of Wgt. 11 50% 4.73 (中位数) (最大值) Mean 4.710909(均数) Largest Std. Dev. 1.302977(标准差) 75% 5.78(高四分位) 5.58 90% 6.4 5.78 Variance 1.697749 (方差) 95% 6.53 6.4 Skewness -.0813446(偏度) 99% 6.53 6.53 Kurtosis 1.809951 (峰度) x2 ------------------------------------------------------------- ④ Percentiles Smallest 1% 1.67 1.67 5% 1.67 1.98 10% 1.98 1.98 Obs 13 25% ① 2.33 2.33 Sum of Wgt. 13 50% ② 3.6 Mean 3.354615 ⑤ ⑥ Largest Std. Dev. 1.304368 75% ③ 4.17 4.17 90% 4.82 4.57 ⑥Variance 1.701377 95% 5.78 4. 82 ⑦Skewness .2963943 99% 5.78 5.78 ⑧ Kurtosis 1.875392 由上述结果可知：summarize命令并使用子命令detail，不仅可以得到各变量资料的均数和⑥标准差，而且可以得到主要的非参数描述指标：①低四分位(lowerquartile)，②中位数(Median)以及③高四分位(upperquartile)。对于非正态资料，一般不应用均数±标准差进行描述，而应使用中位数以及(低四分位-高四分位，称interquartilerange,IQR)进行描述。如：若本资料不正态[1]，则x1的Median以及IQR为:4.73(3.73-5.78)以及x2的Median以及IQR为:3.6(2.33-4.17)。⑥为样本方差；⑦为偏度，偏度的绝对值越小，表明该数据的正态对称性越好；⑧峰度，峰度值越大表明该数据的正态峰越明显；④在该数据中最小的四个数据；⑤在该数据中最大的四个数据。若调用ex2a.dta文件，进行描述性统计，可用下列命令： use ex2a,clear

sort group ( 将资料以 group 变量为例从小到大排序)

by group:summarize x 结果： -> group= 0 x ------------------------------------------------------------- Percentiles Smallest 1% 2.6 2.6 5% 2.6 3.24 10% 3.24 3.73 Obs 11 25% 3.73 3.73 Sum of Wgt. 11 50% 4.73 Mean 4.710909 Largest Std. Dev. 1.302977 75% 5.78 5.58 90% 6.4 5.78 Variance 1.697749 95% 6.53 6.4 Skewness -.0813446 99% 6.53 6.53 Kurtosis 1.809951 -> group= 1 x ------------------------------------------------------------- Percentiles Smallest 1% 1.67 1.67 5% 1.67 1.98 10% 1.98 1.98 Obs 13 25% 2.33 2.33 Sum of Wgt. 13 50% 3.6 Mean 3.354615 Largest Std. Dev. 1.304368 75% 4.17 4.17 90% 4.82 4.57 Variance 1.701377 95% 5.78 4.82 Skewness .2963943 99% 5.78 5.78 Kurtosis 1.875392 上述结果与前面的结果对应相同。 ? 根据样本数据计算可信限 [2] 95% 可信限计算：正态数据：ci 变量名

0-1 数据：ci 变量名, binomial

poisson 分布数据： ci 变量名，poisson 90% 可信限计算( 其它可信限类推) 正态数据：ci 变量名, level(90)

0-1 数据：ci 变量名, level(90) binomial

poisson 分布数据： ci 变量名，level(90) poisson 以 ex2.dta 为例计算 x1,x2 的 95％可信限。

use ex2.dta,clear ① ② ③ ④ Variable | Obs Mean Std. Err. [95% Conf. Interval] ---------+---------------------------------------------------------------------- x1 | 11 4.710909 .3928624 3.835557 5.586261

x2 | 13 3.354615 .3617667 2.566393 4.142837 以上结果中：① 为样本数；② 为均数；③ 为标准误；④ 为 95% 的可信限，因此 x1 的95％可信限为[3.8356,5.5863]，x2 的 95％可信限为[2.5664,4.1428]。 ? 根据样本数，样本均数和标准差计算可信限 [3] 。

若数据服从正态分布，并已知样本均数和标准差以及样本数，则95％可信限计算为：

cii 样本数样本均数标准差[，level(#)] 例：已知样本数为 90 样本均数为 40 以及样本标准差为 12，则：计算该样本均数的 95% 可信限为

cii 90 40 12 Variable | Obs Mean Std. Err. [95% Conf. Interval] ----------+---------------------------------------------------------------------- | 90 40 1.264911 37.48665 42.51335 该样本均数的90% 可信限为 [37.48665, 42.51335]

cii 90 40 12,level(90) Variable | Obs Mean Std. Err. [90% Conf. Interval] ---------+--------------------------------------------------------------------------- | 90 40 1.264911 37.89752 42.10248 ? 计数资料中频数和比例 STATA 命令：

tab1 变量名[,g( 新变量名)

因为该命令主要适用描述计数资料( 即：属性资料)，当使用子命令 g( 新变量)，则产生属性指示变量。在回归分析中经常需要这些指示变量作为亚元变量进行分析。

例：50 只小鼠随机分配到 5 个不同饲料组，每组 10 只小鼠。在喂养一定时间后，测定鼠肝中的铁的含量(mg/g) 如表所示：试比较各组鼠肝中铁的含量是否有显著性差别( 摘自医学统计方法，金丕焕主编，p220)。用 x 表示鼠肝中铁的含量以及用 group=1，2，3，4，5 分别表示对应的 5 个组。 x: group: x: group: x: group: x: group: x: group: 2.23 1 5.59 2 4.5 3 1.35 4 1.4 5 1.14 1 0.96 2 3.92 3 1.06 4 1.51 5 2.63 1 6.96 2 10.33 3 0.74 4 2.49 5 1 1 1.23 2 8.23 3 0.96 4 1.74 5 1.35 1 1.61 2 2.07 3 1.16 4 1.59 5 2.01 1 2.94 2 4.9 3 2.08 4 1.36 5 1.64 1 1.96 2 6.84 3 0.69 4 3 5 1.13 1 3.68 2 6.42 3 0.68 4 4.81 5 1.01 1 1.54 2 3.72 3 0.84 4 5.21 5 1.70 1 2.59 2 6 3 1.34 4 5.12 5 tab1 group,g(a) -> tabulation of group ① ② ③ group| Freq. Percent Cum. ------------+----------------------------------- 1 | 10 20.00 20.00 2 | 10 20.00 40.00

14 3 | 10 20.00 60.00 4 | 10 20.00 80.00 5 | 10 20.00 100.00 ------------+----------------------------------- Total | 50 100.00 ① 为各属性资料的频数；② 为该属性占整个资料样本数的百分比；③ 为累计百分比。

本例中，总样本数为 50，共有 5 组，每组有 10 个样本点，各占总样本数的 10%。因为使用了子命令 g(a)，从而产生 5 个指示变量( 又可称亚元变量): a1，a2，a3，a4 和 a5。变量 a1 用于指示第 1 组的资料：即：当资料属于第 1 组的(group=1)，则 a1=1；其它组的资料(group11)，则 a1=0。变量 a2 用于指示第 2 组的资料，变量 a3，a4 和 a5 相应分别指示第 3，4，5 组的资料( 详细见下表)。

x: 2.23 1.14 2.63 1 1.35 2.01 1.64 1.13 1.01 1.70 group: 1 1 1 1 1 1 1 1 1 1 a1 1 1 1 1 1 1 1 1 1 1 a2 0 0 0 0 0 0 0 0 0 0 a3 0 0 0 0 0 0 0 0 0 0 a4 0 0 0 0 0 0 0 0 0 0 a5 0 0 0 0 0 0 0 0 0 0 x: 5.59 0.96 6.96 1.23 1.61 2.94 1.96 3.68 1.54 2.59 group: 2 2 2 2 2 2 2 2 2 2 a1 0 0 0 0 0 0 0 0 0 0 a2 1 1 1 1 1 1 1 1 1 1 a3 0 0 0 0 0 0 0 0 0 0 a4 0 0 0 0 0 0 0 0 0 0 a5 0 0 0 0 0 0 0 0 0 0 x: 4.5 3.92 10.33 8.23 2.07 4.9 6.84 6.42 3.72 6 a1 0 0 0 0 0 0 0 0 0 0 a2 0 0 0 0 0 0 0 0 0 0 a3 1 1 1 1 1 1 1 1 1 1 a4 0 0 0 0 0 0 0 0 0 0 a5 0 0 0 0 0 0 0 0 0 0 group: 3 3 3 3 3 3 3 3 3 3 x: 1.35 1.06 0.74 0.96 1.16 2.08 0.69 0.68 0.84 1.34 group: 4 4 4 4 4 4 4 4 4 4 a1 0 0 0 0 0 0 0 0 0 0 a2 0 0 0 0 0 0 0 0 0 0 a3 0 0 0 0 0 0 0 0 0 0 a4 1 1 1 1 1 1 1 1 1 1 a5 0 0 0 0 0 0 0 0 0 0 x: 1.4 1.51 2.49 1.74 1.59 1.36 3 4.81 5.21 5.12 group: 5 5 5 5 5 5 5 5 5 5 a1 0 0 0 0 0 0 0 0 0 0 a2 0 0 0 0 0 0 0 0 0 0 a3 0 0 0 0 0 0 0 0 0 0 a4 0 0 0 0 0 0 0 0 0 0

Stata教程

例如：当前计算机中正处于STATA状态下，并有二个配对变量x1和x2的数据，因此需要计算两个变量的差：x1-x2，则：genx=x1-x2修改数据：STATA命令：replace变量名=表达式[if逻辑表达式][in范围]如：变量x中所有值为999的数据是缺省资料，现改为STATA缺省值的记号，所有大于

推荐度：

点击下载文档文档为doc格式

Stata教程

Stata教程

相关推荐文档

精选图文

热门排序

推荐文章

热门标签

相关文章列表