Loading...
墨滴

精益修身

2021/04/11  阅读:82  主题:嫩青

SEM学习笔记之三

SEM学习笔记之二

精益修身

3. Stata中的SEM

3.1 介绍

3.1.3 Intro 4: 重要的概念

SEM看起来很简单,这是具有欺骗性的。事实上,SEM背后的机制是精密、复杂,并且有时候是不稳定的。这种不稳定一方面来自统计理论方面,另一方面是来自于计算机实践。

专业的研究者需要了解这些issues.

3.1.3.1 sem和gsem在假设上的差别

sem适合标准线性SEMs,gsem适合广义线性SEMs。标准线性和广义线性在假定上是有差别的。

标准线性SEMs一般假定可测内生变量、可测外生变量、潜在内生变量、潜在外生变量是联合正态分布,均值 ,协方差矩阵是 。误差项属于潜在外生变量。

广义SEMs中,联合正态假定中不包含可测变量和类别潜在变量。广义SEMs将可测外生变量视为给定,并根据其值产生估计值。这似乎是微小的差异,但对于某些研究人员而言,它具有重要的意义。

例如,研究者希望将受试者的年龄和年龄平方纳入模型可测外生变量中。年龄和年龄平方变量根本无法联合正态分布。年龄和年龄平方,至少在理论上违反了标准线性SEM的假设。所以这样的模型必须使用gsem。

有趣的是,当sem和gsem都可以适合同一模型时,它们会为参数和标准误差产生相同的数值解。

所有这一切都意味着,尽管在推导标准线性SEM时,通常假设所有变量是联合正态,但联合正态并不是严格必须的。条件于可测外生变量的联合正态假设(较小)就足够了。即使是正态性假设也可以放宽至i.i.d.,甚至是i.i.d的假设都可以放宽。

即使如此,一些结构方程模型方面的统计学仍依靠完全的联合正态性假设。许多拟合优度测试都属于该类别。

gsem永远不需要完整的联合正态性假设。

总的来说,sem和gsem都可以视为M估计。

  • sem: 估计方法的选择

    sem提供四种估计方法:最大似然(ML;默认值),拟最大似然(QML),渐近免分布(Asymptotic distribution free, ADF)和带有缺失值的最大似然(MLMV)。

    严格来说,为了估计的一致性和他们的渐进正态性,研究者必须建立的假设,是由用来估计它们的方法所确定的(估计方法确定假设)。

      1. ML是默认方法。极大似然方程formally假定所有变量是联合正态的,包括可测变量。但是完全联合正态假定可以放松,替代的条件正态(条件于可测外生变量)在justify所有的报告估计值和统计量方面已经足够,除了对数似然值和对比饱和模型的 检验。

    放松误差项之外的潜变量不是正态分布的限制会有更多问题。在模拟中,除了X估计方差的标准误外,其他方面都获得了不错的结果。(模拟的情况是 ,非常不符合正态分布, 。)即使如此,这并没有保证。

      1. QML用ML估计模型的参数,但是在估计标准误的时候放松正态性假定。关于参数估计,对于ML所说的一切都适用于QML,因为这些估计值是由ML产生的。关于标准误,理论上我们预期是一致的,并且在模拟中实际观察到了。在 的测量模型中,我们甚至得到了非常好的(good) 估计方差的标准误。QML并没有真正解决潜变量非正态的问题,但是它确实做的更好。

    命令语句:sem, method(ml) vce(robust),或者,sem, vce(robust)

    如果你设定method(ml) vce(sbentler),或者只是vce(sbentler),Stata会汇报Satorra-Bentler修正(scaled)检验。如果观测数据是非正态的,标准的对比饱和模型检验统计量不再服从卡方分布。Satorra-Bentler修正卡方统计量用一个四阶矩的函数来调整标准的拟合优度统计量,以便它能有一个接近服从对应的卡方分布的均值(mean)。Stata还会汇报相应的稳健标准误,这是通过一个四阶矩的函数调整而得的。

      1. ADF不做联合正态的假定,甚至对称假定也没有,无论是对可测变量还是潜在变量。QML通过调整标准误差而不是点估计来处理非正态问题,而ADF会在非正态下生成合理的点估计和标准误差。

    对于许多研究人员而言,放松误差项的正态性假设是最为重要的,因此,有时ADF就是这样被描述的。实际上,ADF是放松了所有潜在量的正态性假设。

    同样,在阅读其他资料时,有时很难确定究竟放松了哪些正态性假设。有时ADF似乎可以唯一地放松可测变量的正态性假设,但事实并非如此。其他方法,甚至是ML,都可以解决该问题。 ADF是加权最小二乘法的一种形式,也是广义矩法(GMM)的估计量。在对 的测量模型的模拟中,ADF获得了非常出色的(excellent)结果,即使是 的方差的标准误。然而,需要清楚的是,在潜变量可以假定为正态的情况下,ADF是没有ML有效的。相反,如果潜变量(包括误差项)不是正态分布,ADF将比ML或者QML产生更有效的估计。 命令语句: sem, method(adf)

      1. MLMV的目标是从带有缺失值的观测值中获取最大可能多的信息。 在这方面,sem方法的ML,QML和ADF都做得不好。它们被称为列表删除器。如果变量x1在模型中的某个位置出现,并且如果x1在观察值10中包含有缺失值,观察值10就不再使用。无论x1是内生的还是外生的,即使x1出现在某些方程中而不在其他方程,也是如此。然而,方法MLMV根本不是删除器。观察值10将用于所有计算。

为了使方法MLMV能够看似神奇地运行,所有变量需要假定联合正态,并且我们要假定缺失值是随机缺失的(missing at random, MAR)。 MAR意味着缺失值要么是完全随机地散布在整个数据中,要么这个比其他更容易确实的值是可以被模型中的变量预测的。

方法MLMV要求所有变量服从联合正态性假设,无论是可测变量还是潜在变量。如果您观察到的变量不遵循联合正态分布,则最好使用ML,QML或ADF,且忽略具有缺失值的观察值。

命令语句:sem, method(mlmv)

  • gsem: 估计方法的选择

gsem只有两种估计方法:ML和QML。

    1. ML是gsem默认的方法。这与sem使用的ML相同,但使用不同的似然函数。 sem似然函数假定并包括所有变量的联合正态。 gsem似然函数仅假设条件正态。

由于似然函数不同,sem和gsem报告的似然值不可比的,除非没有可测的外生变量。

ML假定条件正态,因此连续的潜变量仍假定为正态分布。我们在sem案例中所说的放松潜变量正态性假设的论述,都适用于gsem。

命令语句:gsem 或者 gsem, method(ml)

    1. QML使用ML拟合模型,但在估计标准误时放松条件正态假设。 QML通过调整标准错误来处理非正态情况。

关于sem的QML的所有说法均适用于gsem的QML。

命令语句:gsem, vce(robust)

3.1.3.2 缺失值的处理

sem, sem with MLMV, gsem三者处理缺失值的方法是不同的。

    1. sem sem是一个listwise的删除器。
    1. sem with MLMV 根本不删除任何数据,照单全收。
    1. gsem gsem是一个equationwise的删除器(不是类别变量,如果类别变量,也是listwise)。简而言之,如果你不使用MLMV方法,则gsem通常可以比sem使用更多的数据观察结果。
3.1.3.3 变量类型
    1. 可测外生变量的反差

sem模式下:可以被估计,可以施加条件(constrained),使用 去估计或者限制。

gsem模式下:不能估计或者施加条件。

    1. 可测外生变量的协方差

sem模式下:可以被估计,可以施加条件。如果不使用ADF,如果计算协方差,意味着两者是联合正态的。使用 来估计和限制。

gsem模式下:不能被估计或者施加条件。

    1. 外生潜变量和外生可测变量的协方差

sem Builder模式下:两个变量间如果没有设置curved path,协方差限制为0。可以被施加条件。

sem 命令模式:默认是非零的,可以通过 来加以限定。

gsem Builder模式:假定是非0的。不能被估计,也不能被施加条件,因为这个协方差在GSEM中不属于可识别的参数。

gsem 命令模式:和Builder模式相同。

    1. 潜在外生变量的方差

sem Builder模式:可以被估计,可以施加条件。

sem 命令模式:可以被估计,可以用 选项施加条件。

gsem Builder模式:可以被估计,可以施加条件。但方差不能设定为0。

gsem 命令模式:和Builder模式相同。

    1. 潜在外生变量的协方差

sem Builder模式:除非画curved path连接,否则视为0。可以施加条件。

sem 命令模式:假设是非零的,可以被估计,可以用 选项施加条件(甚至是设定为0)。

gsem Builder模式:和sem builder相同。

gsem 命令模式:和sem command相同。

    1. 误差方差

sem Builder模式:可以被估计,可以施加条件。

sem 命令模式:可以被估计,可以用 选项施加条件。

gsem Builder模式:可以被估计,可以施加条件。但方差不能设定为0。

gsem 命令模式:和Builder模式相同。

    1. 误差协方差

sem Builder模式:假设为0,画curved path后可以被估计,可以施加条件。

sem 命令模式:假设为0,可以用 选项被估计或施加条件。

gsem Builder模式:和sem几乎相同。除了误差项是来自family Gaussian, link log, 或者link identity with censoring,此时不能被估计,也不能被施加条件。

gsem 命令模式:和Builder模式相同。

对于分类潜变量,我们不用 来设定,而是使用 的形式来设定。

3.1.3.4 限定参数
    1. 限制路径参数到特定值

限定参数可以使用Builder,也可以使用命令语句。这里只介绍命令语句,关于Builder限定的方法,请查阅手册。

如果你想令 ,你可以:

    1. 限制截距到特定值

一般我们限制截距的情境是,限制其为0,即所谓的“压缩截距”。

命令语句:

    1. 限定路径系数或者截距相等

路径系数相等的命令语句:

截距相等的命令语句:

3.1.3.5 识别1:实质约束
    1. 怎样数参数

不是所有的模型都可能被识别,主要有两个原因:实质约束和归一化约束。归一化约束由Stata负责。研究者需要理清实质约束。

如果你的模型里由 个可测变量,你的数据就会包含 个二阶矩。所以参数数量 不能超过 个。每个路径贡献一个约束。在gsem下,数参数的个数是非常困难的。一个简单的做法,就是让计算机跑一下你的模型,看是否能够被识别。

    1. 诊断并处理

如果计算机返回"initial values not feasible",你的目标就是去找一个合理的初始值,要么解决问题,要么出现无限迭代。

如果出现无限迭代,可以重新跑一下模型,并设定迭代次数( )。迭代次数要足够大。查看结果,寻找丢失的标准误。对于没有识别的参数,要么重新修正模型,要么施加限制条件。

3.1.3.6 识别2:归一化约束
    1. 计算机如何解决

计算机自动解决这一问题,通过

  • 假定潜在外生变量的均值是0
  • 假定潜在内生变量的截距是0
  • 设定从潜变量到第一个可测内生变量的路径系数为1
  • 设定从潜变量到第一个潜在内生变量的路径系数为1 上述3和4条规则,也叫做单位载荷规则。

当你在计算机里敲入:

sem(gsem)实际上执行的是:

第一项的路径系数被自动设为1了。

    1. 否决计算机的方案

如果你想让X的均值为100,你可以输入:

如果你想让第2个路径系数为1,你可以输入:

如果你想让第二个路径系数为1,X的方差为100,均值为100,你可以输入:

参考文献

StataCorp LLC, Sturctural Equation Modeling Reference Manual[M]. A Stata Press Publication: Texas 2019

精益修身

2021/04/11  阅读:82  主题:嫩青

作者介绍

精益修身