从本节起正式进入计量经济学方法的学习. 计量经济学的研究目标是: 研究随机样本 Yold Y 的分布特征的部分性质 (比如样本 Y=[yX]old Y=[old y old X]中, 被解释变量列
yold y 与解释变量数据组 Xold X 之间的关系, 进而用解释变量来解释或预测被解释变量).计量经济学的应用流程是: (1) 构造对应统计量/估计量来识别这个性质; (2) 求解统计量的分布性质(sampling distribution)
(3) 通过数据的实现(Realization)得到估计值, 使用统计量的分布性质(sampling distribution)来对这个分布性质的估计值做出统计推断.一、计量模型、模型的识别1.1 Def 数据、变量记号惯例
(1) 数据结构: 常规数据类型为: 截面(cross-sectional)、时间序列(time series)、面板数据(panel data).(2) Random or Realization Convention:
a) 所有变量使用 x,y,zx,y,z, 参量一般使用 a,b,c,α,β,θa,b,c,lpha,eta, heta; b) 细体字母 x,θx, heta 根据上下文可表示随机变量或其实现、函数的哑变量;
c) 粗体字母 x,θold x,oldsymbol heta、带 (ω)(omega) 的 (如x(ω)x(omega)) 强调随机变量;d) 带 (w′)(w) 的 (如x(ω′)x(omega)
) 强调为给定某样本 ω′∈Ωomegain Omega 时的realization e) 固定常数、常参量一般为有角标的细体字母: c0,β0c_0,eta_0(3) Random Data and Dimensional Convention: 小写字母
x,xx,old x 表示标量或列向量, 大写字母表示矩阵 X,X.X ,old X.1.2 Def 数据结构与理解(1) 数据结构 设每一个个体的数据包含被解释变量和解释变量 [yt,xt1,
...,xtK][old y_t,old x_{t1},...,old x_{tK}]. 设收集 TT (或 nn) 个个体(individual)的数据, 则整个数据集称为样本(sample)
, TT (或 nn) 称为样本容量(sample size). 记所有 TT 个观测的被解释变量组为 yold{y}, 所有 TT 次观测的解释变量为矩阵 X∈RT×Kold Xinmathbb{R}^{T imes K}
, 记号分别如下: y:=[y1⋮yT]∈RT,X:=[x1′⋮xT′]:=[x11...x1K⋮⋱⋮xT1...xTK]∈RT×Kold y:=left[egin{array}{c}old y_1\ dots\old y_T end{array} ight]inmathbb{R}^{T},old X:=left[egin{array}{c} old x_1\ dots\old x_T end{array} ight]:=left[egin{array}{c}old x_{11}&...&old x_{1K}\ dots&ddots&dots\old x_{T1}&...&old x_{TK}\ end{array} ight]inmathbb{R}^{T imes K}
. 则样本为数据组 Y:=[y,X]old Y:=[old y,old X].(2) 样本随机性的由来: 在ex-ante, 即尚未进行观测(即ωomega 仍未确定)时, ∀t
orall t (或 ∀iorall i) 每个个体(individual)观测数据 [yt,xt1,...,xtK][old y_t,old x_{t1},...,old x_{tK}]
被认为是随机的, 这样做的目的原因如下:以抽样为例, 从有限总体(population)中独立地抽取个体 ωomega, 使得每个 ωomega 以均等概率被取到则样本中每个个体的数量特征在抽取前为随机变量 。
[yt,xt1,...,xtK](ω)[old y_t,old x_{t1},...,old x_{tK}](omega), 其概率分布服从总体中个体数量特征的频数分布, 这个过程称为随机抽样(Random Sample)
注: Recall that a random variable induces a probability measure/distribution on Borel sets, then the distribution is exactly the population summarized in a frequentists way, that is, states with same values are piled up together, 详论见bootstrap.。
考察一个思想试验, 即使样本包含了总体中所有个体 ∀ω∈Ωorall omegain Omega, 则全抽样不存在随机性但我们更关心背后数据生成过程中的产生的相关性、因果关系等规律如果在总体之外再创造/预测一个新的个体 。
ω′omega, 则 ω′omega 的数据特征也反映旧样本中已发现的规律因此我们一般认为总体是无穷的对于一般时间序列数据、测量有误差数据, 我们不可能抽取全状态空间 ΩOmega(不能穷尽等价于无穷). 。
此外这些数据的抽样不容易保证i.i.d.我们此时视随机样本 Y(ω)old Y(omega) 为一个"大个体" ωomega 的数量特征, 则该个体从无限状态空间总体 ΩOmega 中i.i.d.抽取. 则 。
Y(ω)old Y(omega) 服从的分布 FY∗F^*_Y 正是各个state ωomega 在 总体 ΩOmega 中的频数分布. 因此我们更广义的称 FY∗F^*_Y 为总体分布(population distribution)
, 在随机抽样的特殊情况下, 称公共分布 Fy∗F^*_y 为总体分布(3) 独立同分布数据的统计推断意义 考察随机抽样x:={xi}i=1n,xi∼i.i.d.Fx(x;θ)old x:={old x_i}_{i=1}^n,old x_isim^{i.i.d. }F_x(x; heta)。
, 则 Fx(x;θ)F_x(x; heta) 为(个体的公共)总体分布, 则整数据矩阵 Xold X 的联合分布为 FX(x1,...xn;θ)=∏i=1nF(xi;θ)F_X(x_1,...x_n; heta)=prod_{i=1}^nF(x_i; heta)
(样本的总体分布).注意: 包括时间序列数据在内, 我们经常需要各种假设以使抽样接近或满足独立同分布性, 因为独立同分布性使得 X(ω′)={xi(ωi)}i=1nX(omega)={x_i(omega_i)}_{i=1}^n
即从样本总体 FX(x1,...xn;θ)F_X(x_1,...x_n; heta) 中的 11 次抽样等价于从以 Fx(x;θ)F_x(x; heta) 为总体分布的模型中抽样了 nn 次. 当sample size
n→∞n oinfty 我们便可使用渐进性质进行统计推断.1.3 Def 含参、非参计量模型(1) Data Generating Process Y:=[y,X]Y:= [old y,old X]
的真实总体分布为 FY∗F_{Y}^*, 称为 Yold Y 的Data Generating Process(DGP).(2) 计量模型 设一族分布, 由一组参数{βi}i∈I{eta_i}_{iin I}
和一些假设所规定, 记作 M:={FY(βi)|βi∈{βi}i∈I,s.t.FY(β′)∼D}M:={F_{Y}(eta_i)| {eta_iin{eta_i}_{iin I}},s.t. F_{ Y}(eta)sim D}
. 若 FY∗F_{Y}^* 满足 ∃β∈{βi}i∈I,FY∗=FY(βi)exists etain {eta_i}_{iin I}, F_{Y}^*=F_{Y}(eta_i)
, 即 FY∗∈MF_{Y}^*in M, 则称 MM 为数据 Yold{Y} 的计量模型(econometric model).当 βieta_i 为有限维时, 称 MM 为 Y
Y 的含参计量模型(parametric econometric model); 当 βieta_i 为无限维时, 称 MM 为 YY 的非参计量模型(non-parametric econometric model)
. (上述 MM 中参数空间 II 和分布条件 FY(⋅)∼DF_Y(cdot)sim D 是已知的, 所以后面所谓的假设检验是针对参数 βeta 的).此外, θ heta 中被研究部分为
parameter of interest, 其余参数称为 nuisance parameters. 1.4 Def 模型可识别性 Model Identifiability在给定计量模型 M:={FY
(βi)|βi∈{βi}i∈I,s.t.FY(β′)∼D}M:={F_{Y}(eta_i)| {eta_iin{eta_i}_{iin I}},s.t. F_{ Y}(eta)sim D}
, 如果存在且仅存在一个 β0∈βi,i∈I,s.t.FY(β′)∼Deta_0in{eta_i}, {iin I},s.t. F_{Y}(eta)sim D (即 MM 为单点集), 则称该模型为
可点识别(point identifiable), 否则称为不可点识别(point unidentifiable). 而限制该族分布的分布性质 DD 也称为识别条件(Identification Condition)
.理解: 即对于同一个观测值分布, 不存在observational equivalence. 比如对于有内生性 E[ϵtxt]≠0E[oldsymbolepsilon_told x_t] eq 0
的数据来说, 使用OLS是无法确定唯一的真实参数的(即无法满足识别条件), 也就更无从讨论估计量的意义了, 因为计量分析在模型层面就无法进行. 1.5 Def 计量模型分类: Structural & Reduced
以OLS为例: a) Reduced Form: Solved for Endogenous Variables yt=xt′βi+ϵtold y_t=old x_teta_i+oldsymbol epsilon_t
, 满足识别条件 E[ϵtxt]=0E[oldsymbol epsilon_told x_t]=0 且 xtxt′old x_told x_t 可逆; b) Structural Form: Maintained in Theoretical Given Form
∃βi∈βi∗i∈I,F∗Y(βi)exists eta_iin {eta_i}*{iin I} , F*{Y}(eta_i) 满足分布性质(识别条件) D:∀t∈T,E[xt(yt−
xt′βi)]=0D : orall tin T,E[old x_t(old y_t-old {x}_teta_i)]=0; ∀t∈Torall tin T, 随机矩阵 xt
xt′old x_told x_t 的取值恒为可逆矩阵.二、统计推断与统计量对于不同模型的识别方法、对应统计量的讨论, 是我们后面章节的主要内容. 所以接下来我们率先简单讨论讨论得到统计量之后的统计推断基本概念.
2.1 Def 统计推断的逻辑统计推断(Statistical Inference)的目的: 执果索因. 给定计量模型(假设总体满足某 θ heta 参数化分布), 使用随机数据 Yold Y
, 通过某种识别方法对参数 θ heta 的性质构建统计量(Statistics)told t. 通过随机样本的实现(realization)Y(ω′)old{Y}(omega)
, 计算该统计量的实现t(ω′)old t(omega). 再通过估计(Estimation)、假设检验(Hypothesis Test)、置信区间(Confidence Interval)
等手段来估计总体分布的真实参数的性质.2.2 Def 统计量、Sampling Distribution设 X:={xi}i=1n∼FX(x1,...,xn;θ)X:={ x_i}^n_{i=1}sim F_X(x_1,...,x_n; heta)
. 设变换(transformation)T:Rn×k→RmT:mathbb{R}^{n imes k} omathbb{R}^m. 则对 XX 进行 TT 变换后的新随机向量
T(X)(ω):Ω→RmT(X)(omega):Omega omathbb{R}^m 称为总体分布 FXF_X 的统计量(Statistics). 称统计量服从的分布 T(X)∼G(X
,FX(θ))T(X)sim G(X,F_X( heta)) 为Sampling Distribution.2.3 Def 充分统计量将统计量扩充进样本后的联合分布记为: [x1,...xn,T(
X)]∼FX,T(θ)[old x_1,...old x_n,T(old X)]sim F_{X,T}( heta). 则以统计量随机变量为条件的数据矩阵条件分布为 FX|T(
x1,...,xn|t;θ)F_{X|T}(x_1,...,x_n|t; heta). 当 FX|T(x1,...,xn|t)F_{X|T}(x_1,...,x_n|t) 与总体参数
θ heta 无关, 则称 T(X)T(old X) 为 θ heta 的充分统计量(sufficient statistics).注意: 假设 t∈R1tinmathbb{R}^1
, 对于上述条件分布, 对于仅有两种可能情况: (此处 t′,Xt,X 均为哑变量) 当t′
, 显然与 θ heta 无关;当T(X)">t′>T(X)t>T(X)时,有FX,T(x1,...,xn,t′)=FX,T(x1,...,xn,T(X))F_{X,T}(x_1,...,x_n,t)= F_{X,T}(x_1,...,x_n,T(X))
. 则统计量充分性等价于仅要求函数 FX|T(X;T(X))F_{X|T}(X;T(X)) 与 θ heta 无关即可. 2.4 Thm 统计量充分性分解定理 Factorization Theorem
对于连续、离散随机变量的pdf/pmf 为f_X. T(x1,...,xn)T( x_1,...,x_n) 为 θ heta 的充分统计量 ⟺
∃h(x),g(T(x);θ),s.t.fX(x1,...,xn)=h(x)g(T(x);θ)Longleftrightarrowexists h(x),g(T(x); heta),s.t. oxed{f_X(x_1,...,x_n)=h(x)g(T(x); heta)}
.证: (⇒Rightarrow) 设 T(X)T(old X) 为 θ heta 的充分统计量. 取
g(T(x);θ):=fT(T(x);θ)g(T(x); heta):=f_T(T(x); heta) 即 TT 的边缘分布函数在 T(x)T(x) 赋值.
由于 fX,T(x,T(x);θ)=fX(x;θ)oxed{f_{X,T}(x,T(x); heta)=f_X(x; heta)}, 则有 fX(x;θ)g(T(x);θ)=fX,T
(x,T(x);θ)fT(T(x);θ)=fX|T(x;T(x))rac{f_X(x; heta)}{g(T(x); heta)}=rac{f_{X,T}(x,T(x); heta)}{f_T(T(x); heta)}=f_{X|T}(x;T(x))
. 由 T(X) 为 θ heta 的充分统计量, 即令 h(x):=fX|T(x;T(x))h(x):=f_{X|T}(x;T(x)) 与 θ heta 无关, 则显然
fX=fX,T=fT⋅fX|T=g(T(x);θ)⋅h(x)f_{X}=f_{X,T}=f_Tcdot f_{X|T}=g(T(x); heta)cdot h(x).(⇐Leftarrow) 设统计量
T(X)T(X) 满足: fX(x;θ)=h(x)g(T(x);θ)f_X(x; heta)=h(x)g(T(x); heta). 利用前述相同技巧 fX,T(x,T(x);θ)=
fX(x;θ),fT(T(x);θ)fX|T(x,T(x);θ)=fX(x;θ)=h(x)g(T(x);θ)oxed{f_{X,T}(x,T(x); heta)=f_X(x; heta)},f_T(T(x); heta)f_{X|T}(x,T(x); heta)=f_X(x; heta)=h(x)g(T(x); heta)
即 fX|T(x,T(x);θ)=h(x)g(T(x);θ)fT(T(x);θ)f_{X|T}(x,T(x); heta)=rac{h(x)g(T(x); heta)}{f_T(T(x); heta)}
. 设法消去右式的 θ heta, 即从 gg 和 fTf_T 中提取出 θ heta 考察 TT 边缘分布的由来: fT(T(x);θ)=∫fX,T(y,T(x);θ)d
y=∫y∈T−1(T(x))fX,T(y,T(x);θ)dy+∫y∉T−1(T(x))fX,T(y,T(x);θ)dy=∫y∈T−1(T(x))fX,T(y,T(x);θ)dy+0=∫y∈T−1(T(x
))fX(y;θ)dy=∫y∈T−1(T(x))g(T(y);θ)h(y)dy=∫y∈T−1(T(x))g(T(x);θ)h(y)dy=g(T(x);θ)∫y∈T−1(T(x))h(y)dyegin{aligned}f_T(T(x); heta)&=int f_{X,T}(y,T(x); heta)dy=int_{yin T^{-1}(T(x))} f_{X,T}(y,T(x); heta)dy+int_{y otin T^{-1}(T(x))} f_{X,T}(y,T(x); heta)dy\&=int_{yin T^{-1}(T(x))} f_{X,T}(y,T(x); heta)dy+0=int_{yin T^{-1}(T(x))} f_{X}(y; heta)dy\&=int_{yin T^{-1}(T(x))} g(T(y); heta)h(y)dy=int_{yin T^{-1}(T(x))} g(T(x); heta)h(y)dy=g(T(x); heta)int_{yin T^{-1}(T(x))} h(y)dyend{aligned}
代回之后有 fX|T(x;T(x))=h(x)g(T(x);θ)fT(T(x);θ)=h(x)∫y∈T−1(T(x))h(y)dyf_{X|T}(x;T(x))=rac{h(x)g(T(x); heta)}{f_T(T(x); heta)}=rac{h(x)}{ int_{yin T^{-1}(T(x))}h(y)dy}
, 显然与 θ heta 无关,即 T(X)T(X) 为充分统计量. 2.5 Example 利用分解定理判断充分性(1) 设总体分布为 Bernoulli(p) ext{Bernoulli}(p)
. 则Sample Mean X¯noverline{X}_n 为 pp 的充分统计量: fX(x;p)=∏i=1npxi(1−p)1−xi=pnX¯n(1−p)n(1−X¯n)f_X(x;p)=prod_{i=1}^np^{x_i}(1-p)^{1-x_i}=p^{nar{X}_n}(1-p)^{n(1-ar{X}_n)}
则令 T(x):=X¯n,g(T(x);p):=pnX¯n(1−p)n(1−X¯n)T(x):=overline{X}_n,g(T(x);p):=p^{nar{X}_n}(1-p)^{n(1-ar{X}_n)}
, 显然 h(x)≡1h(x)equiv 1.(2) 设正态总体分布 N(μ,σ2)N(mu,sigma^2). 设 σ2sigma^2 为已知常数,在此条件下 X¯noverline{X}_n
为 μmu 的充分统计量: fX(x;θ)=1(2πσ2)n∏i=1ne−12σ2(xi−μ)2=1(2πσ2)ne−12σ2∑i=1n(xi−μ)2=1(2πσ2)ne−12σ2∑i=1n
xi2e−12σ2(nμ2−2μnX¯n)f_X(x; heta)=rac{1}{(sqrt{2pisigma^2})^n}prod_{i=1}^ne^{rac{-1}{2sigma^2}(x_i-mu)^2}=rac{1}{(sqrt{2pisigma^2})^n}e^{rac{-1}{2sigma^2}sum_{i=1}^n(x_i-mu)^2}=rac{1}{(sqrt{2pisigma^2})^n}e^{rac{-1}{2sigma^2}sum_{i=1}^nx_i^2}e^{rac{-1}{2sigma^2}(nmu^2-2mu nar{X}_n)}
记 h(x):=1(2πσ2)ne−12σ2∑i=1nxi2,g(X¯n;μ)e−12σ2(nμ2−2μnX¯n)h(x):=rac{1}{(sqrt{2pisigma^2})^n}e^{rac{-1}{2sigma^2}sum_{i=1}^nx_i^2},g(overline{X}_n;mu)e^{rac{-1}{2sigma^2}(nmu^2-2mu nar{X}_n)}
. 此外,显然统计量向量 [X¯n,ΣiXi2][overline{X}_n,Sigma_iX_i^2] 为参数 [μ,σ2][mu,sigma^2] 的充分统计量: 令 h(x)≡1h(x)equiv 1
即可.
扫一扫关注我们