相反,通过在概率框架内注册调查并从抽样框架中进行选择,可以控制所选样本与真实总体之间的差异的数量级。因此,对于就业调查样本而言,根据抽取样本时进行的评估,从为整个人口选择的样本推断出的法国失业人数(领取失业救济金的个人)与(如果可以从抽样框架中获得)“真实”失业人数之间的相对差距约为 0.1%(参见“ 家庭调查主样本和 INSEE 就业调查样本的更新 ”,第 150 页)。
在抽样调查中,估计值的计算基本上是基于 美国海外华人数据 加权系统(估计过程另见图2 )。此阶段的原理包括为每个抽样个体分配一个相关的外推系数,称为调查权重,该系数将他或她提供的答案的值相乘。所有估计值的表达式中都涉及权重。根据理论,权重是选择概率的倒数,它被解释为抽样个体所代表的种群中的个体数量。
权重最初取决于所选择的采样方法。通常情况下,所有抽样个体的权重都是相同的,但有时 INSEE 会选择过度代表某些类别的策略,即给予某些个体比其他个体更多的机会,最终导致使用差异化权重。
权重决定估计的质量,特别是其偏差和抽样方差。在我们自己给出的概率框架中,我们知道如何定义理论权重以获得无偏估计。我们还知道,对于每种采样方法,如何调整权重以最小化采样方差。这是可能的,因为从根本上说,从总体到样本的过程的概率控制使得“干净地”执行构成外推的逆运算成为可能,而外推是估计阶段的核心。这也是为什么这些属性在实证方法中没有等价物的原因。