-
Notifications
You must be signed in to change notification settings - Fork 0
/
article.tex
134 lines (97 loc) · 8.46 KB
/
article.tex
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
% !TEX root = ./article.tex
\documentclass{article}
\usepackage{mystyle}
\usepackage{myvars}
%-----------------------------
\begin{document}
\maketitle
\thispagestyle{empty}
%-----------------------------
% TEXT
%-----------------------------
\section{Demostraciones}
\paragraph{}
A continuación se demuestran distintas propiedades relacionadas con los estadísticos referidos al muestreo aleatorio simple con y sin reemplazamiento.
\subsection{Probabilidad de inclusión de primer y segundo nivel en muestreo aleatorio simple sin reemplazamiento (m.a.s)}
\paragraph{}
La probabilidad de inclusión en el muestreo aleatorio simple sin reemplazamiento viene condicionada por dos factores diferentes: \begin{enumerate*}[label=(\alph*)]
\item el número de posibles muestras que incluyan el elemento $k$-ésimo determinado por $\binom{N-1}{n-1}$ y el de posibles muestras que incluyan los elementos $k$ y $l$ tales que $k \neq l$ determinado por $\binom{N-2}{n-2}$ así como,
\item la probabilidad de elegir una determinada muestra de tamaño $n$ de entre todas las posibles, definida como $\frac{1}{\binom{N}{n}}$.
\end{enumerate*}
\paragraph{}
Nótese que dichos valores provienen del área de teoría combinatoria, donde se cumple la siguiente propiedad: \say{Sean n elementos distintos y $k \leq n$. A las distintas agrupaciones no ordenadas de $k$ elementos elegidos entre $n$ distintos se las denomina combinaciones de $n$ elementos tomados en grupos de $k$, y el número de dichas combinaciones es $\binom{N}{k}$}\cite{matematicaDiscreta2016notes}
\paragraph{}
Por tanto, la probabilidad de inclusión queda determinada por el sumatorio de las probabilidades de todas aquellas muestras que incluyen al elemento $k$ para el caso del primer nivel y de los ementos $\{k, l\}$, con $k \neq l$ para el segundo nivel:
\begin{align}
\pi_k = \sum_{k \in s}p(s) = \frac{\binom{N-1}{n-1}}{\binom{N}{n}}\frac{n}{N}
\end{align}
\begin{align}
\pi_{kl} = \sum_{\{k,l\} \in s}p(s) = \frac{\binom{N-2}{n-2}}{\binom{N}{n}} = \frac{n(n-1)}{N(N-1)}
\end{align}
\subsection{Probabilidad de inclusión de primer nivel en muestreo aleatorio con reemplazamiento}
\paragraph{}
Para el caso del muestreo aleatorio simple con reemplazamiento, la probabilidad de inclusión de primer nivel se define de manera diferente respecto de la del caso sin reemplazamiento. Esto se debe a que una observación $k$ puede aparecer más de una vez en una determinada muestra $s$.
\paragraph{}
En este caso, para probar la probabilidad de inclusión del elemento $k$-ésimo en la muestra nos apoyaremos en la distribución \emph{Binomial}, que modeliza la probabilidad de selección con reeemplazamiento de un elemento de entre $N$ posibles con probabilidad $p$. En este caso escogeremos $p = \frac{1}{N}$, que es la probabilidad de selección de una observación en la muestra.
\paragraph{}
Por tanto, definiremos la variable $X \sim B(n, \frac{1}{N})$. Para probar la probabilidad de que el elemento sea seleccionado al menos una vez, necesitamos conocer $P(X \geq 1) = P(X=1 + P(X=2) + ... + P(X=n)$. Sin embargo, esta probabilidad puede ser calculada de manera sencilla como $P(X \geq 1) = 1- P(X = 0)$. Puesto que $P(X=0) = \binom{n}{0}(\frac{1}{N})^0(1- \frac{1}{N})^{n-0} =\left(1 - \frac{1}{N}\right)^n$. Dado que la probabilidad de inclusión $\pi_k= P(X \geq 1)$ por definición, entonces:
\begin{align}
\pi_k = 1 - \left(1 - \frac{1}{N}\right)^n
\end{align}
\subsection{Varianza del $\pi$-estimador para proporciones en muestreo aleatorio simple sin reemplazamiento (m.a.s)}
\paragraph{}
Para la demostración de $\widehat{Var(\widehat{P}_\pi)}$ nos apoyaremos en distintas propiedades tanto de la varianza, que utilizaremos para reducir dicha definición a la varianza del total poblacional, definido tal y como se indica en la ecuación \eqref{eq:var_eq_1}, que supondremos como cierto.
\begin{equation}
\label{eq:var_eq_1}
Var(\widehat{\tau}_\pi) = \frac{N^2(1-f)}{n}\sigma^{2}
\end{equation}
\paragraph{}
El primer paso será por tanto obtener una estimación de dicho valor, para lo cual se utilizará la cuasi-varianza muestral tal y como se indica en la ecuación \eqref{2}:
\begin{equation}
\label{eq:var_eq_2}
\widehat{Var(\widehat{\tau}_\pi)} = \frac{N^2(1-f)}{n}S^{*^{2}} = \frac{N^2(1-f)}{n-1}S^{2}
\end{equation}
\paragraph{}
A partir de dicha ecuación, lo siguiente es añadir la división entre $N$ al estimador del total poblacional, para obtener un promedio, lo cual produce el cuadrado de dicho valor en la varianza, por propiedades de la misma. Dicha transformación se muestra en la ecuación \eqref{eq:var_eq_3}
\begin{equation}
\label{eq:var_eq_3}
\widehat{Var(\frac{\widehat{\tau}_\pi}{N})} = \widehat{Var(\widehat{\mu})} = \frac{N^2(1-f)}{nN^2}S^{*^{2}} = \frac{(1-f)}{n-1}S^{2}
\end{equation}
\paragraph{}
Es trivial probar que $\mu = P$ cuando la variable estudiada es dicotómica, por tanto, se puede seguir dicho paso sin más demostraciones. A partir de dicha presuposición de dicotomía, entonces se sabe que $S^2=\widehat{P}_\pi(1-\widehat{P}_\pi)$ puesto que en dicho caso la variable sigue una distribución de \emph{Bernoulli}. Entonces queda probada la ecuación \eqref{eq:var_eq_4}.
\begin{align}
\label{eq:var_eq_4}
\widehat{Var(\widehat{P}_\pi)} = \frac{1-f}{n-1}\widehat{P}_\pi(1-\widehat{P}_\pi)
\end{align}
\subsection{Intervalo de confianza del $\pi$-estimador para el total poblacional en muestreo aleatorio simple sin reemplazamiento (m.a.s)}
\paragraph{}
En este caso se pretende probar el intervalo de confianza de nivel $1-\alpha$ para la distribución de probabilidades referida a la variable aleatoria $\tau$, es decir, a la suma del total poblacional para la variable $Y$. Es decir, se pretende probar la igualdad descrita en la ecuación \eqref{eq:confidence_interval}. Dicha demostración se llevará a cabo siguiendo la notación de valores de probabilidad.
\begin{align}
\label{eq:confidence_interval}
\left[\widehat{\tau}_\pi \pm z_{1-\alpha/2}\sqrt{\widehat{Var}[\widehat{\tau}_\pi]}\right] &\equiv \Pr\left(\tau\in \left[\widehat{\tau}_\pi \pm z_{1-\alpha/2}\sqrt{Var[\widehat{\tau}_\pi]}\right]\right) = 1-\alpha
\end{align}
\paragraph{}
Un paso previo para la demostración del intervalo de confianza es la demostración de la ecuación \eqref{eq:normal_asumption}. Por el \emph{Teorema Central del Límite} se puede asumir que la distribución $\tau$ sigue una distribución normal con media $\widehat{\tau}$ y varianza $Var[\widehat{\tau}_\pi]$. Por tanto, este puede ser tipificado a una distribución normal estándar. Esta propiedad se indica en la ecuación \eqref{eq:normal_asumption}
\begin{align}
\label{eq:normal_asumption}
\frac{\widehat{\tau}_\pi - \tau}{\sqrt{Var[\widehat{\tau}_\pi]}} \sim N(0,1)
\end{align}
\paragraph{}
Por tanto, para demostrar que el intervalo de confianza sigue un nivel $1-\alpha$ basta con aplicar distintas propiedades algebraicas sobre este, hasta llegar a la distribución normal estándar tal y como se indicó en la ecuación \eqref{eq:normal_asumption}, que debido a su simetría permite sustituir el intervalo multiplicando por $2$ el valor de $\alpha$. Por último, debido a las propiedades de la distribución normal estándar, queda demostrado que en hasta el percentil $z_{1-\alpha}$ se localiza la probabilidad $1-\alpha$.
\begin{align}
\Pr\left(\tau\in \left[\widehat{\tau}_\pi \pm z_{1-\alpha/2}\sqrt{Var[\widehat{\tau}_\pi]}\right]\right) &=\\
&= \Pr\left(\tau - \widehat{\tau}_\pi \in \left[\pm z_{1-\alpha/2}\sqrt{Var[\widehat{\tau}_\pi]}\right]\right) \\
&= \Pr\left(\frac{\tau - \widehat{\tau}_\pi}{\sqrt{Var[\widehat{\tau}_\pi]}} \in \left[\pm z_{1-\alpha/2}\right]\right) \\
&= \Pr\left(\frac{\widehat{\tau}_\pi - \tau}{\sqrt{Var[\widehat{\tau}_\pi]}} \not\in \left[\pm z_{1-\alpha/2}\right]\right) \\
&= \Pr\left(N(0,1) \not\in [\pm z_{1-\alpha/2}]\right) \\
&= \Pr\left(N(0,1) \geq z_{1-\alpha}\right) \\
&= 1- \alpha
\end{align}
%-----------------------------
% Bibliographic references
%-----------------------------
\nocite{muest2017}
\nocite{sarndal2003model}
\bibliographystyle{alpha}
\bibliography{bib}
\end{document}