Pregunta:
Imagina que tienes un conjunto de datos de 1000 observaciones. Para mantener las cosas intuitivas, imagina que son coordenadas (x, y). Son temporales independientes, por lo que eso lo hace más fácil.
Desearía tener alrededor de un millón de observaciones, pero solo tiene 1000. ¿Cómo debería generar un millón de observaciones simuladas?
¿Existen pruebas que describan la forma más matemáticamente precisa de hacer esto?
Quieres ser fiel a tu conjunto de datos original. ¿Cómo haces eso sin agregar tu propio sesgo?
Este es un problema simple y general. Pero no sé si es trivial. Parece que debería ser.
Respuesta:
La razón por la que "desearía tener un millón de observaciones" es típicamente porque desea usar los datos para inferir algo que aún no sabe. Por ejemplo, es posible que desee ajustar un modelo o hacer predicciones. En este contexto, la desigualdad en el procesamiento de datos implica que, desafortunadamente, la simulación de datos adicionales es menos útil de lo que cabría esperar (pero esto no significa que sea inútil).
Para ser más específico, deje que $ Y $ sea un vector aleatorio que represente cantidades desconocidas que nos gustaría conocer, y deje que $ X $ sea un vector aleatorio que represente los datos. Ahora, suponga que simulamos nuevos datos utilizando el conocimiento aprendido de los datos originales. Por ejemplo, podríamos ajustar una distribución de probabilidad a los datos originales y luego tomar muestras de ellos. Sea $ \ tilde {X} $ un vector aleatorio que represente los datos simulados, y $ Z = [X, \ tilde {X}] $ represente el conjunto de datos aumentado. Debido a que $ Z $ se generó en base a $ X $ , tenemos que $ Z $ y $ Y $ son condicionalmente independientes, dado $ X $ . Es decir:
$$ p (x, y, z) = p (x, y) p (z \ mid x) $$
De acuerdo con la desigualdad de procesamiento de datos, la información mutua entre $ Z $ y $ Y $ no puede exceder la información mutua entre $ X $ y $ Y $ :
$$ I (Z; Y) \ le I (X; Y) $$
Dado que $ Z $ contiene $ X $ , esto es en realidad una igualdad. En cualquier caso, esto dice que, no importa cómo intentemos procesar los datos, incluido su uso para simular nuevos datos), es imposible obtener información adicional sobre nuestra cantidad de interés (más allá de la que ya está contenida en los datos originales). .
Pero aquí hay una salvedad interesante. Tenga en cuenta que el resultado anterior se mantiene cuando $ \ tilde {X} $ se genera basándose en $ X $ . Si $ \ tilde {X} $ también se basa en alguna fuente externa $ S $ , entonces es posible obtener información adicional sobre $ Y $ (si $ S $ lleva esta información).
Dado lo anterior, es interesante notar que el aumento de datos puede funcionar bien en la práctica. Por ejemplo, como mencionó Haitao Du, al entrenar un clasificador de imágenes, a veces se utilizan copias transformadas aleatoriamente de las imágenes de entrenamiento (por ejemplo, traducciones, reflejos y diversas distorsiones). Esto anima al algoritmo de aprendizaje a encontrar un clasificador que sea invariante a estas transformaciones, aumentando así el rendimiento. ¿Por qué funciona esto? Esencialmente, estamos introduciendo un sesgo inductivo útil (similar en efecto a un previo bayesiano). Sabemos a priori que la verdadera función debe ser invariante, y las imágenes aumentadas son una forma de imponer este conocimiento. Desde otra perspectiva, este conocimiento a priori es la fuente adicional $ S $ que mencioné anteriormente.