Imagen vs. otros tipos de datos
Quizás te hayas dado cuenta de que los videos son una representación visual de imágenes con un componente temporal. Para la adquisición de imágenes 2D, puedes agregar una dimensión temporal de tal manera que se convierte en su función de imágenes.
Las imágenes pueden tener, naturalmente, un componente temporal oculto. Al fin y al cabo, se toman en un momento específico, y diferentes imágenes también pueden estar relacionadas en el tiempo. Sin embargo, las imágenes y los vídeos difieren en cómo muestran esta información temporal. Una imagen es una representación estática en un único punto temporal, mientras que un vídeo es una secuencia de imágenes reproducidas a una velocidad que crea una ilusión de movimiento. Esta velocidad es lo que llamamos fotogramas por segundo.

(a) Imagen sin componente temporal

(b) Imagen con componente temporal
Figura 1: Comparación de representación estática vs. animada con componente temporal.
Imágenes vs. datos tabulares
En datos tabulares, la dimensionalidad suele definirse por el número de características (columnas) que describen un punto de datos. En datos visuales, la dimensionalidad suele referise al número de dimensiones que describen los datos. Para una imagen 2D, solemos referirnos a números e como el tamaño de la imagen.
Otros aspectos es la generación de características que describen datos visuales. Estas se generan mediante preprocesamiento tradicional o se aprenden mediante métodos de aprendizaje profundo. Esto se denomina extracción de características.
Los datos tabulares suelen requerir la gestión de valores faltantes, la codificación de variables categóricas y el reescalado de características numéricas. Un proceso similar para los datos de imagen es el redimensionamiento de la imagen y la normalización de los valores de intensidad. Estos procesos se denominan preprocesamiento.
Diferencias clave
| Característica | Imagen | Video | Audio | Datos tabulares |
|---|---|---|---|---|
| Tipo | Un momento único en el tiempo. | Secuencia de imágenes a lo largo del tiempo. | Un momento único en el tiempo. | Datos estructurados organizados en filas y columnas. |
| Representación de datos | Generalmente una matriz 2D de píxeles. | Generalmente una matriz tridimensional. | Generalmente una matriz 1D de muestras de audio. | Normalmente, una matriz 2D de características como columnas y muestras de datos individuales como filas (es decir, hojas de cálculo, tablas de bases de datos). |
| Tipos de archivos | JPEG, PNG, RAW, etc. | MP4, AVI, MOV, etc. | WAV, MP3, FLAC, etc. | CSV, Excel (.xlsx, .xls), formatos de bases de datos, etc. |
| Aumento de datos | Voltear, rotar, recortar. | Vibración temporal, variaciones de velocidad, oclusión. | Adición de ruido de fondo, reverberación, manipulación espectral. | ADASYN, ROS, SMOTE. |
| Extracción de características | Bordes, texturas, colores. | Bordes, texturas, colores, flujo óptico, trayectorias. | Espectrograma, coeficientes cepstrales de frecuencia Mel (MFCC), características de croma. | Análisis estadístico, ingeniería de características, agregación de datos. |
| Costo computacional | Menos costoso. | Más costoso. | Moderado a alto. | Generalmente menos costoso en comparación con otros. |