IA Multimodal: ¿Cómo "ven" y "oyen" las máquinas?