Microsoft acaba de lanzar Phi-3 Mini, el primero de una serie de modelos de lenguaje pequeños (SLM, por sus siglas en inglés). La empresa asegura que esta inteligencia artificial puede equipararse a GPT-3.5 siendo considerablemente más compacta que el modelo de lenguaje de OpenAI. Además, promete un coste menor y una carga más ligera para el hardware.
La principal ventaja de Phi-3 Mini radica en su capacidad para ejecutarse sin problemas en dispositivos móviles y computadoras básicas. Según Microsoft, esta nueva versión puede ofrecer respuestas comparables a las de otros modelos hasta 10 veces más grandes.
De hecho, Phi-3 Mini supera en rendimiento y sofisticación a Phi-2, siendo este último una versión estándar y no una versión reducida. La empresa tiene previsto lanzar otros dos modelos dentro de la misma serie: Small y Medium, capaces de manejar 7.000 millones y 14.000 millones de parámetros, respectivamente.
Estos modelos podrían representar un desafío para otros modelos como Gemini o ChatGPT, especialmente si la empresa logra replicar la relación entre rendimiento y parámetros que ofrece en la versión reducida.
Phi-3 Mini ha sido entrenado con cuentos infantiles. Microsoft ha revelado que este modelo tiene la capacidad de manejar alrededor de 3.800 millones de parámetros, lo que representa la cantidad de instrucciones complejas que puede entender el modelo de lenguaje. Aunque es unas 46 veces más pequeño que ChatGPT 3.5, su entrenamiento le permite ofrecer un rendimiento más avanzado de lo que sugieren sus cifras.
Según Microsoft, Phi-3 Mini ha sido entrenado de manera similar a como un niño adquiere conocimientos a través de los cuentos infantiles. Se han utilizado palabras simples para explicar conceptos más complejos y amplios.
"Nos dimos cuenta de que no había suficientes libros para niños, así que tomamos una lista de más de 3.000 palabras y le pedimos a un LLM que creara 'libros para niños' para enseñar a Phi", comenta el vicepresidente de Microsoft Azure.
El objetivo de Phi-3 Mini como modelo de lenguaje es proporcionar respuestas sobre conocimientos generales. Phi-1 se centró en el cifrado, mientras que Phi-2 comenzó a reflexionar. Ahora, la tercera versión integra lo aprendido en ambas y ofrece una mejor capacidad para resolver problemas, un nivel de codificación más alto y un razonamiento más amplio.
Además, ya es posible verificar este rendimiento y mejoras a través de plataformas como Microsoft Azure, Hugging Face y Ollama.
No es una coincidencia que Microsoft haya optado por un enfoque más generalista con Phi-3 Mini. La empresa ha reconocido que muchas industrias necesitan modelos de lenguaje, pero carecen de la capacidad para manejar LLMs como ChatGPT 4. Además, no disponen del presupuesto necesario para convertirlos en inversiones rentables, por lo que requieren opciones más básicas y accesibles.
Con Phi-3 Mini, Microsoft ofrece una solución potente con costes reducidos y la capacidad de ejecutar el modelo de lenguaje en casi cualquier dispositivo modesto.