CarlitIA

Los modelos extensos de lenguaje (LLMs) pueden ayudar en la investigación automatizando tareas, revisando y traduciendo textos, analizando conjuntos de datos, colaborando en la redacción de artículos y la programación, etc.

CarlitIA es el nombre que se le ha dado al servicio de Inteligencia Artificial en el iC1. Está diseñada haciendo uso de los proyectos de software libre OpenWebUI y Ollama, y corre en hardware propio.

https://gloton.ugr.es/carlitia

OpenWebUI

OpenWebUI es una interfaz web diseñada para facilitar la interacción con LLMs como Llama 2, Mistral, Gemma y otros compatibles con Ollama. Permite realizar tareas como:

WebChat: Una interfaz web simple para enviar preguntas y recibir respuestas generadas por el modelo.
API Externa: OpenWebUI ofrece una API que permite a otros programas y aplicaciones acceder a los modelos de lenguaje.
Gestión de Modelos: La interfaz permite descargar e instalar modelos compatibles con Ollama.

Integraciones

El servicio CarlitIA se puede integrar con aplicaciones que sean compatibles con la API de OpenAI.

Conexión: https://gloton.ugr.es:10444/api.

API Key: se obtiene a través de la interfaz de OpenWebUI -> Ajustes -> Cuenta

Ejemplos de estas aplicaciones son el plugin ThunderAI de Thunderbird o VSCode.

Ventajas

Privacidad: Al ejecutar los modelos en PROTEUS, los datos de entrada y salida no son compartidos con terceros
Control: El usuario tiene control total sobre el entorno de ejecución del modelo
Coste: Características y funcionalidades de pago sin coste para el usuario

Limitaciones

Tamaño de los Modelos: Los LLMs requieren de una capacidad de cálculo considerable. Es por esto que suelen correr en GPUs. Sin embargo, la memoria de estos dispositivos no es tan amplia como la del sistema. Esto hace que el tamaño del modelo (número de parámetros) que podemos usar se limite a la memoria de la GPU empleada. En nuestro caso, se utiliza una RTX 4000 Ada con 20GB. Aunque Ollama puede funcionar de manera híbrida (parte del modelo corre en GPU y el restante en CPU), en la práctica los tiempos de respuesta son demasiado lentos para tener una buena experiencia de usuario usándolo interactivamente.