Creación de una configuración GenAI de alto rendimiento con GPU NVidia & KUBE by IG1

Esta guía explica cómo configurar la plataforma GenAI utilizando KUBE by IG1. Comienza con la instalación de servidores y GPUs NVidia, y la configuración del software básico. A continuación, configuramos KUBE de IG1 para gestionar máquinas virtuales y nos aseguramos de que todo está conectado correctamente. Descargamos y optimizamos el modelo LLM AIlo integramos en un sistema que mejora las respuestas y interfaces fáciles de usar para interactuar con la IA.. Por último, probamos el sistema a fondo, comprobamos su rendimiento y herramientas de supervisión para que funcione sin problemas.. Todo ello garantiza la solidez y eficacia de la IA.

Capa 01: Configuración de hardware y Cloud

Infraestructura de hardware y cloud forman la capa fundacional de la IA Generativa stack, proporcionando la potencia computacional y la flexibilidad necesarias para entrenar y desplegar modelos de IA.

Servidores físicos

Desembalaje e instalación de servidores y GPU NVidia en bastidores de centros de datos. Conecte la alimentación y la red, asegurándose de que todos los componentes están bien sujetos y asentados. Esta configuración sienta las bases de la infraestructura de IA.

Sistema de base

Instalar IG1 AI OSnuestro SO casero basado en Linux Ubuntu, en cada servidor, actualiza el sistema e instala los controladores NVidia y el kit de herramientas CUDA. Este paso garantiza que los servidores estén preparados para aplicaciones aceleradas en la GPU y proporciona un entorno operativo estable.

KUBE por IG1 para AI

Instalar KUBE de IG1 for AI para gestionar máquinas virtuales y contenedores. Configure la red en KUBE, inicialice cluster y verifique su estado. Este paso establece la infraestructura básica para gestionar y desplegar aplicaciones de IA.

Servidores físicos

Desembalaje e instalación inicial


Desembale el hardware:

Desembale con cuidado los servidores, las GPU NVidia y los demás componentes de hardware.


Monta los servidores: 


Instale los servidores en los bastidores designados en el centro de datos.

Conecta la alimentación y la red:

Conecte los servidores a las fuentes de alimentación y a la red del centro de datos.


Configuración del hardware


Instala GPUs NVidia:

Instale físicamente las GPU NVidia en los servidores siguiendo las instrucciones del fabricante.

Verifique las conexiones de hardware:

Asegúrese de que todas las conexiones son seguras y los componentes están correctamente asentados.

Sistema de base

Instalación del sistema operativo


Instala el sistema operativo:

Instale el SO: Instale IG1 AI OS, un sistema operativo especialmente diseñado a medida para servicios de IA, aprovechando nuestra profunda experiencia y capacidad en la gestión de plataformas "plug and play" para IA.

Actualizar el sistema:

Ejecute las actualizaciones del sistema para asegurarse de que todos los paquetes están al día.

Instalación de CUDA y controladores de GPU


Instalar controladores NVidia:

Instala los últimos controladores de NVidia para las GPU.

Instale el kit de herramientas CUDA:

"CUDA toolkit" está integrado en IG1 OS.

KUBE por IG1 para AI

Instalación y configuración


Instalar KUBE by IG1:

Siga la guía de instalación de KUBE by IG1 para configurar la capa de virtualización.

Configurar la red:

Configurar la red dentro de KUBE para garantizar la comunicación entre nodos y el acceso externo.

Cluster Inicialización


Inicializar KUBE Cluster:

Inicialice el KUBE cluster para crear un plano de control y añadir nodos trabajadores.

Verifique Cluster Health:

Compruebe la salud y el estado del KUBE cluster para asegurarse de que todos los componentes funcionan correctamente.

Capa 02: Fundación del modelo LLM y despliegue RAG

Las aplicaciones de IA se basan en modelos generativos, como LLAMA3, Mistral, Deepseek y StarCoder, que son modelos preentrenados en vastos conjuntos de datos para captar patrones y conocimientos complejos. Estos modelos sirven como bloques de construcción para diversas tareas de IA, como el procesamiento del lenguaje natural y la generación de imágenes. Para desplegar y gestionar eficazmente las aplicaciones de IA, se necesitan varios servicios que garanticen el correcto funcionamiento de los grandes modelos lingüísticos (LLM). Estos servicios incluyen cuantificación para la optimización de recursos, servidores de inferencia para la ejecución de modelos, núcleo API para el equilibrio de cargay observabilidad para la recopilación de datos y la gestión de trazas. Al ajustar y optimizar estos modelos en conjuntos de datos específicos, se puede mejorar su rendimiento y precisión para tareas especializadas. Este paso fundamental permite a los desarrolladores aprovechar modelos sofisticados, reduciendo el tiempo y los recursos necesarios para crear aplicaciones de IA desde cero.

Configuración del modelo LLM

Descargue el LLM (Large Language Model) y realice la cuantización para optimizar el rendimiento y reducir el uso de recursos. Este paso garantiza que el modelo de IA se ejecute de forma eficiente y esté listo para su integración con otros componentes.

Configuración RAG (Recuperación-Generación mejorada )

Integre los componentes RAG utilizando el marco más utilizado y despliegue la canalización RAG dentro de KUBE. Este paso mejora el modelo de IA con capacidades mejoradas de recuperación, proporcionando respuestas más precisas y relevantes.

Configuración del modelo LLM

Descargar LLM:

Obtenga el LLM de la fuente adecuada.

Optimización LLM:

La optimización consiste en optimizar el uso de recursos preparando y mejorando los LLM mediante un proceso denominado cuantización. La cuantización aumenta el rendimiento de la inferencia sin comprometer significativamente la precisión. Nuestros servicios de gestión de la cuantización utilizan el proyecto AWQ, que ofrece un rendimiento excelente en términos de velocidad y precisión.

Optimización LLM:

De forma similar a los motores de bases de datos, los servidores de inferencia de LLMs ejecutan LLMs para su inferencia o incrustación. IG1 instala y gestiona todos los servicios necesarios para el correcto funcionamiento de los modelos LLM. Para ello, se apoya en varias instancias de:

Configuración RAG (Recuperación-Generación mejorada)

Integrar los componentes del GAR:

Configure los componentes RAG necesarios (ejemplo utilizando el marco LlamaIndex):

Despliegue de RAG Pipeline:

Despliegue la tubería RAG en el entorno KUBE.

Capa 03: Integración, orquestación y herramientas de implantación

Esta Capa trata sobre los procesos críticos de integración, orquestación y despliegue de la infraestructura de IA para garantizar operaciones eficientes y sin fisuras. A medida que las aplicaciones de IA se vuelven cada vez más complejas e integrales para las operaciones empresariales, es esencial contar con un marco sólido que soporte la integración de varios servicios, la orquestación de aplicaciones en contenedores y el despliegue de estas aplicaciones con una fricción mínima..
Al aprovechar las herramientas avanzadas y las mejores prácticas, las organizaciones pueden lograr una mayor escalabilidad, fiabilidad y rendimiento para sus sistemas de IA. Exploraremos los componentes clave y las estrategias necesarias para construir una infraestructura de IA resistente y escalable que satisfaga las necesidades cambiantes de las empresas modernas.

Integración de servicios de IA

Integrar a la perfección varios servicios de IA para garantizar una comunicación y un funcionamiento eficaces. Esto incluye:

El núcleo de la API actúa como LLM proxy, equilibrando la carga entre las instancias del servidor de inferencia de los LLM. Para ello se utiliza LiteLLM, desplegado en Alta Disponibilidad. Ofrece un amplio soporte para servidores LLM, robustez y almacenamiento de información de uso y claves API a través de PostgreSQL. LiteLLM también permite la sincronización entre diferentes instancias y envía información de uso de LLM a nuestras herramientas de observabilidad.

Observabilidad y trazabilidad

Implemente herramientas de observabilidad para obtener información sobre el comportamiento y el rendimiento de sus aplicaciones de IA:


La capa de observabilidad de los LLM recopila datos de uso y trazas de ejecución, garantizando una gestión adecuada de los LLM. IG1 gestiona eficientemente el uso del LLM a través de una monitorización stack conectada al orquestador del LLM. Lago y OpenMeter recopilan información, que luego se transmite a nuestro sistema central de observabilidad, Sismology.

Capa 04: Aplicaciones Al

Representa las de los modelos generativosque demuestran su valor práctico. Estas aplicaciones, como herramientas de generación de texto, código, imágenes y vídeo, aprovechan la IA avanzada para automatizar tareas, mejorar la productividad e impulsar la innovación en diversos ámbitos. Al mostrar los usos de la IA en el mundo real, esta sección pone de relieve cómo los modelos generativos pueden resolver problemas específicos, agilizar los flujos de trabajo y crear nuevas oportunidades. Sin esta capa, los beneficios de la IA avanzada seguirían siendo teóricos y los usuarios no experimentarían el impacto transformador de estas tecnologías en su vida cotidiana.

Interfaz de avisos tipo GPT

Instale la Interfaz Web de Cara Abrazada:

Configure la interfaz web Hugging Face para la gestión de modelos y el envío de avisos.

Configuración API

Despliegue del servidor API:

Configurar un servidor API para proporcionar acceso programático a los servicios LLM y RAG.

Interfaz RAG

Configurar la interfaz de usuario RAG:

Implementar una interfaz de usuario para interactuar con el sistema GAR.

Dev Copilot

Despliegue del servidor API:

Configurar un servidor API para proporcionar acceso programático a los servicios LLM y RAG.

Herramienta de aplicaciones LLM de bajo código

Despliegue de la herramienta Low Code:

Instalar una herramienta de bajo código para construir aplicaciones basadas en LLM.

Una mirada al interior:

GenAI Evento en la oficina de Iguana Solutions en París:GenAI implementación @Easybourse

Explore GenAI's impact on professional services: from LLMs' pros and cons to RAG's benefits, challenges, and improvements, and its application at Iguana Solutions.

Reproducir vídeo

Comentarios sobre la experiencia: GenAI implementation @Easybourse

Las herramientas de consumo para LLM salvan la distancia entre el LLM núcleo y las aplicaciones prácticas . Estas herramientas permiten a los desarrolladores integrar modelos generativos en sistemas del mundo real, aumentándolos con información contextual mediante RAG o empleando agentes de herramientas para construir un ejército LLM. Estas herramientas son fundamentales interfaces entre la plataforma de IA y las aplicaciones del usuario final.. Ofrecen capacidades críticas como interfaces de gestión de usuarios y modelos, gestión de claves API, interfaces de documentos para enriquecer el contexto GARun completo Copilot para desarrolladores, que les permite conversar con su código base para mejorar la codificación, y una interfaz de bajo código para crear aplicaciones sin esfuerzo y sin codificación.. Estos servicios plug-and-play facilitan a los desarrolladores y a los miembros del equipo la incorporación de la IA a sus rutinas diarias.

" Con nuestro socio anterior, nuestra capacidad de crecimiento se había paralizado.. Optar por Iguana Solutions nos permitió multiplicar nuestro rendimiento global por al menos 4. "

Cyril Janssens

Director Técnico, easybourse

La confianza de empresas líderes en todo el mundo

Nuestras plataformas para GenAI Ofertas

Revolucione sus capacidades de IA
con
Plataformas Plug-and-Play GenAI

Ofrecemos plataformas GenAI plataformas que facilitan y potencian la infraestructura de IA. Aprovechando la tecnología H100 y H200 de NVIDIAnuestras soluciones ofrecen un rendimiento de primer nivel para sus necesidades de IA.

Nuestras plataformas se adaptan sin problemas, escalando desde pequeños proyectos a extensas aplicaciones de IA, proporcionando alojamiento flexible y fiable. Desde diseño personalizado a despliegue y soporte continuo, garantizamos un funcionamiento sin problemas en todo momento. En el vertiginoso mundo actual de la IA, una infraestructura sólida es clave. En Iguana Solutions, no nos limitamos a proporcionar tecnología; somos su socio para liberar todo el potencial de sus iniciativas de IA. Descubra cómo nuestras plataformas GenAI pueden ayudar a su organización a destacar en el ámbito de la inteligencia artificial, en rápida evolución.

Póngase en contacto con nosotros

Comience hoy mismo su transformación DevOps

Embárquese en su viaje DevOps con Iguana Solutions y experimente una transformación que se alinea con los más altos estándares de eficiencia e innovación. Nuestro equipo de expertos está preparado para guiarle en cada paso, desde la consulta inicial hasta la implementación completa. Ya sea que esté buscando refinar sus procesos actuales o construir un nuevo entorno DevOps desde cero, tenemos la experiencia y las herramientas para hacerlo realidad. Póngase en contacto con nosotros hoy mismo para programar su consulta inicial gratuita o para obtener más información sobre cómo nuestras soluciones DevOps personalizadas pueden beneficiar a su organización. Permítanos ayudarle a desbloquear nuevos niveles de rendimiento y agilidad. No espere: dé ahora el primer paso hacia una infraestructura de TI más dinámica y con mayor capacidad de respuesta.