Aceleración de los resultados empresariales: Pure Storage y la plataforma de datos AI de NVIDIA potencian el razonamiento de precisión a escala

Los resultados retrasados significan oportunidades perdidas. Con la plataforma de datos AI de NVIDIA con la tecnología de Pure Storage, las organizaciones pueden convertir grandes volúmenes de datos en inteligencia en tiempo real.

Pure Storage and NVIDIA AI Data Platform 4

Resumen

In today’s fast-paced business world, milliseconds matter. The NVIDIA AI Data Platform, integrated with FlashBlade//EXA and Portworx, enables organizations to not just accelerate inference but also unlock precision reasoning at scale. 

image_pdfimage_print

En una era en la que los milisegundos pueden determinar el liderazgo del mercado, las empresas enfrentan un desafío crítico: transformar grandes repositorios de datos en inteligencia procesable con velocidad y precisión sin precedentes. Empresas, hiperescaladores y neonubes como los clientes de Meta y Coreweave han encontrado un éxito rotundo con FlashBlade//S™ y la plataforma Pure Storage para muchas de sus necesidades de carga de trabajo de AI. Con varias validaciones de almacenamiento certificadas por NVIDIA, los clientes pueden confiar en que su implementación de infraestructura de AI será rápida y fluida. 

Para los clientes a gran escala con requisitos de inferencia de AI sofisticados, el diseño de referencia de la plataforma de datos AI de NVIDIA implementado con Pure Storage® FlashBlade//EXA™ y Portworx® redefine la forma en que las organizaciones pueden convertir volúmenes masivos de datos en inteligencia en tiempo real. Esta pila integral no solo acelera la inferencia, sino que desbloquea el razonamiento de precisión a escala, lo que permite a las empresas a gran escala decodificar conjuntos de datos complejos con precisión quirúrgica mientras mantienen la seguridad de grado de producción. 

El imperativo de la inteligencia: Por qué la velocidad y la precisión son importantes

Las empresas modernas operan en entornos en los que los resultados retrasados equivalen a oportunidades perdidas. Una implementación de Pure Storage de la plataforma de datos de AI de NVIDIA aborda esto al combinar la computación acelerada con la organización inteligente de datos, lo que crea un bucle de comentarios entre el conocimiento empresarial y el razonamiento de AI. En esencia, esta infraestructura permite:

  • Análisis en tiempo real de datos multimodales (texto, imágenes, video) con latencia de subsegundos
  • Razonamiento consciente del contexto en conjuntos de datos distribuidos
  • Información confiable y gobierno de datos a través de controles de seguridad granulares

Al aprovechar la computación acelerada a través de NVIDIA Blackwell, las redes de NVIDIA, el software de generación aumentada de recuperación (RAG), incluidos los microservicios NVIDIA NeMo Retriever y AIAI-Q NVIDIA Blueprint, y la arquitectura optimizada para metadatos de Pure Storage, las organizaciones reducen el tiempo de obtención de resultados de días a segundos mientras mantienen una precisión de inferencia muy alta en entornos de producción.

Plataforma de datos de Pure Storage
Figura 1. Implementación de Pure Storage de la plataforma de datos AI de NVIDIA.

FlashBlade//EXA: El motor de velocidad de datos

FlashBlade//EXA de Pure Storage rompe los cuellos de botella del almacenamiento tradicional con un rendimiento de más de 10 TB/s en un solo espacio de nombres, suficiente para procesar toda la colección de la Biblioteca del Congreso en menos de tres minutos. 

La ventaja clave del diseño desglosado de FlashBlade//EXA es la capacidad de escalar metadatos y rendimiento de datos de manera independiente. Esto significa que las organizaciones pueden combinar con precisión su arquitectura de almacenamiento con las demandas específicas de sus cargas de trabajo de inferencia sin sobreaprovisionar ninguno de los componentes.

Para las cargas de trabajo de inferencia que requieren un acceso rápido a miles o millones de archivos más pequeños, la capa de metadatos se puede escalar de manera adecuada. De manera similar, para las cargas de trabajo que se ocupan de conjuntos de datos masivos que consisten en archivos enormes, la capa de datos se puede expandir sin sobrecarga de metadatos innecesaria. Esta flexibilidad permite una “escalabilidad prácticamente infinita”.

La segregación de metadatos y el procesamiento de datos proporciona acceso a datos sin bloqueo que se vuelve cada vez más valioso en escenarios informáticos de alto rendimiento en los que las operaciones de metadatos pueden igualar o incluso superar las operaciones reales I/O datos. Esta arquitectura garantiza que las GPU se alimenten de manera consistente con datos a las tasas más altas posibles, lo que elimina el costoso tiempo de inactividad.

Con su arquitectura desglosada y masivamente paralela, FlashBlade//EXA resuelve el problema de escalar las cargas de trabajo de AI, eliminando el tiempo de GPU inactiva, para que las empresas puedan acelerar el entrenamiento y la inferencia de AI. Esta entrega de datos eficiente es crucial para las cargas de trabajo de inferencia en las que el rendimiento consistente y predecible suele ser más importante que las velocidades máximas, lo que es posible gracias al intercambio eficiente de caché de KV para cargas de trabajo mixtas y en ráfagas. 

Portworx y FlashBlade//EXA Synergy para la aceleración de la inferencia

La sinergia entre Portworx y FlashBlade//EXA acelera la inferencia de AI a escala al combinar la administración de datos nativa de Kubernetes de Portworx y el almacenamiento en caché de modelo inteligente con la arquitectura de almacenamiento paralelo masivo ultrarrápido de FlashBlade//EXA. Portworx garantiza una alta disponibilidad, un acceso de latencia baja y una escalabilidad sin interrupciones de los datos del modelo en las cargas de trabajo de inferencia distribuida, mientras que FlashBlade//EXA elimina los cuellos de botella de almacenamiento y metadatos con un rendimiento excepcional y una escalabilidad desglosada. Juntos, maximizan la utilización de GPU, minimizan la latencia de inferencia y proporcionan una base sólida y flexible para implementar y administrar procesos de inferencia de AI en entornos de producción.

La arquitectura KV Cache de NVIDIA reinventa los procesos de inferencia a través de tres innovaciones:

  1. Almacenamiento en caché de prefijos de GPU cercanas
    • Almacena patrones de consulta comunes (p. ej., verificaciones de cumplimiento regulatorio) directamente en NVMe adyacente a GPU.
  2. Programación consciente de la carga
    • Asigna recursos de prellenado/decodificación de manera dinámica según la complejidad de las consultas.
    • Mantiene una utilización de GPU del 95 %, incluso durante los picos de tráfico
  3. Agrupación heterogénea de GPU
    • Permite que los clústeres de variantes de GPU combinadas compartan la memoria caché de KV

Esta solución de Pure Storage complementa lo anterior con las siguientes características para proporcionar una velocidad integral en el rendimiento de tokens por segundo para implementaciones de inferencia de AI a gran escala.

  1. Uso compartido de caché de KV: Garantiza el intercambio eficiente de caché de KV entre el rebaño que se multiplica exponencialmente.
  2. Alta concurrencia de E/S: La arquitectura altamente simultánea de FlashBlade® no solo es ultrarrápida, sino que también se destaca en este patrón de E/S exponencialmente simultáneo.
  3. Reducción de datos: La compresión automática de la caché de KV significa una E/S más rápida y tiempos de prellenado más cortos.

Seguridad como facilitador: RBAC para obtener resultados confiables en RAG e AI agente

Implementar un marco de control de acceso basado en roles (RBAC) dentro de una generación aumentada por recuperación (RAG) o un proceso de gestión de datos es fundamental para un manejo de datos seguro y eficiente. Esto implica establecer una capa de permiso unificada para definir los roles de los usuarios y sus derechos de acceso en varias etapas: incorporación, recuperación, procesamiento y almacenamiento de datos. Además, los componentes deben respaldar una comprensión eficiente de las consultas para adaptar el acceso a los datos en función de los roles y las intenciones del usuario, lo que garantiza el cumplimiento de los permisos establecidos. Los procesos de generación y aumento de AI deben integrar datos específicos del contexto dentro de modelos generativos mientras se mantienen protocolos de acceso y seguridad. Los mecanismos efectivos de auditoría y monitoreo son cruciales para hacer un seguimiento de los patrones de acceso y garantizar el cumplimiento de las reglas de RBAC, lo que aumenta la seguridad general. Las mejores prácticas de seguridad, como el empleo de un modelo de confianza cero y la autenticación basada en JWT, enfatizan los controles de acceso transitorios y seguros, al mismo tiempo que minimizan los impactos en el rendimiento del proceso.

Portworx implementa un modelo de seguridad de confianza cero que acelera en lugar de inhibir el acceso a los datos:

  • Encriptación granular StorageClass: Encripta la PII confidencial en vuelo y en reposo, mientras mantiene los datos de capacitación accesibles.
  • Control de acceso basado en JWT: Otorga acceso temporal y consciente del contexto a los procesos de RAG.
  • Registro que cumple con la auditoría: Realiza un seguimiento del linaje de datos desde la ingestión sin procesar hasta la salida de inferencia.

NVIDIA AI-Q: La capa de inteligencia de razonamiento

El AI AI-Q NVIDIA Blueprint transforma los datos estáticos en conocimiento dinámico a través de tres componentes principales:

  1. Motores de extracción multimodal: Convierte esquemas en PDF, manuales de servicio y transcripciones de llamadas en gráficos de conocimiento estructurados.
  2. microservicios de NeMo Retriever: Ofrece una precisión de recuperación extremadamente alta en las búsquedas de vectores de mil millones de escalas
  3. Organización del kit de herramientas de NVIDIA Agent Intelligence: Perfilado y optimización para sistemas agentes complejos

Cuando se combina con la velocidad de datos de FlashBlade//EXA, esta pila permite lo que denominamos “razonamiento de precisión”, la capacidad de obtener resultados listos para la sala de juntas a partir de datos sin procesar en muy pocos ciclos de consulta.

Potencie el razonamiento de precisión a escala: La nueva ventaja competitiva

Las empresas que adoptan este conjunto informan resultados transformadores.

Una implementación de Pure Storage de la plataforma de datos AI de NVIDIA proporciona lo último en densidad de razonamiento: la capacidad de extraer resultados más procesables por terabyte procesado. Al combinar la computación acelerada de NVIDIA Blackwell con la accesibilidad de datos de Pure Storage, las organizaciones logran lo que antes era impensable: convertir todo su patrimonio de datos en un activo de razonamiento estratégico.

Conclusión: Inteligencia a la velocidad de los negocios

La colaboración entre Pure Storage y NVIDIA representa más que solo una infraestructura de AI a gran escala: nuestra larga historia de colaboración garantiza que se pueda admitir a clientes de todos los tamaños y madurez de AI, ya sea que recién comiencen con FlashBlade//S o AIRI® o que se amplíen al más alto nivel de requisitos de AI y HPC

A medida que la AI pasa del proyecto experimental al impulsor de ingresos principal, esta plataforma proporciona la base para la inteligencia continua, la capacidad de razonar, decidir y actuar sobre flujos de datos en vivo con precisión de la máquina. El futuro pertenece a empresas que no solo almacenan datos, sino que los comprenden a la velocidad del pensamiento.

Más información:

FlashBlade//EXA para AI y HPC a escala extrema

Soluciones de AI de Pure Storage

Pure AI