VMware Private AI Foundation – “we bring the AI to your Data”
VMware Private AI Foundation with NVIDIA (PAIF-N) ist eine innovative Lösung, die es Unternehmen ermöglicht, KI-Workloads sicher und effizient in ihrer eigenen Infrastruktur zu betreiben. Diese Plattform kombiniert die Stärken von VMware Cloud Foundation (VCF) mit der leistungsstarken GPU-Technologie und dem Software-Ökosystem von NVIDIA. PAIF ist ein Add-on für VCF, das die Bereitstellung von RAG oder Generativen AI Services on-premises ermöglicht.
Mit VMware Private AI Foundation werden sämtliche Daten on-premises verarbeitet. Das Ziel von PAIF ist es, dass interne Data-Science- und MLOps-Engineers die nötige Infrastruktur und das Toolset bekommen, um mit (vor) trainierten LLMs neue Services zu entwickeln. Die automatisierte Bereitstellung dieser Infrastruktur (VMs, Vektor-Datenbanken, Kubernetes-Cluster) wird über ein Self-Service-Portal ermöglicht.
Herausforderungen
- Die Governance bei der Nutzung von KI-Tools wie ChatGPT, Microsoft Co-Pilot und Perplexity in Unternehmen stellt verschiedene Herausforderungen dar:
- Unbeabsichtigter Datenabfluss: Mitarbeiter könnten versehentlich interne Firmeninformationen in öffentliche KI-Systeme hochladen.
- Datenschutzrisiken: Die Nutzung externer KI-Dienste birgt das Risiko, dass vertrauliche Unternehmensdaten in die Trainingsdaten dieser Systeme einfliessen
- Zugriff: Es besteht die Herausforderung, den Zugriff auf KI-generierte Inhalte zu beschränken, da die KI potenziell auf alle Trainingsdaten zugreifen kann.
- Hardware Ressourcen Auslastung und Management, bei on-premises KI-Lösungen
- Hohe Investitionskosten: Die Anschaffung leistungsfähiger Hardware, insbesondere GPUs, erfordert erhebliche finanzielle Mittel.
- Ineffiziente Ressourcennutzung: Ohne angemessene Virtualisierung und Monitoring-Tools kann es zu einer suboptimalen Auslastung der Hardware kommen. Teuer angeschaffte GPU Ressourcen werden nicht ausgelastet.
- Hohe Komplexität
- Technologische Herausforderungen: KI-Software basiert oft auf cloud-nativen Technologien mit einem umfangreichen Technologie-Stack.
VMware Private AI Foundation begegnet diesen Herausforderungen wie folgt:
- Governance:
- On-Premises-Verarbeitung: Sämtliche Daten werden lokal verarbeitet, was die Kontrolle und Sicherheit erhöh
- Sichere Datenspeicherung: Verwendung von Vector-Datenbanken wie PostgreSQL mit pgvector, die rollenbasierte Zugriffskontrollen (RBAC) unterstützen
- LLM-Validierung: LLMs können validiert, geprüft und zentral in der Harbor Container Registry gespeichert werden. Das Giskard Framework ermöglicht zusätzliche Überprüfungen
- Granulare Zugriffssteuerung: PAIF implementiert Zugriffskontrollen, sodass Endbenutzer nur auf die Daten zugreifen können, für die sie berechtigt sind
- Ressourcen Monitoring:
- vGPU Slicing
- GPU Monitoring
- Preemptable VMs: Nicht-kritische Workloads können getaggt werden, um bei HA-Events Ressourcen nicht zu beanspruchen (Test Workloads).
- Komplexität:
- Integrierter Stack: VMware Cloud Foundation bietet einen umfassenden Virtualisierungs- und Container-Orchestrierungs-Stack
- Automatisierte Provisionierung durch Aria Automation
- Überwachung des kompletten Stacks mit Aria Operations
- DBaaS durch Data Services Manager
VMware Private AI im Detail
VMware Private AI Foundation (PAIF) baut auf VMware Cloud Foundation (VCF) auf und ist als Add-on verfügbar. Die Voraussetzungen für die Implementierung von PAIF umfassen
Voraussetzungen
- vSAN Hosts (ReadyNodes oder VCG-kompatible Hardware)
- VMware Cloud Foundation Lizenzen
- VMware Private AI Foundation und NVIDIA add-on license
- NVIDIA NGC API-Key für den Zugriff auf die nvcr.io Registry
- NVIDIA L40s, H100 oder A100 Grafikkarten (PCIe, SXM oder NVL)
Building Blocks
- VMware vSphere
- VMware vSAN
- VMware NSX
- VMware IaaS Control Plane & vSphere Kubernetes Services (VKS) (ehem. vSphere with Tanzu)
- VMware Data Services Manager
- VMware Aria Automation: Für die automatisierte Bereitstellung von AI Kubernetes Clusers oder AI VMs (Deep Learning VMs)
Das PAIF Add-on ermöglicht folgende Funktionen
- AI Workstation: Deep Learning VMs: Von VMware packetierte VMs, mit allen nötigen NVIDIA Treibern und Tools, Docker, PyTorch und Tensorflow
- AI Kubernetes Clusters: vSphere Kubernetes Cluster mit NVIDIA GPU Operator
- Self-Service via Aria Automation
- Aria Operations Dashboard für die Überwachung der GPUs (Ressourcen Auslastung)
GPU Ressourcen
GPUs bilden die Grundlage für AI-Services, und VMware vSphere ermöglicht eine effiziente Nutzung dieser Ressourcen durch verschiedene Technologien:
- GPU Slicing (vGPU): NVIDIA vGPU-Technologie erlaubt es, eine einzelne physische GPU in mehrere virtuelle GPUs zu partitionieren, die dann von verschiedenen virtuellen Maschinen genutzt werden können. Dies kann entweder durch zeitliches Partitionieren (Time-Slicing) oder durch Multi-Instance GPU (MIG) Technologie erfolgen. Time-Slicing teilt die GPU-Leistung unter den VMs auf, während MIG eine Hardware-Partitionierung bietet, bei der jede VM isolierte Ressourcen erhält.
- GPU-Reservierungen: VMware vSphere ermöglicht es, GPU-Ressourcen bestimmten VMs zu reservieren, um sicherzustellen, dass kritische Anwendungen jederzeit über die benötigte Leistung verfügen
- GPU-Monitoring: Über vSphere und Aria Operations können Administratoren die Nutzung und Leistung der GPUs überwachen. Dies umfasst das Tracking von Metriken wie GPU-Auslastung und -Memory.
Die Wahl der GPU hängt stark von Use Case und eingesetzten LLM ab:
Deep Learning VMs
Deep Learning VMs sind von VMware paketierte VMs (Ubuntu), die den Entwicklern als AI-Workstation dienen. AI-Workstations sind für den Entwicklungsprozess gedacht. Ist die Applikation für die Produktion bereit, sind Kubernetes-Cluster vorgesehen. Deep Learning VMs beinhalten:
- PyTorch
- TensorFlow
- CUDA Samples
- DCGM Exporter
- Triton Interference Server
- NVIDIA Treiber
- Docker
LLMs
LLMs von Null an zu trainieren benötigt schlichtweg zu viele Ressourcen, das Fine tuning kann aber durchaus auf einer PAIF Plattform stattfinden.
PAIF hat grundsätzlich keine Limitationen, welche LLMs eingesetzt werden können. Gängige LLMs sind:
- Llama3
- Mistral
- Falcon
Mit PAIF lassen sich ML-Modelle über Deep Learning-VMs und Kubernetes-Cluster verteilen, indem Sie eine zentrale Harbor-Container-Registry verwenden.
- Zentrale Speicherung von validierten LLMs
- Validierung der LLMs (z.B. mit Giskard)
- Mithilfe der RBAC Funktion in Harbor kann der Zugriff auf sensible Daten beschränken werden.
RAG und Vector Datenbanken
VectorDatenbanken, lösen Probleme, welche LLMs mit sich bringen:
- Genauigkeitsprobleme: LLMs können manchmal halluzinieren und falsche oder unsinnige Ergebnisse erzeugen.
- Aktualität: LLMs sind nur immer so aktuell, wie das letzte Training. Das LLM bei neuen Daten jedesmal zu trainieren benötigt zu viele Ressourcen.
- Mangelnde Nachvollziehbarkeit: LLMs können die Quellen ihrer Antworten oft nicht referenzieren oder zitieren, was Fragen über die Zuverlässigkeit der Informationen aufwirft.
Hier kommt Retrieval-Augmented Generation (RAG) ins Spiel. RAG kombiniert die Intelligenz von LLMs mit den unternehmenseigenen Daten, die in einer VectorDB gespeichert sind. Dieser Ansatz stellt sicher, dass die KI nicht nur ihr umfangreiches Training nutzt, sondern auch spezifische, aktuelle und zuverlässige Informationen aus den eigenen Daten des Unternehmens einbezieht.
Data Services Manager
Mithilfe des VMware Data Services Manager lassen sich VectorDBs für eine AI Use Case einfach provisionieren. DSM kann grundsätzlich MySQL und PostgresDB Services automatisiert provisionieren. Mit pgvector lässt sich auch eine DSM provisionierte PostgresDB als VectorDB nutzen.
Auch Upgrades von MySQL und Postgres lassen sich via DSM steuern. Ebenso ist eine Backuplösung integriert, welche die Backups auf Object Storage (S3) abspeichern lässt.
Self-Service via Aria Automation
Letztendlich sollen den ML-Ops Engineers und Entwicklern eine einfache Möglichkeit gegeben werden, um diese Infrastruktur zu konsumieren. Aria Automation stellt ein Self-Service Portal zu Verfügung, wo der Entwickler die Ressourcen bestellen kann und diese automatisiert bereitgestellt werden. Self-Service Catalog Items für PAIF sind folgende standardmässig vorhanden:
- AI Workstation (Bereitstellung einer Deep Learning VM)
- AI Kubernetes Clusters: vSphere Kubernetes Cluster mit NVIDIA GPU Operator
- Postgres pgvector Datenbank
Use Case
Um ein Beispiel eines AI-Services aufzuzeigen, lohnt sich folgender Blog Beitrag: Summarize und Chat Service mit VMware Private AI
Dieses Beispiel zeigt, wie mit VMware Private AI ein Service entwickelt werden kann, der Daten wie PDFs, DOCX, PPTX-Dateien sowie Audio- und Videodateien zusammenfasst. Über einen Chat können die Informationen aus diesen Daten abgefragt werden.
Der Source Code ist auf GitHub verfügbar.
Fazit
Mit VMware Private AI kommt die AI zu deinen Daten, nicht umgekehrt. Mit PAIF lassen sich interne Daten (auf Sharepoint, File Shares etc) mithilfe von bereits existierenden Modellen trainieren, um etwa einen internen ChatBot Service zu realisieren.
Weitere Infos:
Leave a Reply