Edge AI Fatto Bene: Come Abbiamo Costruito LLM+RAG Pronto per la Produzione su un Modulo SMARC

Abbiamo implementato Llama 3.2 3B con un'intera pipeline RAG (Retrieval-Augmented Generation) sull'hardware edge Qualcomm Dragonwing™ QCS6490, dimostrando che applicazioni AI sofisticate possono funzionare in modo affidabile in ambienti di produzione senza dipendenze dal cloud. Ecco la realtà ingegneristica dietro il suo funzionamento.

La vera sfida ingegneristica

Il clamore attorno all'"AI al margine" è cresciuto per anni, ma la maggior parte delle implementazioni non riesce a soddisfare le aspettative quando si cerca di distribuirle in ambienti di produzione reali. Certo, puoi eseguire un chatbot su un Raspberry Pi, ma cosa succede quando hai bisogno di:

  • Prestazioni sostenute sotto carichi di lavoro AI reali
  • Integrazione con sistemi industriali esistenti
  • Funzionamento affidabile in ambienti difficili
  • Scalabilità economica su centinaia di unità

All'Embedded World, abbiamo dimostrato qualcosa di diverso: un sistema AI di livello produttivo che combina il modello ottimizzato per il margine Llama 3.2's 3B con un'implementazione RAG completa, eseguendo interamente su hardware al margine senza fallback cloud.

Perché questa implementazione è importante

Il significato non sta nell'eseguire un LLM su hardware al margine - i modelli leggeri di Llama 3.2 sono stati specificamente costruiti per dispositivi al margine e applicazioni mobili. L'impresa ingegneristica sta nel creare un sistema AI completo che funzioni in modo affidabile in scenari di produzione.

Il sistema completo integra il modello ottimizzato per il margine Llama 3.2's 3B con un'intera pipeline RAG che gestisce incorporamenti vettoriali, ricerca semantica e recupero di documenti in tempo reale da basi di conoscenza locali. Questo funziona insieme all'elaborazione di query concorrenti e all'integrazione senza soluzione di continuità con i sistemi HMI industriali, tutto senza degrado delle prestazioni.

La base hardware è il nostro modulo SOM-SMARC-QCS6490, costruito attorno al processore Dragonwing™ QCS6490 di Qualcomm® con il suo CPU Qualcomm® Kryo™ 670 a 8 core, processore integrato Dragonwing™ QCS6490 di Qualcomm® e NPU Qualcomm® Hexagon™ 770 capace di fino a 12 TOPS. Il fattore di forma standard SMARC consente un'integrazione facile mantenendo l'affidabilità di grado industriale e la gestione termica che gli ambienti di produzione richiedono.

L'approfondimento ingegneristico

Architettura software che effettivamente scala

Abbiamo costruito questo sulla nostra piattaforma Clea OS, un sistema personalizzato basato su Yocto, con il nostro framework Clea AI Studio che orchestra l'intera pipeline AI. L'architettura sfrutta l'AI Hub di Qualcomm per ottimizzazioni specifiche dell'hardware mentre utilizza il loro AI Engine Direct SDK per distribuire intelligentemente i carichi di lavoro tra CPU, GPU e NPU. Per il motore di inferenza, abbiamo implementato Llama.cpp con il suo approccio efficiente in termini di memoria e supporto alla quantizzazione integrato.

L'implementazione RAG ha richiesto un'attenta ingegneria per i vincoli al margine. Abbiamo sviluppato un database vettoriale locale con soglie di similarità configurabili, implementato l'archiviazione di documenti mappata in memoria per il recupero istantaneo e creato un'architettura di elaborazione parallela che previene qualsiasi blocco durante le operazioni di recupero.

Il processo di query in due fasi

Durante la prima fase chiamata fase di pulizia dei dati, il sistema pulisce e riformula l'input dell'utente, ottimizzandolo sia per il modello di incorporamento che per il database di documenti locali. Questo non è solo pulizia del testo ma pre-elaborazione semantica che migliora significativamente l'accuratezza del recupero. Nella seconda fase, i documenti rilevanti vengono recuperati e classificati, quindi forniti come contesto all'LLM insieme alla query originale. Il modello genera risposte che sono sia fattualmente fondate nella base di conoscenza locale sia contestualmente appropriate.

Prestazioni che contano in produzione

I numeri reali da test sostenuti, non scenari demo selezionati, mostrano una latenza di risposta inferiore a 2 secondi per query tecniche complesse con recupero di documenti. Il sistema mantiene un'impronta di memoria totale di 4GB sotto carico completo mentre consuma 8-12W durante l'elaborazione AI attiva. Più utenti possono operare contemporaneamente insieme all'indicizzazione dei documenti in background senza degrado delle prestazioni, e il sistema mantiene un funzionamento 24/7 in ambienti industriali.

Applicazioni reali che stiamo abilitando

Questa implementazione abilita una serie di applicazioni industriali pratiche, tra cui:

Assistente alla documentazione tecnica - Gli operatori delle attrezzature possono porre domande complesse su procedure, passaggi di risoluzione dei problemi o specifiche. L'AI recupera sezioni rilevanti da manuali, schemi e registri di manutenzione, fornendo risposte complete senza necessità di connettività.

Intelligenza per la manutenzione predittiva - Invece di semplici avvisi di soglia, il sistema correla i dati dei sensori con modelli storici e documentazione di manutenzione. Può spiegare perché un componente potrebbe guastarsi e suggerire azioni correttive specifiche basate su database di competenze locali.

Evoluzione HMI industriale - Gli operatori possono trasformare le interfacce tradizionali a pulsanti e menu in interazioni in linguaggio naturale, interrogando lo stato del sistema, richiedendo report o ottenendo guida procedurale attraverso interfacce conversazionali che comprendono il contesto tecnico.

La realtà dell'integrazione

Il fattore di forma SMARC significa che questo si inserisce nei design esistenti senza grandi ridisegni delle schede. I nostri clienti stanno integrando questo nei pannelli di controllo industriali, unità di controllo dei veicoli autonomi, interfacce per dispositivi medici e sistemi di gestione degli edifici intelligenti. Il framework Clea gestisce la complessità della distribuzione del modello, della gestione della memoria e dell'integrazione del sistema, così puoi concentrarti sulla logica della tua applicazione piuttosto che combattere con l'infrastruttura AI.

Cosa verrà dopo

L'implementazione del Dragonwing™ QCS6490 dimostra il concetto, ma non ci fermiamo qui. Il nostro sviluppo del Qualcomm Dragonwing™ QCS5430 mira a distribuzioni dove la scalabilità delle prestazioni sul campo è critica, poiché la capacità di aggiornare le prestazioni della CPU post-distribuzione apre nuove possibilità per prodotti industriali a lungo ciclo di vita. Per applicazioni che richiedono una potenza di calcolo seria, la nostra integrazione Snapdragon X offrirà 45 TOPS per l'analisi video in tempo reale con elaborazione LLM simultanea in sistemi avanzati di sorveglianza o controllo qualità.

Per gli integratori di sistema: il punto fondamentale

I modelli al margine di Llama 3.2 sono stati ottimizzati attraverso tecniche di potatura e distillazione della conoscenza che riducono le dimensioni del modello mantenendo le prestazioni, ma farli funzionare in modo affidabile nei sistemi di produzione richiede un notevole sforzo ingegneristico oltre alla semplice esecuzione del modello.

Abbiamo fatto quel lavoro ingegneristico. Questo non è un proof of concept - è una piattaforma pronta per la produzione che elimina la complessità della distribuzione AI fornendo le prestazioni e l'affidabilità che le applicazioni industriali richiedono.

Il futuro dell'AI non è centralizzato nei data center cloud. È distribuito, privato e funziona esattamente dove ne hai bisogno per prendere decisioni. Ed è disponibile ora su hardware che puoi distribuire oggi.

Interessato ai dettagli tecnici dell'implementazione? Il nostro team di ingegneri sta documentando le tecniche di ottimizzazione, le metodologie di benchmarking e i modelli di integrazione. Connettiti con noi per discutere le tue specifiche esigenze AI al margine.