エッジAIを正しく実装する: SMARCモジュール上での本番対応LLM+RAGの構築方法

私たちは、Qualcomm Dragonwing™ QCS6490エッジハードウェア上で、完全なRAG(Retrieval-Augmented Generation)パイプラインを備えたLlama 3.2 3Bを実装し、洗練されたAIアプリケーションがクラウド依存なしで本番環境で確実に動作できることを証明しました。これを実現するためのエンジニアリングの現実です。

本当のエンジニアリングの課題

「エッジでのAI」に関する誇大広告は何年も続いていますが、実際の生産環境に展開しようとするとほとんどの実装が期待に応えません。確かに、Raspberry Piでチャットボットを動かすことはできますが、次のような場合はどうでしょうか:

  • 実世界のAIワークロード下での持続的なパフォーマンス
  • 既存の産業システムとの統合
  • 過酷な環境での信頼性のある動作
  • 数百台にわたるコスト効率の良いスケーリング

Embedded Worldで、私たちは異なるものを示しました: Llama 3.2の3Bエッジ最適化モデルと完全なRAG実装を組み合わせた生産グレードのAIシステムで、クラウドのフォールバックなしで完全にエッジハードウェア上で動作します。

この実装が重要な理由

エッジハードウェア上でLLMを動かすことが重要なのではありません - Llama 3.2の軽量モデルは特にエッジデバイスやモバイルアプリケーション向けに構築されました。エンジニアリングの成果は、生産シナリオで信頼性を持って動作する完全なAIシステムを作り上げることにあります。

完全なシステムは、Llama 3.2の3Bエッジ最適化モデルと、ベクトル埋め込み、セマンティック検索、ローカルナレッジベースからのリアルタイムドキュメント取得を処理する完全なRAGパイプラインを統合しています。これにより、同時クエリ処理と産業用HMIシステムとのシームレスな統合が可能になり、パフォーマンスの低下はありません。

ハードウェアの基盤は、Qualcomm®のDragonwing™ QCS6490プロセッサを中心に構築されたSOM-SMARC-QCS6490モジュールで、8コアのQualcomm® Kryo™ 670 CPU、統合されたQualcomm® Dragonwing™ QCS6490プロセッサ、および最大12 TOPSの性能を持つQualcomm® Hexagon™ 770 NPUを備えています。標準的なSMARCフォームファクタは、産業グレードの信頼性と熱管理を維持しながら、簡単な統合を可能にします。

エンジニアリングの深掘り

実際にスケールするソフトウェアアーキテクチャ

私たちはこれをClea OSプラットフォーム上に構築しました。これはカスタムYoctoベースのシステムで、Clea AI StudioフレームワークがAIパイプライン全体をオーケストレーションします。このアーキテクチャは、QualcommのAI Hubを活用してハードウェア固有の最適化を行い、AI Engine Direct SDKを使用してCPU、GPU、NPUにワークロードをインテリジェントに分散します。推論エンジンには、メモリ効率の良いアプローチと組み込みの量子化サポートを持つLlama.cppを実装しました。

RAGの実装は、エッジの制約に対する慎重なエンジニアリングを必要としました。私たちは、設定可能な類似性しきい値を持つローカルベクトルデータベースを開発し、瞬時に取得できるメモリマップドキュメントストレージを実装し、取得操作中のブロッキングを防ぐ並列処理アーキテクチャを作成しました。

二段階のクエリプロセス

最初の段階であるデータクリーニングフェーズでは、システムがユーザー入力をクリーンアップし、埋め込みモデルとローカルドキュメントデータベースの両方に最適化します。これは単なるテキストクリーニングではなく、取得精度を大幅に向上させるセマンティックな前処理です。第二段階では、関連するドキュメントが取得され、ランク付けされ、元のクエリと共にLLMにコンテキストとして提供されます。モデルは、ローカルナレッジベースに事実に基づいた、文脈的に適切な応答を生成します。

生産で重要なパフォーマンス

持続的なテストから得られた実際の数値は、ドキュメント取得を伴う複雑な技術的クエリに対する応答遅延が2秒未満であることを示しています。システムは、フルロード時に4GBの総メモリフットプリントを維持し、アクティブなAI処理中に8-12Wを消費します。複数のユーザーが同時に操作でき、バックグラウンドでのドキュメントインデックス作成と並行してもパフォーマンスの低下はなく、産業環境で24時間365日稼働を維持します。

私たちが可能にしている実世界のアプリケーション

この実装は、以下を含む多くの実用的な産業アプリケーションを可能にします:

技術文書アシスタント - 機器のオペレーターは、手順、トラブルシューティング手順、または仕様に関する複雑な質問をすることができます。AIは、マニュアル、図面、メンテナンスログから関連するセクションを取得し、接続を必要とせずに包括的な回答を提供します。

予知保全インテリジェンス - 単純なしきい値アラートの代わりに、システムはセンサーデータを過去のパターンやメンテナンス文書と関連付けます。コンポーネントが故障する可能性がある理由を説明し、ローカルの専門知識データベースに基づいて特定の是正措置を提案できます。

産業用HMIの進化 - オペレーターは、従来のボタンとメニューのインターフェースを自然言語のインタラクションに変えることができ、システムの状態を問い合わせたり、レポートを要求したり、会話型インターフェースを通じて手順のガイダンスを受けたりすることができます。

統合の現実

SMARCフォームファクタは、主要なボードの再設計なしで既存の設計に組み込むことができます。私たちの顧客は、これを産業用制御パネル、自律走行車両制御ユニット、医療機器インターフェース、スマートビル管理システムに統合しています。Cleaフレームワークは、モデル展開、メモリ管理、システム統合の複雑さを処理するため、AIインフラストラクチャと戦うことなくアプリケーションロジックに集中できます。

次に来るもの

Dragonwing™ QCS6490の実装はコンセプトを証明しましたが、ここで止まるつもりはありません。Qualcomm Dragonwing™ QCS5430の開発は、フィールドでのパフォーマンススケーリングが重要な展開を対象としており、展開後にCPUパフォーマンスをアップグレードする能力が、長寿命の産業製品に新たな可能性を開きます。真剣な計算能力を必要とするアプリケーションには、Snapdragon Xの統合が、先進的な監視や品質管理システムでのリアルタイムビデオ分析と同時のLLM処理のために45 TOPSを提供します。

システムインテグレーター向け: 結論

Llama 3.2のエッジモデルは、モデルサイズを縮小しながらパフォーマンスを維持する剪定と知識蒸留技術を通じて最適化されましたが、それらを生産システムで信頼性を持って動作させるには、モデルを実行するだけではなく、かなりのエンジニアリング努力が必要です。

私たちはそのエンジニアリング作業を行いました。これは概念実証ではなく、生産準備が整ったプラットフォームであり、AI展開の複雑さを排除し、産業アプリケーションが要求するパフォーマンスと信頼性を提供します。

AIの未来はクラウドデータセンターに集中しているわけではありません。それは分散され、プライベートであり、意思決定が必要な場所で正確に動作しています。そして、それは今日展開できるハードウェアで利用可能です。

技術的な実装の詳細に興味がありますか? 私たちのエンジニアリングチームは、最適化技術、ベンチマーク方法論、および統合パターンを文書化しています。特定のエッジAI要件について話し合うために、私たちとつながってください。