SCORM → RAG

使われなくなったSCORMコースを生きたナレッジベースに変える

企業には、LMSで放置されている大量のSCORMパッケージがあります。その中には、RAGパイプラインが必要とするドメイン知識(研修手順、コンプライアンス規則、製品仕様)がまさに詰まっています。ScormParserがパッケージを解析し、構造化されたエンベディング対応コンテンツをお渡しします。手作業不要。1回のAPIコールで完了。

SCORMパッケージがRAGの宝庫である理由

企業の研修ライブラリには数十年分のドメイン知識が蓄積されています。安全手順、コンプライアンス要件、製品仕様、オンボーディングプロセス。これらのコンテンツは、専門家が多大なコストをかけて作成したものです。しかし、AIパイプラインではなくLMS相互運用のために設計されたSCORMパッケージに閉じ込められています。

ScormParserがそのギャップを埋めます。AIエンジンがSCORMの内部構造を理解し、すべてのコンテンツアセットを抽出、音声・動画を文字起こし、エンベディング対応のチャンク分割コンテンツとして出力します。

仕組み

APIでSCORM ZIPパッケージをアップロード。ScormParserのAIがパッケージ全体を処理します。テキストコンテンツの抽出、音声認識による音声・動画の文字起こし、すべてをクリーンなMarkdownまたはJSONに構造化。出力には、人気のエンベディングモデルに最適化された事前計算チャンク境界が含まれます。

エンベディングモデルごとのチャンク戦略

エンベディングモデルごとにコンテキストウィンドウが異なり、最適なチャンクサイズも異なります。ScormParserでは、OpenAIのtext-embedding-3-large、Cohereのembed-v3、BGEやE5などのオープンソースモデルなど、お使いのモデルに合わせてチャンキング戦略を設定できます。各チャンクにはコース階層メタデータが含まれるため、検索パイプラインでコンテキストが保持されます。

chunk-output.json
{
  "text": "All forklift operators must complete...",
  "metadata": {
    "course": "Warehouse Safety 2024",
    "module": "Equipment Operation",
    "slide": 7
  }
}

人気ベクトルデータベースとの連携

ScormParserのチャンク分割出力は、人気のベクトルデータベースへの直接取り込みに対応しています。Pinecone、Weaviate、Qdrant、ChromaDBへカスタム変換コードを書くことなくチャンクをロード。出力フォーマットがこれらのデータベースの期待する形式と一致しているため、SCORMから検索可能なナレッジまで数分で到達できます。

よくある質問

ScormParserのRAG出力ではどのようなチャンクサイズが使われますか?

+

ScormParserは人気のエンベディングモデルに最適化されたスマートデフォルトを使用しています。特定のモデルの最適コンテキストウィンドウに合わせて、APIでチャンクサイズとオーバーラップを完全にカスタマイズできます。

チャンキング戦略をカスタマイズできますか?

+

はい。APIではチャンキングのサイズ、オーバーラップ、分割戦略を完全にコントロールできます。コースモジュール単位で分割して、チャンクのトピックを単一のテーマに限定することも可能です。

チャンクメタデータにコース階層は保持されますか?

+

すべてのチャンクに、完全なコース階層のメタデータが含まれます。コースタイトル、モジュール名、スライド番号、コンテンツタイプ(テキスト、トランスクリプト、クイズ)。これにより、RAGパイプラインで元のコース構造における位置に基づいて結果をフィルタリング・重み付けできます。

RAG出力でマルチメディアコンテンツはどう処理されますか?

+

音声・動画コンテンツはAIで文字起こしされ、適切なメタデータ付きのテキストチャンクとして含まれます。Altテキスト付きの画像も含まれます。これにより、テキストスライドだけでなく、すべてのコース知識が検索対象になります。

関連ソリューション

SCORMからRAGへの変換を今すぐ開始

ベータに参加して月5パッケージまで無料で変換。

  • 無料プランあり
  • クレジットカード不要
  • フルAPI アクセス

早期アクセスに登録

メールアドレスを入力してください。ScormParserのローンチ時にお知らせします。