SCORM → RAG

Transforme Cursos SCORM Mortos em uma Base de Conhecimento Viva

Sua empresa tem centenas de pacotes SCORM juntando poeira em um LMS. Dentro deles está exatamente o conhecimento de domínio que seu pipeline RAG precisa — procedimentos de treinamento, regras de compliance, especificações de produtos. O ScormParser abre esses pacotes e entrega conteúdo estruturado, pronto para embeddings. Sem trabalho manual. Uma chamada de API.

Por que pacotes SCORM são minas de ouro para RAG

Bibliotecas de treinamento corporativo contêm décadas de conhecimento de domínio acumulado — procedimentos de segurança, requisitos de compliance, especificações de produtos, processos de onboarding. Este conteúdo foi criado por especialistas a um custo significativo. Mas está preso dentro de pacotes SCORM que foram projetados para interoperabilidade de LMS, não para pipelines de IA.

O ScormParser faz a ponte. Nosso motor de IA entende a estrutura interna do SCORM, extrai cada ativo de conteúdo, transcreve áudio e vídeo e gera conteúdo pré-segmentado pronto para embeddings.

Como funciona

Faça upload de um pacote SCORM ZIP pela nossa API. A IA do ScormParser processa o pacote inteiro — extraindo conteúdo textual, transcrevendo áudio e vídeo com reconhecimento de fala e estruturando tudo em Markdown ou JSON limpo. A saída inclui limites de chunks pré-calculados otimizados para modelos de embedding populares.

Estratégias de chunking para diferentes modelos de embedding

Diferentes modelos de embedding têm diferentes janelas de contexto e performam melhor com diferentes tamanhos de chunk. O ScormParser permite configurar estratégias de chunking para corresponder ao seu modelo — seja usando text-embedding-3-large da OpenAI, embed-v3 da Cohere ou modelos open-source como BGE ou E5. Cada chunk inclui metadados de hierarquia do curso para que seu pipeline de recuperação preserve o contexto.

chunk-output.json
{
  "text": "All forklift operators must complete...",
  "metadata": {
    "course": "Warehouse Safety 2024",
    "module": "Equipment Operation",
    "slide": 7
  }
}

Integração com bancos de dados vetoriais populares

A saída segmentada do ScormParser é projetada para ingestão direta nos bancos de dados vetoriais populares. Carregue chunks direto no Pinecone, Weaviate, Qdrant ou ChromaDB sem escrever código de transformação customizado. O formato de saída se alinha com o que esses bancos de dados esperam, então você vai de SCORM a conhecimento pesquisável em minutos.

Perguntas Frequentes

Quais tamanhos de chunk o ScormParser usa para saída RAG?

+

O ScormParser usa padrões inteligentes otimizados para modelos de embedding populares. Você pode personalizar totalmente tamanhos de chunk e sobreposição pela API para corresponder à janela de contexto ideal do seu modelo específico.

Posso personalizar a estratégia de chunking?

+

Sim. A API oferece controle total sobre o chunking — tamanho, sobreposição e estratégia de divisão. Você também pode dividir por módulo do curso para manter chunks tematicamente restritos a uma única área de assunto.

A hierarquia do curso é preservada nos metadados dos chunks?

+

Cada chunk inclui metadados com a hierarquia completa do curso: título do curso, nome do módulo, número do slide e tipo de conteúdo (texto, transcrição, quiz). Isso permite que seu pipeline RAG filtre e pondere resultados com base em onde o conteúdo apareceu na estrutura original do curso.

Como o ScormParser lida com conteúdo multimídia na saída RAG?

+

Conteúdo de áudio e vídeo é transcrito pela IA e incluído como chunks de texto com metadados apropriados. Imagens com texto alternativo também são incluídas. Isso garante que todo o conhecimento do curso — não apenas slides de texto — esteja disponível para recuperação.

Soluções Relacionadas

Comece a converter SCORM para RAG hoje

Entre no beta e ganhe 5 conversões de pacotes grátis por mês.

  • Plano gratuito disponível
  • Sem cartão de crédito
  • Acesso completo à API

Reserve sua vaga

Digite seu e-mail e avisaremos quando o ScormParser for lançado.