Pular para o conteúdo principal
O step Marker Document Processing converte arquivos complexos (PDF, DOCX, PPTX, imagens, etc.) em Markdown estruturado, preservando a organização do conteúdo. Ele é ideal para transformar materiais ricos em dados limpos e utilizáveis por agentes de IA.

O que é o Step?

Este step atua como um conversor universal de documentos, traduzindo diferentes formatos em texto estruturado. Na prática, ele:
  • Lê arquivos como PDF, Word, apresentações e imagens
  • Interpreta estrutura (títulos, listas, tabelas, etc.)
  • Converte tudo para Markdown
  • Entrega um conteúdo organizado e pronto para uso em IA
Diferente de outros steps:
  • Não gera apenas texto bruto
  • Preserva estrutura lógica do documento

Onde encontrar

  1. Acesse o AI Studio
  2. Clique em Add AI Step
  3. Selecione Document Processing
  4. Escolha Marker Document Processing
Image

Como usar?

Campos de configuração

CampoObrigatórioDescrição
Step NameSimNome interno do step (alfanumérico). Usado como referência no agente
File URLSimURL direta do arquivo (deve terminar com extensão: .pdf, .docx, .jpg, etc.)
Processing ModeSimDefine qualidade vs velocidade: Fast, Balanced, Accurate
Use LLMNãoYes/No. Melhora precisão (tabelas, layout, formulários), mas aumenta tempo
Max PagesNãoNúmero máximo de páginas a processar
Page RangeNãoIntervalo de páginas (ex: 0,2-4)
Regras importantes de configuração
  • Max Pages e Page Range são mutuamente exclusivos
  • File URL deve ser direto (não pode ser página de preview)
  • Use LLM aumenta custo e tempo de processamento

Explicação mais profunda

Esse step funciona como um tradutor de documentos para linguagem estruturada (Markdown).

Fluxo

Documento (PDF, DOCX, imagem…) → Step interpreta estruturaConverte para Markdown → Agente recebe conteúdo organizado

Markdown vs Texto puro

Comparação prática:
  • Extract Text (DOCX, TXT, etc.) → texto linear bruto
  • Marker Document Processing → texto estruturado (com hierarquia)
Exemplo: # Título ## Subtítulo - Item 1 - Item 2 | Coluna A | Coluna B | |----------|----------|

Exemplos práticos

  • PDFs, apresentações e e-books
  • Converter tudo para Markdown
  • Usar como base para geração de conteúdo
  • Processar contratos ou propostas
  • Ativar Use LLM para melhor leitura de tabelas
  • Extrair:
    • valores
    • prazos
    • cláusulas
  • PDFs, imagens, DOCX
  • Padronizar tudo em Markdown
  • Agente compara com vaga automaticamente
  • Documentos internos → Markdown
  • Alimentar agentes de suporte ou FAQ
Prompt:
“Extraia todas as tabelas e organize os dados em formato estruturado.”
Boas práticas
  • Teste usar “Balanced” como padrão: Melhor custo-benefício, mas avalie se não for o melhor resultado para você
  • Use LLMs mais robustos para documentos complexos, especialmente: tabelas, formulários e layouts quebrados
  • Use Page Range para documentos grandes: Evita consumo desnecessário
  • Garanta URL direta: Ex: .pdf, .docx (não Google Drive preview)
  • Combine com outros steps: Marker → análise → salvar no Drive/Sheets

Observações importantes

  • Links com login ou preview não funcionam
  • Use LLM aumenta tempo e custo
  • Arquivos grandes impactam performance
  • Estrutura é preservada, mas não perfeita em todos os casos
O Marker Document Processing é o step mais poderoso para lidar com documentos complexos. Ao converter múltiplos formatos em Markdown estruturado, ele permite que agentes de IA trabalhem com dados organizados, preservando contexto e hierarquia — essencial para análises mais precisas e automações robustas.