Skip to content

Extraindo Conteúdo de Sites para Base de Conhecimento

Este guia mostra como usar ferramentas externas de webscraping para extrair conteúdo de sites e importá-lo na sua Base de Conhecimento do SipPulse AI. Recomendamos usar ferramentas especializadas projetadas especificamente para extração de dados da web.

Por Que Usar Ferramentas Externas de Scraping?

Ferramentas externas de webscraping oferecem várias vantagens:

  • Funcionalidade especializada: Ferramentas como Web Scraper.io e Octoparse são construídas especificamente para extração de dados
  • Interfaces visuais: Seleção de conteúdo com point-and-click sem programação
  • Flexibilidade de exportação: Exportação direta para formatos CSV, JSON ou Excel
  • Agendamento: Muitas ferramentas suportam scraping periódico automatizado
  • Melhor controle: Controle refinado sobre qual conteúdo extrair

Ferramentas Recomendadas

1. Web Scraper.io (Extensão Gratuita para Chrome)

Melhor para: Usuários não-técnicos que querem uma solução gratuita e simples

  • Website: https://webscraper.io/
  • Custo: Gratuito (extensão Chrome com uso local ilimitado)
  • Formatos de exportação: CSV, XLSX
  • Dificuldade: Amigável para iniciantes

Por Que Recomendamos

Web Scraper.io não requer programação, funciona diretamente no seu navegador e exporta para formato CSV que importa diretamente na Base de Conhecimento.

2. Octoparse

Melhor para: Usuários que precisam de scraping assistido por IA com mais recursos

  • Website: https://www.octoparse.com/
  • Custo: Plano gratuito disponível, planos pagos para recursos avançados
  • Formatos de exportação: CSV, Excel, JSON, Google Sheets
  • Dificuldade: Amigável para iniciantes com auto-detecção por IA

3. ParseHub

Melhor para: Sites complexos com conteúdo dinâmico

  • Website: https://www.parsehub.com/
  • Custo: Plano gratuito (5 projetos), planos pagos disponíveis
  • Formatos de exportação: CSV, JSON, Excel
  • Dificuldade: Intermediário

Tutorial: Extraindo a Documentação do SipPulse AI

Vamos fazer um exemplo prático: extrair o conteúdo da documentação do SipPulse AI em https://docs.sippulse.ai para criar uma base de conhecimento que um agente pode usar para responder perguntas sobre a plataforma.

Passo 1: Instalar Web Scraper.io

  1. Abra o Google Chrome
  2. Acesse a Extensão Web Scraper.io
  3. Clique em Usar no Chrome

Passo 2: Criar um Sitemap para Docs SipPulse

  1. Navegue até https://docs.sippulse.ai
  2. Pressione F12 para abrir as DevTools do Chrome
  3. Clique na aba Web Scraper
  4. Clique em Create new sitemap > Create Sitemap
  5. Configure:
    • Sitemap name: sippulse-docs
    • Start URL: https://docs.sippulse.ai
  1. Clique em Add new selector
  2. Configure o primeiro seletor para capturar a navegação lateral:
    • Id: nav-links
    • Type: Link
    • Selector: Clique em Select, depois clique nos links da sidebar (como "Iniciando", "Agentes", etc.)
    • Marque Multiple (para capturar todos os links)
  3. Clique em Done selecting e Save selector

Passo 4: Criar Seletores de Conteúdo

  1. Clique no seletor nav-links, depois Add new selector (seletor filho)
  2. Configure o seletor de título:
    • Id: title
    • Type: Text
    • Selector: Clique em Select, depois clique no título da página (h1)
  3. Adicione outro seletor filho para o conteúdo:
    • Id: content
    • Type: Text
    • Selector: .vp-doc (o container principal de conteúdo do VitePress)
  4. Adicione seletor de URL:
    • Id: page-url
    • Type: Text
    • Selector: _url_ (seletor especial para URL atual)

Passo 5: Executar o Scraper

  1. Clique em Sitemap (sippulse-docs) > Scrape
  2. Defina Request interval: 2000 (2 segundos entre requisições)
  3. Clique em Start scraping
  4. Aguarde a conclusão (o scraper navegará por todas as páginas)

Passo 6: Exportar e Limpar

  1. Clique em Sitemap (sippulse-docs) > Export data as CSV
  2. Abra o CSV no Google Sheets ou Excel
  3. Limpe os dados:
    • Remova linhas com content vazio
    • Remova URLs duplicadas
    • Renomeie as colunas para: titulo, conteudo, url
  4. Salve como CSV (codificação UTF-8)

Passo 7: Importar na Base de Conhecimento

  1. No SipPulse AI, vá para Base de Conhecimento
  2. Clique em + Criar Tabela > Carregar Arquivo
  3. Configure:
    • Nome: sippulse_docs_kb
    • Descrição: "Documentação da plataforma SipPulse AI para responder perguntas de usuários sobre recursos e uso"
    • Modelo de Embedding: text-embedding-3-large
  4. Faça upload do seu CSV
  5. Clique em Salvar

Passo 8: Testar sua Base de Conhecimento

  1. Clique na tabela criada
  2. Clique em Consultar
  3. Teste com perguntas como:
    • "Como criar um agente?"
    • "Quais modelos estão disponíveis para texto-para-fala?"
    • "Como configurar webhooks?"
  4. Verifique se os trechos retornados são relevantes

Requisitos de Formato CSV

Para melhores resultados, estruture seu CSV com estas colunas:

ColunaObrigatórioDescrição
conteudoSimO texto principal a ser vetorizado
tituloRecomendadoTítulo da página ou seção
urlRecomendadoURL fonte para referência
categoriaOpcionalNome da categoria ou seção

Exemplo de CSV:

csv
titulo,conteudo,url,categoria
"Primeiros Passos","Bem-vindo à nossa plataforma. Este guia vai ajudá-lo...","https://docs.exemplo.com/inicio","basico"
"Autenticação da API","Todas as requisições de API requerem autenticação usando...","https://docs.exemplo.com/api/auth","api"

Alternativa em Formato JSON

Você também pode usar formato JSON para dados mais estruturados:

json
[
  {
    "titulo": "Primeiros Passos",
    "conteudo": "Bem-vindo à nossa plataforma. Este guia vai ajudá-lo...",
    "url": "https://docs.exemplo.com/inicio",
    "categoria": "basico"
  },
  {
    "titulo": "Autenticação da API",
    "conteudo": "Todas as requisições de API requerem autenticação usando...",
    "url": "https://docs.exemplo.com/api/auth",
    "categoria": "api"
  }
]

Boas Práticas

Qualidade do Conteúdo

  • Remova elementos de navegação: Exclua menus, rodapés e sidebars dos seus seletores
  • Mantenha chunks razoáveis: Mire em 500-2000 palavras por entrada para busca semântica otimizada
  • Inclua contexto: Adicione títulos e URLs para que o agente possa referenciar as fontes

Respeitando os Sites

  • Verifique o robots.txt: Garanta que o site permite scraping
  • Use delays: Configure intervalos razoáveis entre requisições (2+ segundos)
  • Não sobrecarregue servidores: Limite requisições concorrentes
  • Respeite os termos de serviço: Alguns sites proíbem scraping automatizado

Mantendo o Conteúdo Atualizado

Como conteúdo obtido por scraping é estático, estabeleça uma rotina para:

  1. Re-executar seu scraper periodicamente (semanal/mensal)
  2. Exportar novos arquivos CSV
  3. Deletar e recriar a tabela da Base de Conhecimento com dados atualizados
  4. Ou usar a função Sincronizar após adicionar novas linhas

Solução de Problemas

P: O scraper não está capturando todas as páginas

Verifique a profundidade do seu seletor de links e garanta que está seguindo todos os links de navegação. Aumente o limite máximo de páginas se necessário.

P: O conteúdo tem tags HTML ou problemas de formatação

A maioria dos scrapers extrai texto puro, mas alguns podem incluir HTML. Limpe os dados em uma planilha antes de importar.

P: A importação do CSV falha

Garanta que seu CSV:

  • Use codificação UTF-8
  • Tenha cabeçalhos de coluna adequados
  • Não exceda o tamanho máximo de arquivo (verifique os limites da plataforma)
  • Tenha conteúdo em cada linha

Próximos Passos

Após importar o conteúdo do seu site:

  1. Teste a busca semântica: Use a função Consultar para verificar se o conteúdo foi indexado corretamente
  2. Conecte a um agente: Adicione a Base de Conhecimento como ferramenta na configuração do seu agente
  3. Valide as respostas: Teste o agente com perguntas que sua documentação deveria responder

Para um passo a passo completo de criação de um agente com Base de Conhecimento, veja nosso Tutorial de Agente de Suporte.