Extraindo Conteúdo de Sites para Base de Conhecimento
Este guia mostra como usar ferramentas externas de webscraping para extrair conteúdo de sites e importá-lo na sua Base de Conhecimento do SipPulse AI. Recomendamos usar ferramentas especializadas projetadas especificamente para extração de dados da web.
Por Que Usar Ferramentas Externas de Scraping?
Ferramentas externas de webscraping oferecem várias vantagens:
- Funcionalidade especializada: Ferramentas como Web Scraper.io e Octoparse são construídas especificamente para extração de dados
- Interfaces visuais: Seleção de conteúdo com point-and-click sem programação
- Flexibilidade de exportação: Exportação direta para formatos CSV, JSON ou Excel
- Agendamento: Muitas ferramentas suportam scraping periódico automatizado
- Melhor controle: Controle refinado sobre qual conteúdo extrair
Ferramentas Recomendadas
1. Web Scraper.io (Extensão Gratuita para Chrome)
Melhor para: Usuários não-técnicos que querem uma solução gratuita e simples
- Website: https://webscraper.io/
- Custo: Gratuito (extensão Chrome com uso local ilimitado)
- Formatos de exportação: CSV, XLSX
- Dificuldade: Amigável para iniciantes
Por Que Recomendamos
Web Scraper.io não requer programação, funciona diretamente no seu navegador e exporta para formato CSV que importa diretamente na Base de Conhecimento.
2. Octoparse
Melhor para: Usuários que precisam de scraping assistido por IA com mais recursos
- Website: https://www.octoparse.com/
- Custo: Plano gratuito disponível, planos pagos para recursos avançados
- Formatos de exportação: CSV, Excel, JSON, Google Sheets
- Dificuldade: Amigável para iniciantes com auto-detecção por IA
3. ParseHub
Melhor para: Sites complexos com conteúdo dinâmico
- Website: https://www.parsehub.com/
- Custo: Plano gratuito (5 projetos), planos pagos disponíveis
- Formatos de exportação: CSV, JSON, Excel
- Dificuldade: Intermediário
Tutorial: Extraindo a Documentação do SipPulse AI
Vamos fazer um exemplo prático: extrair o conteúdo da documentação do SipPulse AI em https://docs.sippulse.ai para criar uma base de conhecimento que um agente pode usar para responder perguntas sobre a plataforma.
Passo 1: Instalar Web Scraper.io
- Abra o Google Chrome
- Acesse a Extensão Web Scraper.io
- Clique em Usar no Chrome
Passo 2: Criar um Sitemap para Docs SipPulse
- Navegue até
https://docs.sippulse.ai - Pressione F12 para abrir as DevTools do Chrome
- Clique na aba Web Scraper
- Clique em Create new sitemap > Create Sitemap
- Configure:
- Sitemap name:
sippulse-docs - Start URL:
https://docs.sippulse.ai
- Sitemap name:
Passo 3: Configurar Links de Navegação
- Clique em Add new selector
- Configure o primeiro seletor para capturar a navegação lateral:
- Id:
nav-links - Type:
Link - Selector: Clique em Select, depois clique nos links da sidebar (como "Iniciando", "Agentes", etc.)
- Marque Multiple (para capturar todos os links)
- Id:
- Clique em Done selecting e Save selector
Passo 4: Criar Seletores de Conteúdo
- Clique no seletor
nav-links, depois Add new selector (seletor filho) - Configure o seletor de título:
- Id:
title - Type:
Text - Selector: Clique em Select, depois clique no título da página (
h1)
- Id:
- Adicione outro seletor filho para o conteúdo:
- Id:
content - Type:
Text - Selector:
.vp-doc(o container principal de conteúdo do VitePress)
- Id:
- Adicione seletor de URL:
- Id:
page-url - Type:
Text - Selector:
_url_(seletor especial para URL atual)
- Id:
Passo 5: Executar o Scraper
- Clique em Sitemap (sippulse-docs) > Scrape
- Defina Request interval:
2000(2 segundos entre requisições) - Clique em Start scraping
- Aguarde a conclusão (o scraper navegará por todas as páginas)
Passo 6: Exportar e Limpar
- Clique em Sitemap (sippulse-docs) > Export data as CSV
- Abra o CSV no Google Sheets ou Excel
- Limpe os dados:
- Remova linhas com
contentvazio - Remova URLs duplicadas
- Renomeie as colunas para:
titulo,conteudo,url
- Remova linhas com
- Salve como CSV (codificação UTF-8)
Passo 7: Importar na Base de Conhecimento
- No SipPulse AI, vá para Base de Conhecimento
- Clique em + Criar Tabela > Carregar Arquivo
- Configure:
- Nome:
sippulse_docs_kb - Descrição: "Documentação da plataforma SipPulse AI para responder perguntas de usuários sobre recursos e uso"
- Modelo de Embedding:
text-embedding-3-large
- Nome:
- Faça upload do seu CSV
- Clique em Salvar
Passo 8: Testar sua Base de Conhecimento
- Clique na tabela criada
- Clique em Consultar
- Teste com perguntas como:
- "Como criar um agente?"
- "Quais modelos estão disponíveis para texto-para-fala?"
- "Como configurar webhooks?"
- Verifique se os trechos retornados são relevantes
Requisitos de Formato CSV
Para melhores resultados, estruture seu CSV com estas colunas:
| Coluna | Obrigatório | Descrição |
|---|---|---|
conteudo | Sim | O texto principal a ser vetorizado |
titulo | Recomendado | Título da página ou seção |
url | Recomendado | URL fonte para referência |
categoria | Opcional | Nome da categoria ou seção |
Exemplo de CSV:
titulo,conteudo,url,categoria
"Primeiros Passos","Bem-vindo à nossa plataforma. Este guia vai ajudá-lo...","https://docs.exemplo.com/inicio","basico"
"Autenticação da API","Todas as requisições de API requerem autenticação usando...","https://docs.exemplo.com/api/auth","api"Alternativa em Formato JSON
Você também pode usar formato JSON para dados mais estruturados:
[
{
"titulo": "Primeiros Passos",
"conteudo": "Bem-vindo à nossa plataforma. Este guia vai ajudá-lo...",
"url": "https://docs.exemplo.com/inicio",
"categoria": "basico"
},
{
"titulo": "Autenticação da API",
"conteudo": "Todas as requisições de API requerem autenticação usando...",
"url": "https://docs.exemplo.com/api/auth",
"categoria": "api"
}
]Boas Práticas
Qualidade do Conteúdo
- Remova elementos de navegação: Exclua menus, rodapés e sidebars dos seus seletores
- Mantenha chunks razoáveis: Mire em 500-2000 palavras por entrada para busca semântica otimizada
- Inclua contexto: Adicione títulos e URLs para que o agente possa referenciar as fontes
Respeitando os Sites
- Verifique o robots.txt: Garanta que o site permite scraping
- Use delays: Configure intervalos razoáveis entre requisições (2+ segundos)
- Não sobrecarregue servidores: Limite requisições concorrentes
- Respeite os termos de serviço: Alguns sites proíbem scraping automatizado
Mantendo o Conteúdo Atualizado
Como conteúdo obtido por scraping é estático, estabeleça uma rotina para:
- Re-executar seu scraper periodicamente (semanal/mensal)
- Exportar novos arquivos CSV
- Deletar e recriar a tabela da Base de Conhecimento com dados atualizados
- Ou usar a função Sincronizar após adicionar novas linhas
Solução de Problemas
P: O scraper não está capturando todas as páginas
Verifique a profundidade do seu seletor de links e garanta que está seguindo todos os links de navegação. Aumente o limite máximo de páginas se necessário.
P: O conteúdo tem tags HTML ou problemas de formatação
A maioria dos scrapers extrai texto puro, mas alguns podem incluir HTML. Limpe os dados em uma planilha antes de importar.
P: A importação do CSV falha
Garanta que seu CSV:
- Use codificação UTF-8
- Tenha cabeçalhos de coluna adequados
- Não exceda o tamanho máximo de arquivo (verifique os limites da plataforma)
- Tenha conteúdo em cada linha
Próximos Passos
Após importar o conteúdo do seu site:
- Teste a busca semântica: Use a função Consultar para verificar se o conteúdo foi indexado corretamente
- Conecte a um agente: Adicione a Base de Conhecimento como ferramenta na configuração do seu agente
- Valide as respostas: Teste o agente com perguntas que sua documentação deveria responder
Para um passo a passo completo de criação de um agente com Base de Conhecimento, veja nosso Tutorial de Agente de Suporte.
