Extraindo Conteúdo de Sites para Base de Conhecimento

Este guia mostra como usar ferramentas externas de webscraping para extrair conteúdo de sites e importá-lo na sua Base de Conhecimento do SipPulse AI. Recomendamos usar ferramentas especializadas projetadas especificamente para extração de dados da web.

Por Que Usar Ferramentas Externas de Scraping?

Ferramentas externas de webscraping oferecem várias vantagens:

Funcionalidade especializada: Ferramentas como Web Scraper.io e Octoparse são construídas especificamente para extração de dados
Interfaces visuais: Seleção de conteúdo com point-and-click sem programação
Flexibilidade de exportação: Exportação direta para formatos CSV, JSON ou Excel
Agendamento: Muitas ferramentas suportam scraping periódico automatizado
Melhor controle: Controle refinado sobre qual conteúdo extrair

Ferramentas Recomendadas

1. Web Scraper.io (Extensão Gratuita para Chrome)

Melhor para: Usuários não-técnicos que querem uma solução gratuita e simples

Website: https://webscraper.io/
Custo: Gratuito (extensão Chrome com uso local ilimitado)
Formatos de exportação: CSV, XLSX
Dificuldade: Amigável para iniciantes

Por Que Recomendamos

Web Scraper.io não requer programação, funciona diretamente no seu navegador e exporta para formato CSV que importa diretamente na Base de Conhecimento.

2. Octoparse

Melhor para: Usuários que precisam de scraping assistido por IA com mais recursos

Website: https://www.octoparse.com/
Custo: Plano gratuito disponível, planos pagos para recursos avançados
Formatos de exportação: CSV, Excel, JSON, Google Sheets
Dificuldade: Amigável para iniciantes com auto-detecção por IA

3. ParseHub

Melhor para: Sites complexos com conteúdo dinâmico

Website: https://www.parsehub.com/
Custo: Plano gratuito (5 projetos), planos pagos disponíveis
Formatos de exportação: CSV, JSON, Excel
Dificuldade: Intermediário

Tutorial: Extraindo a Documentação do SipPulse AI

Vamos fazer um exemplo prático: extrair o conteúdo da documentação do SipPulse AI em https://docs.sippulse.ai para criar uma base de conhecimento que um agente pode usar para responder perguntas sobre a plataforma.

Passo 1: Instalar Web Scraper.io

Abra o Google Chrome
Acesse a Extensão Web Scraper.io
Clique em Usar no Chrome

Passo 2: Criar um Sitemap para Docs SipPulse

Navegue até https://docs.sippulse.ai
Pressione F12 para abrir as DevTools do Chrome
Clique na aba Web Scraper
Clique em Create new sitemap > Create Sitemap
Configure:
- Sitemap name: sippulse-docs
- Start URL: https://docs.sippulse.ai

Passo 3: Configurar Links de Navegação

Clique em Add new selector
Configure o primeiro seletor para capturar a navegação lateral:
- Id: nav-links
- Type: Link
- Selector: Clique em Select, depois clique nos links da sidebar (como "Iniciando", "Agentes", etc.)
- Marque Multiple (para capturar todos os links)
Clique em Done selecting e Save selector

Passo 4: Criar Seletores de Conteúdo

Clique no seletor nav-links, depois Add new selector (seletor filho)
Configure o seletor de título:
- Id: title
- Type: Text
- Selector: Clique em Select, depois clique no título da página (h1)
Adicione outro seletor filho para o conteúdo:
- Id: content
- Type: Text
- Selector: .vp-doc (o container principal de conteúdo do VitePress)
Adicione seletor de URL:
- Id: page-url
- Type: Text
- Selector: _url_ (seletor especial para URL atual)

Passo 5: Executar o Scraper

Clique em Sitemap (sippulse-docs) > Scrape
Defina Request interval: 2000 (2 segundos entre requisições)
Clique em Start scraping
Aguarde a conclusão (o scraper navegará por todas as páginas)

Passo 6: Exportar e Limpar

Clique em Sitemap (sippulse-docs) > Export data as CSV
Abra o CSV no Google Sheets ou Excel
Limpe os dados:
- Remova linhas com content vazio
- Remova URLs duplicadas
- Renomeie as colunas para: titulo, conteudo, url
Salve como CSV (codificação UTF-8)

Passo 7: Importar na Base de Conhecimento

No SipPulse AI, vá para Base de Conhecimento
Clique em + Criar Tabela > Carregar Arquivo
Configure:
- Nome: sippulse_docs_kb
- Descrição: "Documentação da plataforma SipPulse AI para responder perguntas de usuários sobre recursos e uso"
- Modelo de Embedding: text-embedding-3-large
Faça upload do seu CSV
Clique em Salvar

Passo 8: Testar sua Base de Conhecimento

Clique na tabela criada
Clique em Consultar
Teste com perguntas como:
- "Como criar um agente?"
- "Quais modelos estão disponíveis para texto-para-fala?"
- "Como configurar webhooks?"
Verifique se os trechos retornados são relevantes

Requisitos de Formato CSV

Para melhores resultados, estruture seu CSV com estas colunas:

Coluna	Obrigatório	Descrição
`conteudo`	Sim	O texto principal a ser vetorizado
`titulo`	Recomendado	Título da página ou seção
`url`	Recomendado	URL fonte para referência
`categoria`	Opcional	Nome da categoria ou seção

Exemplo de CSV:

csv

titulo,conteudo,url,categoria
"Primeiros Passos","Bem-vindo à nossa plataforma. Este guia vai ajudá-lo...","https://docs.exemplo.com/inicio","basico"
"Autenticação da API","Todas as requisições de API requerem autenticação usando...","https://docs.exemplo.com/api/auth","api"

Alternativa em Formato JSON

Você também pode usar formato JSON para dados mais estruturados:

json

[
  {
    "titulo": "Primeiros Passos",
    "conteudo": "Bem-vindo à nossa plataforma. Este guia vai ajudá-lo...",
    "url": "https://docs.exemplo.com/inicio",
    "categoria": "basico"
  },
  {
    "titulo": "Autenticação da API",
    "conteudo": "Todas as requisições de API requerem autenticação usando...",
    "url": "https://docs.exemplo.com/api/auth",
    "categoria": "api"
  }
]

Boas Práticas

Qualidade do Conteúdo

Remova elementos de navegação: Exclua menus, rodapés e sidebars dos seus seletores
Mantenha chunks razoáveis: Mire em 500-2000 palavras por entrada para busca semântica otimizada
Inclua contexto: Adicione títulos e URLs para que o agente possa referenciar as fontes

Respeitando os Sites

Verifique o robots.txt: Garanta que o site permite scraping
Use delays: Configure intervalos razoáveis entre requisições (2+ segundos)
Não sobrecarregue servidores: Limite requisições concorrentes
Respeite os termos de serviço: Alguns sites proíbem scraping automatizado

Mantendo o Conteúdo Atualizado

Como conteúdo obtido por scraping é estático, estabeleça uma rotina para:

Re-executar seu scraper periodicamente (semanal/mensal)
Exportar novos arquivos CSV
Deletar e recriar a tabela da Base de Conhecimento com dados atualizados
Ou usar a função Sincronizar após adicionar novas linhas

Solução de Problemas

P: O scraper não está capturando todas as páginas

Verifique a profundidade do seu seletor de links e garanta que está seguindo todos os links de navegação. Aumente o limite máximo de páginas se necessário.

P: O conteúdo tem tags HTML ou problemas de formatação

A maioria dos scrapers extrai texto puro, mas alguns podem incluir HTML. Limpe os dados em uma planilha antes de importar.

P: A importação do CSV falha

Garanta que seu CSV:

Use codificação UTF-8
Tenha cabeçalhos de coluna adequados
Não exceda o tamanho máximo de arquivo (verifique os limites da plataforma)
Tenha conteúdo em cada linha

Próximos Passos

Após importar o conteúdo do seu site:

Teste a busca semântica: Use a função Consultar para verificar se o conteúdo foi indexado corretamente
Conecte a um agente: Adicione a Base de Conhecimento como ferramenta na configuração do seu agente
Valide as respostas: Teste o agente com perguntas que sua documentação deveria responder

Para um passo a passo completo de criação de um agente com Base de Conhecimento, veja nosso Tutorial de Agente de Suporte.

Agentes

Configuração

Ferramentas

Avançado

Implantando Agentes

Configurações

Extraindo Conteúdo de Sites para Base de Conhecimento

Por Que Usar Ferramentas Externas de Scraping?

Ferramentas Recomendadas

1. Web Scraper.io (Extensão Gratuita para Chrome)

2. Octoparse

3. ParseHub

Tutorial: Extraindo a Documentação do SipPulse AI

Passo 1: Instalar Web Scraper.io

Passo 2: Criar um Sitemap para Docs SipPulse

Passo 3: Configurar Links de Navegação

Passo 4: Criar Seletores de Conteúdo

Passo 5: Executar o Scraper

Passo 6: Exportar e Limpar

Passo 7: Importar na Base de Conhecimento

Passo 8: Testar sua Base de Conhecimento

Requisitos de Formato CSV

Alternativa em Formato JSON

Boas Práticas

Qualidade do Conteúdo

Respeitando os Sites

Mantendo o Conteúdo Atualizado

Solução de Problemas

Próximos Passos

Configuração

Ferramentas

Avançado

Implantando Agentes

Extraindo Conteúdo de Sites para Base de Conhecimento ​

Por Que Usar Ferramentas Externas de Scraping? ​

Ferramentas Recomendadas ​

1. Web Scraper.io (Extensão Gratuita para Chrome) ​

2. Octoparse ​

3. ParseHub ​

Tutorial: Extraindo a Documentação do SipPulse AI ​

Passo 1: Instalar Web Scraper.io ​

Passo 2: Criar um Sitemap para Docs SipPulse ​

Passo 3: Configurar Links de Navegação ​

Passo 4: Criar Seletores de Conteúdo ​

Passo 5: Executar o Scraper ​

Passo 6: Exportar e Limpar ​

Passo 7: Importar na Base de Conhecimento ​

Passo 8: Testar sua Base de Conhecimento ​

Requisitos de Formato CSV ​

Alternativa em Formato JSON ​

Boas Práticas ​

Qualidade do Conteúdo ​

Respeitando os Sites ​

Mantendo o Conteúdo Atualizado ​

Solução de Problemas ​

Próximos Passos ​

Extraindo Conteúdo de Sites para Base de Conhecimento

Por Que Usar Ferramentas Externas de Scraping?

Ferramentas Recomendadas

1. Web Scraper.io (Extensão Gratuita para Chrome)

2. Octoparse

3. ParseHub

Tutorial: Extraindo a Documentação do SipPulse AI

Passo 1: Instalar Web Scraper.io

Passo 2: Criar um Sitemap para Docs SipPulse

Passo 3: Configurar Links de Navegação

Passo 4: Criar Seletores de Conteúdo

Passo 5: Executar o Scraper

Passo 6: Exportar e Limpar

Passo 7: Importar na Base de Conhecimento

Passo 8: Testar sua Base de Conhecimento

Requisitos de Formato CSV

Alternativa em Formato JSON

Boas Práticas

Qualidade do Conteúdo

Respeitando os Sites

Mantendo o Conteúdo Atualizado

Solução de Problemas

Próximos Passos