Skip to content

Configurações de Voz

A aba Configurações de Voz controla como seu agente soa durante conversas de voz. A seleção correta de voz impacta significativamente a experiência do usuário—uma voz profissional constrói confiança para suporte ao cliente, enquanto uma voz calorosa e amigável funciona melhor para vendas.

Aba Configurações de Voz

Idioma

Selecione o idioma principal que seu agente falará. Esta configuração afeta:

  • Reconhecimento de fala - Como o modelo STT (Speech-to-Text) interpreta a fala do usuário
  • Síntese de voz - O modelo de linguagem usado para TTS (Text-to-Speech)
  • Vozes disponíveis - Diferentes idiomas têm diferentes opções de voz

Idioma vs. Instruções

A configuração de idioma controla o motor de fala, não que idioma seu agente "conhece". Um agente com configurações de voz em inglês ainda pode entender português se você incluir nas instruções—mas os motores de fala serão otimizados para pronúncia em inglês.


Modelo TTS

Escolha o modelo de Text-to-Speech que converterá as respostas de texto do seu agente em áudio falado. Os modelos disponíveis aparecem no dropdown e variam conforme os provedores lançam novas opções.

Categorias de Provedores

Provedores TTS geralmente se enquadram nestas categorias:

CategoriaTrade-off
Rápido/Baixa latênciaMelhor para chamadas de voz em tempo real
Alta qualidadeMelhor para aplicações pré-gravadas ou críticas em qualidade
CustomizávelMelhor para vozes de marca e vozes clonadas

Pulse TTS para Português Brasileiro

Se você está criando agentes em português brasileiro, procure pelo Pulse TTS no dropdown de modelos. Este modelo foi otimizado especificamente para pronúncia e naturalidade em português brasileiro.

Latência de Voz é Importante para Chamadas Telefônicas

Para agentes de voz atendendo chamadas telefônicas, latência é crítica. Usuários percebem atrasos, e pausas mais longas parecem antinaturais. Para deploys telefônicos, prefira opções TTS mais rápidas ao invés de opções de maior qualidade mas mais lentas.


Seleção de Voz

Após selecionar um modelo TTS, escolha entre as vozes disponíveis. Cada provedor oferece diferentes opções de voz:

Características de Voz a Considerar

CaracterísticaImpacto na Experiência do Usuário
GêneroCombine com a voz da sua marca ou expectativas dos usuários
IdadeVozes jovens parecem casuais; vozes maduras parecem autoritárias
TomProfissional, amigável, neutro
SotaqueConsidere as expectativas do seu público-alvo

Estratégia de Seleção de Voz por Exemplo

Caso de UsoEstilo de Voz Recomendado
Suporte ao ClienteCalma, profissional, sotaque neutro
VendasCalorosa, entusiasmada, envolvente
Suporte TécnicoClara, paciente, ritmo levemente mais lento
Médico/JurídicoProfissional, confiável, medida
Chat CasualAmigável, animada, conversacional

Voz ≠ Personalidade

Uma voz que soa amigável não torna seu agente amigável—isso vem das instruções. Da mesma forma, uma voz profissional não ajudará se as respostas do seu agente forem casuais. Combine a seleção de voz com o tom das instruções.


Configuração Avançada

Vozes Customizadas (ElevenLabs)

Para usar vozes customizadas ou clonadas do ElevenLabs, você precisa integrar sua própria chave API do ElevenLabs:

  1. Configure sua chave API do ElevenLabs em Integrações de Provedores
  2. Crie ou clone uma voz na sua conta ElevenLabs
  3. A voz aparecerá automaticamente no dropdown de vozes do SipPulse AI

Chave API Necessária para Vozes Customizadas

Vozes customizadas e clonadas só estão disponíveis ao usar sua própria chave API do ElevenLabs. As vozes padrão da plataforma não incluem acesso à sua biblioteca do ElevenLabs.

Considerações sobre Clonagem de Voz

Clonagem de voz customizada requer direitos e consentimento apropriados. Certifique-se de ter permissão para clonar qualquer voz e cumpra com regulamentações regionais sobre uso de voz sintética.


Testando Sua Voz

O Playground permite testar configurações de voz antes do deploy:

  1. Configure suas configurações de voz
  2. Abra o Playground
  3. Habilite o Modo de Voz
  4. Tenha uma conversa de teste
  5. Ajuste as configurações baseado na experiência

Teste Diferentes Cenários

Ao testar, experimente:

  • Respostas longas (a voz continua natural?)
  • Termos técnicos (são pronunciados corretamente?)
  • Números e datas (articulação clara?)
  • Cenários emocionais (tom apropriado?)

Melhores Práticas

1. Combine Voz com Canal

  • Telefone/SIP: Priorize baixa latência (OpenAI TTS, Kokoro)
  • Widget de Chat com Áudio: Equilibre qualidade e velocidade (OpenAI TTS HD)
  • Mensagens Pré-gravadas: Maximize qualidade (ElevenLabs)

2. Considere Seu Público

  • B2B: Vozes profissionais, autoritárias
  • B2C: Vozes calorosas, acessíveis
  • Usuários Técnicos: Clara, ritmo medido
  • Público Geral: Tom amigável, paciente

3. Mantenha Consistência

Use a mesma voz em todos os agentes de uma linha de produtos para construir reconhecimento de marca. Usuários devem sentir que estão falando com o mesmo "assistente" independentemente do agente específico.

4. Teste com Usuários Reais

Preferência de voz é subjetiva. Se possível, faça teste A/B com diferentes vozes com usuários reais para encontrar o que ressoa com seu público específico.


Solução de Problemas

Voz Soa Robótica

  • Tente um provedor TTS diferente (ElevenLabs geralmente soa mais natural)
  • Verifique se suas instruções produzem texto excessivamente formal ou estruturado
  • Certifique-se de que a configuração de idioma corresponde ao seu conteúdo

Problemas de Pronúncia

  • Use grafia fonética nas instruções para nomes de marcas
  • Exemplo: "SipPulse" → "Sip Pulse" (com espaço)
  • Alguns provedores suportam SSML para controle preciso de pronúncia

Latência Muito Alta

  • Mude para um provedor TTS mais rápido
  • Reduza o comprimento das respostas nas instruções
  • Considere streaming TTS se suportado pelo seu deploy

Documentação Relacionada