Configurações de Voz
A aba Configurações de Voz controla como seu agente soa durante conversas de voz. A seleção correta de voz impacta significativamente a experiência do usuário—uma voz profissional constrói confiança para suporte ao cliente, enquanto uma voz calorosa e amigável funciona melhor para vendas.

Idioma
Selecione o idioma principal que seu agente falará. Esta configuração afeta:
- Reconhecimento de fala - Como o modelo STT (Speech-to-Text) interpreta a fala do usuário
- Síntese de voz - O modelo de linguagem usado para TTS (Text-to-Speech)
- Vozes disponíveis - Diferentes idiomas têm diferentes opções de voz
Idioma vs. Instruções
A configuração de idioma controla o motor de fala, não que idioma seu agente "conhece". Um agente com configurações de voz em inglês ainda pode entender português se você incluir nas instruções—mas os motores de fala serão otimizados para pronúncia em inglês.
Modelo TTS
Escolha o modelo de Text-to-Speech que converterá as respostas de texto do seu agente em áudio falado. Os modelos disponíveis aparecem no dropdown e variam conforme os provedores lançam novas opções.
Categorias de Provedores
Provedores TTS geralmente se enquadram nestas categorias:
| Categoria | Trade-off |
|---|---|
| Rápido/Baixa latência | Melhor para chamadas de voz em tempo real |
| Alta qualidade | Melhor para aplicações pré-gravadas ou críticas em qualidade |
| Customizável | Melhor para vozes de marca e vozes clonadas |
Pulse TTS para Português Brasileiro
Se você está criando agentes em português brasileiro, procure pelo Pulse TTS no dropdown de modelos. Este modelo foi otimizado especificamente para pronúncia e naturalidade em português brasileiro.
Latência de Voz é Importante para Chamadas Telefônicas
Para agentes de voz atendendo chamadas telefônicas, latência é crítica. Usuários percebem atrasos, e pausas mais longas parecem antinaturais. Para deploys telefônicos, prefira opções TTS mais rápidas ao invés de opções de maior qualidade mas mais lentas.
Seleção de Voz
Após selecionar um modelo TTS, escolha entre as vozes disponíveis. Cada provedor oferece diferentes opções de voz:
Características de Voz a Considerar
| Característica | Impacto na Experiência do Usuário |
|---|---|
| Gênero | Combine com a voz da sua marca ou expectativas dos usuários |
| Idade | Vozes jovens parecem casuais; vozes maduras parecem autoritárias |
| Tom | Profissional, amigável, neutro |
| Sotaque | Considere as expectativas do seu público-alvo |
Estratégia de Seleção de Voz por Exemplo
| Caso de Uso | Estilo de Voz Recomendado |
|---|---|
| Suporte ao Cliente | Calma, profissional, sotaque neutro |
| Vendas | Calorosa, entusiasmada, envolvente |
| Suporte Técnico | Clara, paciente, ritmo levemente mais lento |
| Médico/Jurídico | Profissional, confiável, medida |
| Chat Casual | Amigável, animada, conversacional |
Voz ≠ Personalidade
Uma voz que soa amigável não torna seu agente amigável—isso vem das instruções. Da mesma forma, uma voz profissional não ajudará se as respostas do seu agente forem casuais. Combine a seleção de voz com o tom das instruções.
Configuração Avançada
Vozes Customizadas (ElevenLabs)
Para usar vozes customizadas ou clonadas do ElevenLabs, você precisa integrar sua própria chave API do ElevenLabs:
- Configure sua chave API do ElevenLabs em Integrações de Provedores
- Crie ou clone uma voz na sua conta ElevenLabs
- A voz aparecerá automaticamente no dropdown de vozes do SipPulse AI
Chave API Necessária para Vozes Customizadas
Vozes customizadas e clonadas só estão disponíveis ao usar sua própria chave API do ElevenLabs. As vozes padrão da plataforma não incluem acesso à sua biblioteca do ElevenLabs.
Considerações sobre Clonagem de Voz
Clonagem de voz customizada requer direitos e consentimento apropriados. Certifique-se de ter permissão para clonar qualquer voz e cumpra com regulamentações regionais sobre uso de voz sintética.
Testando Sua Voz
O Playground permite testar configurações de voz antes do deploy:
- Configure suas configurações de voz
- Abra o Playground
- Habilite o Modo de Voz
- Tenha uma conversa de teste
- Ajuste as configurações baseado na experiência
Teste Diferentes Cenários
Ao testar, experimente:
- Respostas longas (a voz continua natural?)
- Termos técnicos (são pronunciados corretamente?)
- Números e datas (articulação clara?)
- Cenários emocionais (tom apropriado?)
Melhores Práticas
1. Combine Voz com Canal
- Telefone/SIP: Priorize baixa latência (OpenAI TTS, Kokoro)
- Widget de Chat com Áudio: Equilibre qualidade e velocidade (OpenAI TTS HD)
- Mensagens Pré-gravadas: Maximize qualidade (ElevenLabs)
2. Considere Seu Público
- B2B: Vozes profissionais, autoritárias
- B2C: Vozes calorosas, acessíveis
- Usuários Técnicos: Clara, ritmo medido
- Público Geral: Tom amigável, paciente
3. Mantenha Consistência
Use a mesma voz em todos os agentes de uma linha de produtos para construir reconhecimento de marca. Usuários devem sentir que estão falando com o mesmo "assistente" independentemente do agente específico.
4. Teste com Usuários Reais
Preferência de voz é subjetiva. Se possível, faça teste A/B com diferentes vozes com usuários reais para encontrar o que ressoa com seu público específico.
Solução de Problemas
Voz Soa Robótica
- Tente um provedor TTS diferente (ElevenLabs geralmente soa mais natural)
- Verifique se suas instruções produzem texto excessivamente formal ou estruturado
- Certifique-se de que a configuração de idioma corresponde ao seu conteúdo
Problemas de Pronúncia
- Use grafia fonética nas instruções para nomes de marcas
- Exemplo: "SipPulse" → "Sip Pulse" (com espaço)
- Alguns provedores suportam SSML para controle preciso de pronúncia
Latência Muito Alta
- Mude para um provedor TTS mais rápido
- Reduza o comprimento das respostas nas instruções
- Considere streaming TTS se suportado pelo seu deploy
Documentação Relacionada
- Perfil - Configure identidade e modelo do agente
- Configuração de Chamada - Configurações de comportamento de chamada de voz
- Modelos Text to Speech - Comparação detalhada de provedores TTS
