Configurações de Voz

A aba Configurações de Voz controla como seu agente soa durante conversas de voz. A seleção correta de voz impacta significativamente a experiência do usuário—uma voz profissional constrói confiança para suporte ao cliente, enquanto uma voz calorosa e amigável funciona melhor para vendas.

Idioma

Selecione o idioma principal que seu agente falará. Esta configuração afeta:

Reconhecimento de fala - Como o modelo STT (Speech-to-Text) interpreta a fala do usuário
Síntese de voz - O modelo de linguagem usado para TTS (Text-to-Speech)
Vozes disponíveis - Diferentes idiomas têm diferentes opções de voz

Idioma vs. Instruções

A configuração de idioma controla o motor de fala, não que idioma seu agente "conhece". Um agente com configurações de voz em inglês ainda pode entender português se você incluir nas instruções—mas os motores de fala serão otimizados para pronúncia em inglês.

Modelo TTS

Escolha o modelo de Text-to-Speech que converterá as respostas de texto do seu agente em áudio falado. Os modelos disponíveis aparecem no dropdown e variam conforme os provedores lançam novas opções.

Categorias de Provedores

Provedores TTS geralmente se enquadram nestas categorias:

Categoria	Trade-off
Rápido/Baixa latência	Melhor para chamadas de voz em tempo real
Alta qualidade	Melhor para aplicações pré-gravadas ou críticas em qualidade
Customizável	Melhor para vozes de marca e vozes clonadas

Pulse TTS para Português Brasileiro

Se você está criando agentes em português brasileiro, procure pelo Pulse TTS no dropdown de modelos. Este modelo foi otimizado especificamente para pronúncia e naturalidade em português brasileiro.

Latência de Voz é Importante para Chamadas Telefônicas

Para agentes de voz atendendo chamadas telefônicas, latência é crítica. Usuários percebem atrasos, e pausas mais longas parecem antinaturais. Para deploys telefônicos, prefira opções TTS mais rápidas ao invés de opções de maior qualidade mas mais lentas.

Seleção de Voz

Após selecionar um modelo TTS, escolha entre as vozes disponíveis. Cada provedor oferece diferentes opções de voz:

Características de Voz a Considerar

Característica	Impacto na Experiência do Usuário
Gênero	Combine com a voz da sua marca ou expectativas dos usuários
Idade	Vozes jovens parecem casuais; vozes maduras parecem autoritárias
Tom	Profissional, amigável, neutro
Sotaque	Considere as expectativas do seu público-alvo

Estratégia de Seleção de Voz por Exemplo

Caso de Uso	Estilo de Voz Recomendado
Suporte ao Cliente	Calma, profissional, sotaque neutro
Vendas	Calorosa, entusiasmada, envolvente
Suporte Técnico	Clara, paciente, ritmo levemente mais lento
Médico/Jurídico	Profissional, confiável, medida
Chat Casual	Amigável, animada, conversacional

Voz ≠ Personalidade

Uma voz que soa amigável não torna seu agente amigável—isso vem das instruções. Da mesma forma, uma voz profissional não ajudará se as respostas do seu agente forem casuais. Combine a seleção de voz com o tom das instruções.

Configuração Avançada

Vozes Customizadas (ElevenLabs)

Para usar vozes customizadas ou clonadas do ElevenLabs, você precisa integrar sua própria chave API do ElevenLabs:

Configure sua chave API do ElevenLabs em Integrações de Provedores
Crie ou clone uma voz na sua conta ElevenLabs
A voz aparecerá automaticamente no dropdown de vozes do SipPulse AI

Chave API Necessária para Vozes Customizadas

Vozes customizadas e clonadas só estão disponíveis ao usar sua própria chave API do ElevenLabs. As vozes padrão da plataforma não incluem acesso à sua biblioteca do ElevenLabs.

Considerações sobre Clonagem de Voz

Clonagem de voz customizada requer direitos e consentimento apropriados. Certifique-se de ter permissão para clonar qualquer voz e cumpra com regulamentações regionais sobre uso de voz sintética.

Testando Sua Voz

O Playground permite testar configurações de voz antes do deploy:

Configure suas configurações de voz
Abra o Playground
Habilite o Modo de Voz
Tenha uma conversa de teste
Ajuste as configurações baseado na experiência

Teste Diferentes Cenários

Ao testar, experimente:

Respostas longas (a voz continua natural?)
Termos técnicos (são pronunciados corretamente?)
Números e datas (articulação clara?)
Cenários emocionais (tom apropriado?)

Melhores Práticas

1. Combine Voz com Canal

Telefone/SIP: Priorize baixa latência (OpenAI TTS, Kokoro)
Widget de Chat com Áudio: Equilibre qualidade e velocidade (OpenAI TTS HD)
Mensagens Pré-gravadas: Maximize qualidade (ElevenLabs)

2. Considere Seu Público

B2B: Vozes profissionais, autoritárias
B2C: Vozes calorosas, acessíveis
Usuários Técnicos: Clara, ritmo medido
Público Geral: Tom amigável, paciente

3. Mantenha Consistência

Use a mesma voz em todos os agentes de uma linha de produtos para construir reconhecimento de marca. Usuários devem sentir que estão falando com o mesmo "assistente" independentemente do agente específico.

4. Teste com Usuários Reais

Preferência de voz é subjetiva. Se possível, faça teste A/B com diferentes vozes com usuários reais para encontrar o que ressoa com seu público específico.

Solução de Problemas

Voz Soa Robótica

Tente um provedor TTS diferente (ElevenLabs geralmente soa mais natural)
Verifique se suas instruções produzem texto excessivamente formal ou estruturado
Certifique-se de que a configuração de idioma corresponde ao seu conteúdo

Problemas de Pronúncia

Use grafia fonética nas instruções para nomes de marcas
Exemplo: "SipPulse" → "Sip Pulse" (com espaço)
Alguns provedores suportam SSML para controle preciso de pronúncia

Latência Muito Alta

Mude para um provedor TTS mais rápido
Reduza o comprimento das respostas nas instruções
Considere streaming TTS se suportado pelo seu deploy

Documentação Relacionada

Perfil - Configure identidade e modelo do agente
Configuração de Chamada - Configurações de comportamento de chamada de voz
Modelos Text to Speech - Comparação detalhada de provedores TTS

Agentes

Configuração

Ferramentas

Avançado

Implantando Agentes