Skip to content

SipPulse AI - Conversão de Texto para Fala

Interface de Texto para Fala

A plataforma SipPulse AI oferece recursos poderosos para converter texto em fala natural. Esta seção documenta como usar a ferramenta de Texto para Fala para transformar conteúdo escrito em áudio.

Interface de Texto para Fala

Acessando a Interface de Texto para Fala

  1. Navegando até a Ferramenta:

    • Acesse o menu lateral esquerdo
    • Clique em "Playground" para expandir as opções
    • Selecione "Text to Speech" para abrir a interface de conversão
  2. Componentes Principais da Interface:

    • Área de Entrada de Texto: Zona central para inserir o texto que você deseja converter
    • Visualização de Áudio: Exibição da forma de onda do áudio gerado
    • Controles de Reprodução: Botão de reprodução, opção de download e linha do tempo
    • Lista de Áudios Gerados: Painel direito mostrando arquivos de áudio gerados anteriormente

Opções de Configuração

  1. Configurações de Modelo e Voz:

    • Modelo: Selecione entre os modelos TTS disponíveis (ex: "eleven-labs-flash")
    • Opções de Idioma: Escolha "Multi-language" ou selecione um idioma específico
    • Seleção de Voz: Escolha entre diferentes opções de voz (ex: "Aria")
    • Formato: Escolha o formato de saída do áudio (ex: "mp3")
  2. Recursos Avançados:

    • Reprodução Automática: Opção para reproduzir automaticamente o áudio após a geração
    • Personalização de Voz: Alguns modelos permitem ajustar características da voz
    • Recursos Experimentais: Acesso a novos recursos (marcados como "Experimental")
  3. Atalhos de Teclado:

    • Pressione "Ctrl+Enter" para gerar rapidamente a fala a partir do texto inserido
    • Use os controles de reprodução para gerenciar a reprodução do áudio

Processo de Geração de Fala

  1. Preparação do Texto:

    • Insira o texto que você deseja converter na área de entrada de texto
    • Formate seu texto com pontuação adequada para padrões naturais de fala
    • Considere usar tags SSML para controle avançado de voz (se suportado pelo modelo selecionado)
  2. Seleção de Configuração:

    • Escolha o modelo apropriado para suas necessidades
    • Selecione a voz desejada que corresponda ao seu conteúdo
    • Configure as configurações de idioma se estiver gerando fala em idiomas específicos
  3. Gerando Fala:

    • Clique no botão "Speak" ou use o atalho Ctrl+Enter
    • O sistema processa seu texto e gera o áudio
    • A visualização da forma de onda é exibida quando o processamento é concluído
  4. Revisão e Exportação:

    • Ouça o áudio gerado usando os controles de reprodução
    • Baixe o arquivo de áudio usando o botão de download
    • Regenere com configurações diferentes, se necessário

Integração com API

O SipPulse AI fornece uma API RESTful para integrar recursos de texto para fala diretamente em suas aplicações. Abaixo estão exemplos de como usar a API em diferentes linguagens de programação.

Parâmetros da API

  • model: Especifica o modelo TTS (ex: eleven-labs-flash)
  • voice: Determina qual voz usar (ex: aria)
  • format: Formato de saída do áudio (ex: mp3)
  • api-key: Sua chave de autenticação da API SipPulse

Exemplo em Python

python
import requests

url = 'https://api.sippulse.ai/tts/synthesize'
headers = {
    'accept': 'application/json',
    'content-type': 'application/json',
    'api-key': '$SIPPULSE_API_KEY'
}
data = {
    'text': "Vamos ver se funciona",
    'model': 'eleven-labs-flash',
    'voice': 'aria',
    'format': 'mp3'
}

response = requests.post(url, json=data, headers=headers)

if response.status_code == 200:
    with open('output.mp3', 'wb') as f:
        f.write(response.content)
    print("Arquivo de áudio criado com sucesso!")
else:
    print(f"Erro: {response.status_code}")
    print(response.text)

Exemplo em Node.js

javascript
const fetch = require('node-fetch');
const fs = require('fs');

const url = 'https://api.sippulse.ai/tts/synthesize';
const data = {
  text: "Vamos ver se funciona",
  model: 'eleven-labs-flash',
  voice: 'aria',
  format: 'mp3'
};

const options = {
  method: 'POST',
  headers: {
    'accept': 'application/json',
    'content-type': 'application/json',
    'api-key': '$SIPPULSE_API_KEY'
  },
  body: JSON.stringify(data)
};

fetch(url, options)
  .then(response => {
    if (!response.ok) {
      throw new Error(`Erro HTTP! Status: ${response.status}`);
    }
    return response.buffer();
  })
  .then(buffer => {
    fs.writeFileSync('output.mp3', buffer);
    console.log('Arquivo de áudio criado com sucesso!');
  })
  .catch(error => console.error('Erro:', error));

Exemplo em cURL

bash
curl -X 'POST' \
  'https://api.sippulse.ai/tts/synthesize' \
  -H 'accept: application/json' \
  -H 'content-type: application/json' \
  -H 'api-key: $SIPPULSE_API_KEY' \
  -d '{
    "text": "Vamos ver se funciona",
    "model": "eleven-labs-flash",
    "voice": "aria",
    "format": "mp3"
  }' \
  --output output.mp3

Considerações de Uso

  1. Otimização da Qualidade de Voz:

    • Mantenha as frases em um comprimento natural para padrões de fala mais realistas
    • Use pontuação apropriada para controlar o ritmo e a entonação
    • Teste diferentes vozes para encontrar a melhor correspondência para o seu conteúdo
  2. Gerenciamento de Custos:

    • Esteja ciente de que os custos geralmente aumentam com o comprimento do texto
    • Considere dividir textos muito longos em segmentos menores
    • Use o modelo apropriado com base nos requisitos de qualidade versus custo
  3. Fatores de Desempenho:

    • Modelos de maior qualidade podem ter tempos de processamento mais longos
    • Textos muito longos levarão mais tempo para processar
    • Algumas vozes podem ser otimizadas para idiomas ou tipos de conteúdo específicos
  4. Diretrizes de Conteúdo:

    • Evite gerar fala com informações pessoais sensíveis
    • Esteja ciente das políticas de uso relacionadas à personificação ou engano
    • Siga as regulamentações locais sobre geração de voz sintética

Ao usar a ferramenta de Texto para Fala do SipPulse AI, você pode converter eficientemente conteúdo escrito em fala natural para uma ampla gama de aplicações, incluindo assistentes de voz, conteúdo educacional, recursos de acessibilidade e muito mais.