Skip to content

Fala para Texto

Visão Geral

O playground de fala para texto do SipPulse AI permite testar e comparar o desempenho dos modelos de transcrição de áudio disponíveis na plataforma. Este ambiente interativo facilita a conversão de arquivos de áudio em texto, suportando diversos formatos de saída e tradução automática.

Funcionalidades Principais

Upload de Áudio

No playground, você pode fazer o upload de arquivos de áudio de duas maneiras:

  • Arrastar e Soltar: Arraste o arquivo de áudio para a área designada.
  • Selecionar Arquivo: Clique na área designada para escolher um arquivo de áudio do seu dispositivo.

Configurações de Parâmetros

Ao selecionar um modelo, o playground apresenta os parâmetros disponíveis para ajuste. Esses parâmetros podem incluir:

  • Modelo: Escolha entre os modelos de transcrição de áudio disponíveis na plataforma.

  • Formato: Escolha o formato de saída desejado. Os formatos suportados são:

    • Texto: Transcrição simples em formato de texto.
    • JSON: Saída em formato JSON.
    • VTT: Formato WebVTT, utilizado para legendas em vídeos.
    • SRT: Formato SubRip Subtitle, também utilizado para legendas.
    • Verbose JSON: JSON detalhado, incluindo informações adicionais sobre a transcrição.
  • Idioma: Selecione o idioma do áudio a ser transcrito.

DICA

Se o idioma do áudio for diferente do idioma selecionado, a resposta será a tradução do áudio para o idioma selecionado.

Instruções

Você pode adicionar instruções específicas para o modelo, orientando a forma como a transcrição deve ser feita. Este campo é opcional, mas pode ajudar a obter resultados mais precisos conforme suas necessidades.

Execução do Teste

Após ajustar os parâmetros e fazer o upload do áudio, você pode iniciar o teste clicando no botão Transcrever. O modelo processará o áudio e exibirá a transcrição no formato selecionado.

Visualização de Código

O playground inclui um botão Ver Código, que mostra como integrar o modelo e os parâmetros testados em suas próprias aplicações. O código de integração pode ser visualizado em diferentes linguagens, incluindo Curl, Python e JavaScript.

Exemplo de Uso

Vamos supor que você queira transcrever um arquivo de áudio utilizando o modelo whisper-1 com uma configuração específica:

  1. Selecione whisper-1 no menu de modelos.
  2. Faça o Upload do Áudio: Arraste e solte o arquivo de áudio na área designada ou clique para selecionar o arquivo.
  3. Ajuste os Parâmetros:
    • Formato: Texto
    • Idioma: Português
    • Instrução: (Opcional) "Transcreva com a maior precisão possível."
  4. Execute o Teste: Clique em Transcrever para ver a transcrição do áudio.
  5. Ver Código: Obtenha o código de integração clicando em Ver Código e escolha a linguagem de sua preferência (Curl, Python ou JavaScript).