"É..." e "hum" nem sempre valem o corte.
Muletas fazem duas coisas. Na maior parte do tempo são pigarro verbal (o cérebro alcançando a boca), e cortar aperta a entrega. Mas às vezes elas trabalham de verdade. O "é..." antes de um tema sensível sinaliza ponderação. O "hum" no meio da frase dá ao ouvinte um respiro pra absorver o último ponto. Pesquisas sobre pausas conversacionais mostram que intervalos de 200–300ms entre turnos são a norma na conversa em inglês, e o cérebro espera por eles. Cortar tudo achata a cadência numa voz de TED talk robotizado, que soa mais produzido.
Corte as repetições óbvias (três "é..." amontoados no começo da frase) e mantenha as que funcionam como pausa. A solução está na etapa de revisão, não no algoritmo.
Falso início é outro problema.
Muleta é um ou dois sons. Falso início é uma frase ou oração inteira que você abandonou e recomeçou:
Então a forma como eu penso sobre isso é — na verdade, a forma como eu penso sobre isso é que você precisa decidir o que importa primeiro.
O primeiro fragmento é um recomeço. Muletas são sons e pausas são tempos, mas um falso início é uma ideia redundante que o espectador nunca precisou, então tem que sair inteiro. Achar isso na mão é correr o cursor e ler a transcrição, que é exatamente o imposto de pós-produção que você está tentando evitar. A maioria dos removedores de silêncio passa por cima de falsos inícios porque o áudio está cheio. A redundância está nas palavras, não no sinal.
As ferramentas que pegam isso rodam a transcrição num modelo de linguagem que entende quando o falante reiniciou o mesmo pensamento. O Sapari faz isso. Alguns outros editores fazem uma versão, e a maioria dos removedores de silêncio não. A qualidade de detecção varia com o tipo de gravação (monólogo limpo é mais fácil que conversa com sobreposição), e as melhores ferramentas oferecem um limiar de confiança pra controlar a agressividade.
Os recomeços que valem manter.
Nem todo recomeço é erro. Um modelo de linguagem marcar isso como falso início está tecnicamente certo, mas criativamente errado.
Dispense na revisão. As ferramentas melhores facilitam (interface em cards, um clique pra manter). As piores enterram a decisão na visão da transcrição.
Como fazer no Sapari.
Faça upload da gravação
MP4, MOV ou qualquer formato de vídeo comum.
Ajuste o slider de falso início
Conservador pega só os recomeços óbvios. Moderado pega recomeços mais tropeços claros. Agressivo pega tudo que o modelo suspeita.
Revise os cards
Cada trecho detectado é um card roxo com o trecho da transcrição visível. Dispense os intencionais.
Rode a remoção de silêncio no mesmo passo
Muletas curtas o bastante pra entrar nos limiares de silêncio são cortadas no ritmo Equilibrado pra cima.
Uma gravação de 45 minutos costuma ter de 15 a 25 falsos inícios. A detecção roda dentro da análise principal; a revisão leva mais uns 5–10 minutos.
Perguntas comuns.
Devo cortar todos os meus "é..."?
Não. Corte os que se amontoam (três seguidos) e mantenha os que funcionam como pausa. Na dúvida, deixa: um "é..." mal cortado soa mais natural que uma frase super-editada.
A detecção de falso início funciona em outros idiomas?
Sim, nos idiomas que a transcrição suporta (inglês, espanhol, português, francês no Sapari). Inglês é o mais testado.
E com sotaque ou fala rápida?
A qualidade de detecção piora com sotaque forte ou fala muito rápida, porque a própria transcrição piora. Rodar a limpeza de áudio antes ajuda a transcrição, que ajuda a detecção.
Posso só ouvir a gravação inteira?
Pode. Uma gravação de 45 minutos com 20 falsos inícios dá cerca de uma hora de escuta atenta. Uma detecção por IA traz os candidatos numa fração disso, e a revisão leva mais uns 5–10 minutos.