"Eh" y "em" no siempre vale la pena cortarlos.
Las muletillas hacen dos cosas. La mayor parte del tiempo son carraspeo verbal (el cerebro alcanzando a la boca), y cortarlas aprieta la entrega. Pero a veces hacen un trabajo real. El "eh" antes de un tema sensible señala que estás pensando. El "em" en medio de la frase le da al oyente un tiempo para registrar el último punto. La investigación sobre pausas conversacionales encontró que los huecos de 200–300ms entre turnos son la norma en la conversación en inglés, y el cerebro los espera. Cortar cada caso aplana la cadencia hasta una voz de TED talk robotizada, que se lee como sobre-producido.
Cortá las repeticiones obvias (tres "eh" amontonados al arranque de la frase) y dejá las que funcionan como pausa. La solución está en la revisión, no en el algoritmo.
Los falsos arranques son otro problema.
Una muletilla es uno o dos sonidos. Un falso arranque es una frase u oración entera que abandonaste y recomenzaste:
Entonces la forma en la que pienso esto es — en realidad, la forma en la que pienso esto es que tenés que decidir qué importa primero.
El primer fragmento es un recomienzo. Las muletillas son sonidos y las pausas son tiempos, pero un falso arranque es un pensamiento redundante que el espectador nunca necesitó, así que tiene que salir entero. Encontrar esto a mano es scrollear y leer la transcripción, que es exactamente el impuesto de post-producción que estás tratando de evitar. La mayoría de los removedores de silencios se pierde los falsos arranques porque el audio está lleno. La redundancia está en las palabras, no en la señal.
Las herramientas que sí los detectan corren la transcripción por un modelo de lenguaje que entiende cuándo un hablante recomenzó la misma idea. Sapari hace esto. Algunos otros editores hacen una versión, y la mayoría de los removedores de silencios no. La calidad de detección varía con el tipo de grabación (un monólogo claro es más fácil que una conversación superpuesta), y las mejores herramientas te dan un umbral de confianza para controlar la agresividad.
Los recomienzos que vale la pena dejar.
No todo recomienzo es un error. Que un modelo de lenguaje los marque como falsos arranques es técnicamente correcto pero creativamente equivocado.
Descartalos en la revisión. Las mejores herramientas lo hacen fácil (interfaz por tarjetas, un clic para conservar). Las peores entierran la decisión adentro de la transcripción.
Cómo hacerlo en Sapari.
Subí la grabación
MP4, MOV o cualquier formato de video común.
Ajustá el slider de falso arranque
Conservador captura solo los recomienzos obvios. Moderado captura recomienzos más tropiezos claros. Agresivo captura todo lo que el modelo sospecha.
Revisá las tarjetas
Cada rango detectado es una tarjeta violeta con el fragmento de la transcripción visible. Descartá los intencionales.
Corré la eliminación de silencios en el mismo pase
Las muletillas suficientemente cortas para entrar en los umbrales de silencio se cortan a partir del ritmo Equilibrado.
Una grabación de 45 minutos suele tener de 15 a 25 falsos arranques. La detección corre como parte del análisis principal; la revisión lleva otros 5–10 minutos.
Preguntas frecuentes.
¿Tengo que cortar todos mis "eh"?
No. Cortá los que se amontonan (tres seguidos) y dejá los que funcionan como pausa. Si dudás, dejalo: un "eh" sub-cortado suena más natural que una frase sobre-editada.
¿La detección de falso arranque funciona en audio que no es inglés?
Sí, en los idiomas que soporta la transcripción (inglés, español, portugués, francés en Sapari). Inglés es el más probado.
¿Y con acentos o habla rápida?
La calidad de detección baja con acentos fuertes o habla muy rápida, porque la transcripción misma baja. Correr la limpieza de audio antes ayuda a la transcripción, que ayuda a la detección.
¿Puedo escuchar la grabación entera y listo?
Podés. Una grabación de 45 minutos con 20 falsos arranques es alrededor de una hora de escucha atenta. Un pase de detección con IA trae los candidatos en una fracción, y la revisión lleva otros 5–10 minutos.