Publican Violin, un conjunto de herramientas de código abierto para traducir y sintetizar audio en videos

News

5/16/2026, 2:26:15 AM

Publican Violin, un conjunto de herramientas de código abierto para traducir y sintetizar audio en videos

El 14 de mayo de 2026 un equipo liderado por Shang Zhu, Kevin Qinghong Lin y James Zou publicó Violin, un proyecto público diseñado para procesar y traducir videos de manera automatizada. Violin agrupa componentes de transcripción, traducción automática y síntesis de voz en un flujo de trabajo integrable y añade una interfaz conversacional para interactuar con el contenido audiovisual. El objetivo declarado es facilitar la localización de videos y permitir a los creadores ampliar su alcance sin necesidad de tareas manuales repetitivas.

El flujo de Violin se organiza en tres etapas claramente diferenciadas: primero extrae el audio y genera transcripciones con marcas de tiempo; luego traduce el guion utilizando un modelo de lenguaje grande (LLM); y finalmente sintetiza el audio traducido mediante un sistema de text‑to‑speech. Para la capa de transcripción el proyecto emplea el endpoint Whisper V3 large; como traductor por defecto se configura Deepseek V4 Pro; y la generación de las pistas vocales traducidas recae en Cartesia’s Sonic 3. La combinación pretende mantener coherencia entre el texto y la pista de audio de salida, conservando la sincronización con el material visual.

Violin ofrece opciones de personalización que permiten ajustar el resultado según necesidades editoriales o técnicas: los usuarios pueden proporcionar reglas de traducción predefinidas para preservar nombres propios o términos técnicos y pueden describir en lenguaje natural las características deseadas para la voz del TTS. En la configuración por defecto se evita la clonación de voces: el audio traducido utiliza una voz distinta a la original y se superpone a la pista original a bajo volumen, lo que facilita la escucha del material traducido sin borrar por completo la voz fuente.

Además de la transformación de audio, Violin integra un asistente de video multimodal que combina subtítulos y fotogramas recientes del video para ofrecer consultas contextuales. Ese módulo consulta un modelo visión‑lenguaje — identificado en la documentación como Qwen3.5 — 397B-A17B— con el fin de responder preguntas sobre el contenido, ofrecer resúmenes y explicar elementos que aparecen en pantalla y en la pista de audio. La idea es que el asistente aporte contexto adicional que no se refleja solo en la transcripción.

La herramienta se distribuye en tres formatos según distintos perfiles de uso: una aplicación web minimalista dirigida a usuarios sin conocimientos de programación; una interfaz de línea de comandos pensada para procesamiento por lotes y automatización; y paquetes de “agent skills” que permiten integrar Violin en marcos de agentes autónomos. Todo el código se publica bajo licencia MIT y el repositorio público indicado es github.com/shang — zhu/violin. Como ejemplo práctico, los autores muestran la traducción al chino de una charla técnica de la serie Together Talks de Percy Liang y ofrecen una vista previa de ese resultado.

En cuanto a cobertura de lenguas y modelos, Violin afirma soporte para una amplia gama de voces nativas — se mencionan específicamente coreano, neerlandés, italiano y chino— y, según la entrada de blog del lanzamiento, se seleccionaron más de 40 modelos para la producción. Ese conjunto de opciones busca cubrir distintos mercados y estilos de voz, tanto para audiencias idiomáticas específicas como para distintos géneros de contenido audiovisual.

El equipo plantea la herramienta dentro de un contexto de desigualdad en la distribución lingüística del video en línea: citan un estudio que indica que el 66% de los videos de los 250 canales más populares están en inglés y el 15% en español, y presentan a Violin como un mecanismo para ampliar el alcance de los contenidos mediante escalabilidad y automatización. La propuesta se enfoca en reducir barreras de idioma para audiencias globales sin exigir procesos de localización completamente manuales.

Respecto a límites y responsabilidades, Violin prohíbe la clonación de voces, mantiene por defecto la nueva pista en una voz distinta y la superpone a bajo volumen, y recuerda que los usuarios son responsables del contenido que traduzcan. La entrada de lanzamiento añade que la demo pública alojada en https://violin — ai.com/ estará disponible por un periodo corto tras el lanzamiento, lo que permite evaluar capacidades sin garantías de disponibilidad indefinida. Los desarrolladores invitan a la comunidad a colaborar abriendo issues o discusiones en GitHub, enviando comentarios a heyviolinai@gmail.com y contribuyendo al código del proyecto. En los agradecimientos los autores citan a colaboradores individuales y a los creadores de piezas clave de la pila tecnológica — Whisper, DeepSeek, Qwen y Cartesia — cuyo trabajo fundamenta la infraestructura sobre la que se construye Violin.

Fuentes

Together AI Blog · 5/14/2026

Respuestas (0)

Aún no hay respuestas en este tema.

Atrás