Idea de Proyecto: Traductor Inteligente de Libros Técnicos (EPUB/PDF) con IA Local y Preservación de Estructura
A cuántos les pasa que tienen una joya de libro de O'Reilly o Packt, pero al querer traducirlo con herramientas convencionales el código se rompe, las tablas se deforman y el diseño se vuelve un caos? 😩 He estado investigando a fondo la estructura HTML/CSS de los documentos digitales (basándome en el estándar de visualización de O'Reilly) y tengo una propuesta técnica para solucionar esto de raíz. 🛠️ La Propuesta Técnica: No se trata de "meter el PDF a Google Translate". La idea es crear un Pipeline de Procesamiento Estructurado: 1. Segmentación Semántica: Usar un Parser (BeautifulSoup/lxml) para identificar etiquetas críticas. 2. Aislamiento de Código: Proteger automáticamente bloques <pre>, <code> y clases de diagramas para que la IA NO los toque. El código se queda intacto y funcional. 💻 3. Traducción Local y Ligera: Utilizar modelos "pequeños pero chingones" (como los de Firefox/Bergamot o Argos Translate) para procesar fragmentos de texto de forma local. ¡Privacidad total y 0 costo de API! 🦊 4. UI con PySide6: Una interfaz profesional con barras de progreso reales, procesamiento por hilos (para que no se congele) y una vista previa en tiempo real usando el motor de Chromium. 🎯 El Objetivo: Lograr un libro en español u otro idioma logrando que se vea exactamente igual al original, con las fuentes, márgenes e imágenes en su sitio, pero con el texto traducido de forma limpia y precisa. ¿Qué busco? Más que nada compartir el aporte, pero si a alguien le interesa colaborar en su desarrollo en Python o en el entrenamiento de los modelos locales, ¡comenten! Creo que es una herramienta que nos serviría a todos los que devoramos documentación técnica. Les comparto acerca de la investigación que realice y previsualización. ¿Qué opinan? ¿Le ven futuro? ¡Los leo! 👇