Accesibilidad en los videos de la administración y las empresas gracias a la IA

La accesibilidad audiovisual ha dejado de ser un proyecto excepcional reservado a grandes presupuestos y tiempos infinitos. La combinación de automatización, producción en la nube y flujos de trabajo estandarizados está cambiando la economía de los subtítulos, las transcripciones y las audiodescripciones, reduciendo de forma drástica el coste económico por minuto y, sobre todo, el tiempo necesario para hacer que un video o presentación multimedia sea completamente accesible.
En este nuevo contexto, la excusa de que no es asumible desde el punto de vista económico pierde fuerza, porque el mercado ya ofrece modelos operativos diseñados precisamente para industrializar la accesibilidad sin sacrificar la calidad.

Este cambio viene de la mano de la Inteligencia Artificial (IA) y las nuevas oportunidades de automatización que ofrece a empresas y profesionales.

Este cambio no es únicamente tecnológico, es también regulatorio y reputacional. El Acta Europea de Accesibilidad establece estándares obligatorios para garantizar la accesibilidad de productos y servicios y traslada a empresas privadas y entidades públicas una responsabilidad más clara en la eliminación de barreras.
Según las WCAG para que un contenido multimedia sea accesible debe incorporar, como mínimo, audiodescripciones, subtítulos y transcripciones, y hacerlo de forma consistente en volumen y en el tiempo.

El problema, hasta hace poco, era que hacer accesible un vídeo implicaba un esfuerzo grande en tareas especializadas que van mucho más allá de poner subtítulos. En audiodescripción se requiere detectar silencios y duraciones, escribir un guion específico, rehacer locuciones cuando procede, seleccionar tomas válidas y montar el resultado final. En subtitulado de tipo closed captions es necesario identificar personajes, transcribir diálogos y locuciones, describir músicas y sonidos relevantes y controlar métricas como caracteres por línea y caracteres por segundo para asegurar legibilidad y sincronización. Además, la accesibilidad moderna tiende a incorporar transcripciones navegables, capítulos y artefactos en diferentes formatos listos para publicación en múltiples plataformas. Cuando todo esto se aborda artesanalmente, cada minuto adicional de video arrastra el mismo esfuerzo y el mismo coste provocando que el proceso de hacer accesible un contenido multimedia fuese económicamente más caro.

La automatización para la accesibilidad

La automatización orientada a accesibilidad marca un punto de inflexión en las oportunidades de negocio y de la situación legal sobre el concepto de adaptaciones razonables para la accesibilidad. Una producción multimedia se puede convertir en un contenido accesible generando variantes accesibles de forma automatizada, supervisada y autónoma, sin exigir conocimientos de edición de vídeo al equipo que produce el contenido. Esto permite producir en masa en la nube, obtener distintos archivos y formatos, y resolver de forma práctica un problema frecuente.

Automatización con calidad

Pero la automatización no elimina la exigencia de calidad. En accesibilidad, la calidad no es un lujo, es un requisito funcional. Un subtítulo mal segmentado o una audiodescripción imprecisa no sólo incumple criterios, también compromete la comprensión y la experiencia de usuario. Por eso resulta especialmente relevante el modelo de compañías como LViS Vally, que combinan automatización con una metodología de revisión humana en dos fases para garantizar que los elementos accesibles sean precisos, claros, estén sincronizados y sean plenamente comprensibles para cualquier persona. Ese componente humano, incorporado como control de calidad estructural y no como corrección ocasional, es el puente entre la eficiencia de la producción automática y la fiabilidad que requieren contenidos institucionales, educativos, formativos o corporativos.

La excusa del coste económico ya no es válida. Empresas como LViS Vally ofrecen tarifas individuales de 40 euros por hacer accesible un minuto de contenido de video. Esos precios debían ser multiplicados por 20 o por 100 hace un par de años.

Nuevas oportunidades de negocio en la accesibilidad gracias a la IA

Desde la perspectiva de negocio, la discusión también ha cambiado. La accesibilidad ya no compite sólo por presupuesto, compite por el riesgo y la oportunidad. El incumplimiento puede traducirse en sanciones, reclamaciones o deterioro reputacional, mientras que la accesibilidad bien ejecutada mejora la transparencia, amplía la participación y refuerza la percepción de modernidad y responsabilidad social. Además, la reutilización del contenido y la mejora en difusión y posicionamiento son efectos colaterales habituales cuando se dispone de transcripciones, textos y metadatos reutilizables. En otras palabras, la accesibilidad no es únicamente coste, es también una inversión que amplifica el valor del contenido y su alcance.

Gracias a las nuevas oportunidades que nos ofrece la Inteligencia artificial el ecosistema actual reduce el coste de oportunidad de hacer accesibles los contenidos multimedia y debilita la narrativa de que no hay presupuesto como justificación estructural. Con obligaciones normativas más próximas, con expectativas sociales crecientes y con soluciones que combinan automatización y control humano de calidad, la accesibilidad audiovisual se está convirtiendo en una práctica estándar. La pregunta relevante ya no es si una organización puede permitirse hacer accesible su contenido, sino si puede permitirse no hacerlo cuando existen vías rápidas, escalables y económicamente racionales para cumplir y, al mismo tiempo, ampliar el impacto de su comunicación.

El body de una página HTML

En los artículos anteriores se presentó la estructura general de un documento HTML y se profundizó en el propósito del elemento <head>.

El elemento <body> representa el contenido del documento: aquello que el usuario percibe como la página y con lo que interactúa, incluyendo texto, navegación, imágenes, formularios y componentes de aplicación web.

El <body> no es únicamente un contenedor visual. En términos de accesibilidad y usabilidad, el cuerpo es el lugar donde se materializa la estructura semántica del contenido: cómo se organizan los títulos, qué se considera navegación, cuál es el contenido principal, qué partes son complementarias y qué regiones se repiten entre páginas.

Esta estructura, cuando se expresa con etiquetas semánticas adecuadas, facilita la navegación para lectores de pantalla, y mejora la efectividad general del documento para las personas que utilizan herramientas de apoyo a la comprensión.

Ejemplo completo de body

A continuación se muestra un ejemplo realista de <body> en una página de contenido, utilizando una estructura semántica típica con cabecera, navegación, contenido principal y pie. El objetivo del ejemplo es que se vea cómo se divide el cuerpo en regiones, no que sea un diseño definitivo.

<body>
<h1>Programar a ciegas</h1>
<p>Accesibilidad, usabilidad y desarrollo.</p>
<nav>
<a href="/">Inicio</a>
<a href="/articulos/">Artículos</a>
<a href="/contacto/">Contacto</a>
</nav>

<main>
<h2>El body de una página HTML</h2>
<p>Publicado el 19/01/2026</p>
<p>
El elemento <code>&lt;body&gt;</code> contiene el contenido principal del documento: texto, enlaces,
imágenes y controles interactivos.
</p>

<h3>Un enlace dentro del contenido</h3>
<p>
Un ejemplo de enlace descriptivo puede ser:
<a href="https://programaraciegas.net">Visitar Programar a ciegas</a>.
</p>

<h3>Una imagen con texto alternativo</h3>
<img src="/img/ejemplo.png" alt="Captura de una página mostrando un artículo con estructura semántica.">
</main>

<footer>
<p>&copy; 2026 Tyflos Accessible Software</p>
<a href="/accesibilidad/">Declaración de accesibilidad</a>
</footer>
</body>

En este ejemplo se puede ver que el <body> suele mezclar contenido estático (párrafos, títulos, imágenes) con contenido interactivo (enlaces, formularios) y con regiones que permiten comprender rápidamente la página (por ejemplo, navegación y contenido principal). El elemento <main> representa el contenido dominante de la página y, por buenas prácticas, debería ser único.

Estructura semántica dentro del body

A la hora de diseñar un sitio web hay que tener en cuenta la idea de no es qué se muestra, sino qué significa cada zona. Para expresar esa semántica, HTML ofrece diversos elementos como <header>, <nav>, <main> y <footer>, que ayudan a identificar regiones típicas de una página, y elementos como <article> y <section>, que ayudan a organizar el contenido en bloques con sentido propio.

Desde el punto de vista de la accesibilidad, estas etiquetas semánticas suelen traducirse en regiones o landmarks que muchos lectores de pantalla permiten identificar y recorrer con atajos de teclado.

Es importante matizar que el contexto importa: un <header> puede ser un banner cuando está directamente asociado al documento, pero no necesariamente cuando aparece dentro de un <article> o <section>. De forma equivalente, un <footer> dentro de un <article> no representa el pie global de la página, sino el pie de ese bloque.

Contenido habitual del body

Dentro del <body> se declaran, en primer lugar, los títulos que organizan la información mediante <h1>…<h6>, que permiten expresar jerarquía y ofrecer navegación por encabezados; a continuación se encuentra el texto en sí, normalmente en párrafos con <p>, citas con <blockquote> o fragmentos de código con <code> y <pre>; seguidamente suelen aparecer enlaces con <a>, que conectan el contenido con otras páginas o con secciones internas; y también se incluyen recursos no textuales como imágenes (<img>) o figuras (<figure> y <figcaption>), además de componentes de interacción como formularios (<form>, <label>, <input>, <button>) y otros controles.

Aunque visualmente todo parece contenido, para un lector de pantalla y para muchas herramientas, la diferencia entre un título, un párrafo, un bloque de navegación o un control de formulario es esencial porque define cómo se recorre y se comprende la página. Por eso conviene preferir semántica nativa de HTML frente a contenedores genéricos (<div>, <span>) cuando exista un elemento apropiado.

Accesibilidad en el body

La mayoría de barreras de accesibilidad aparecen dentro del <body> de la página ya que aquí es donde se incluye el contenido y la funcionalidad y se aplica el diseño.

Para evitar los problemas de accesibilidad más graves hay que prestar atención a los siguientes conceptos:

La estructura mediante encabezados debe reflejar la organización real del contenido, porque los títulos se usan para navegación rápida y orientación. Una jerarquía coherente y títulos que describen secciones, en lugar de textos decorativos, facilita que el usuario entienda el documento sin necesidad de leerlo linealmente.

Las regiones principales deberían estar identificadas de forma clara, normalmente con elementos semánticos (<nav>, <main>, <footer>) y, cuando sea necesario, con nombres accesibles (utilizando, por ejemplo, aria-label en una navegación si hay varias). Este enfoque permite saltar directamente a Navegación, Contenido principal o Pie desde el lector de pantalla.

Todo contenido no textual debe tener una alternativa textual cuando aporte información o cumpla una función. En imágenes, el mecanismo principal sigue siendo el atributo alt, que puede describir la imagen o estar vacío (alt=»») cuando sea decorativa y no deba anunciarse.

En los formularios, el control debe tener un nombre accesible. La forma más robusta suele ser asociar un <label> con el control mediante for/id, y solo cuando no sea viable se recurre a mecanismos como aria-label o aria-labelledby.

Por último, incluso con buena semántica, la experiencia se puede degradar si el foco del teclado no sigue un orden lógico o si hay elementos interactivos que no son realmente operables con teclado. El <body> es, por tanto, el lugar donde se debe verificar navegación por tabulador, foco visible, orden de lectura y coherencia entre lo visual y lo programático.

Más voces para idiomas no habituales en iOS con RHVoice

Desde 2023 Apple empezó a permitir que algunas aplicaciones aporten motores de síntesis de voz alternativos que pueden integrarse con VoiceOver y con cualquier app que utilice el motor TTS del sistema. RHVoice es una de esas aplicaciones, y su enfoque es especialmente interesante para quienes priorizan ligereza, rapidez y cobertura lingüística antes que la naturalidad “neuronal” de las voces comerciales.

RHVoice es un sintetizador de voz gratuito y de código abierto, pensado desde el inicio para ser útil a personas ciegas o con dificultad para acceder al texto impreso, y con especial interés en idiomas donde no siempre existen voces “premium” accesibles y de calidad para lectores de pantalla.

Al momento de escribir este artículo se incluyen voces para los idiomas luxemburgués, macedonio y albanés.

Este motor de síntesis de voz emplea síntesis paramétrica estadística (apoyándose en tecnologías abiertas como HTS y software relacionado). Debido a esto el tamaño de descarga suele ser reducido porque se almacenan modelos estadísticos en lugar de ficheros de sonido grandes.

Debido al pequeño tamaño de las voces la naturalidad puede ser inferior a la de sistemas basados en concatenación de grabaciones o redes neuronales, aunque la comprensibilidad de la voz es aceptable.

RHVoice en la App Store

La aplicación está publicada por Non-Routine LLC, es gratuita, ocupa alrededor de 10,5 MB y requiere iOS/iPadOS 16.2 o posterior. También ofrece versión para macOS (13.1 o posterior) y aparece listada para Apple Vision.

RHVoice no incluye voces “de serie”. Esto se hace para reducir el tamaño inicial y para que las actualizaciones de voces sean más simples.

Al abrir la app verás la lista de idiomas disponibles; al entrar en un idioma, se muestran las voces y puedes descargarlas con el botón correspondiente. Dentro de las opciones puedes cambiar entre dos niveles de calidad de voz.

Puedes descargar RHVoice desde la AppStore.

Más voces para tu iPhone y tu iPad con eSpeakNG

Desde iOS17 es posible instalar más voces para usar en los dispositivos móviles de Apple como el iPhone o el iPad.

Aunque la síntesis de voz en los dispositivos móviles actuales se asocia a voces neuronales de alta naturalidad y a catálogos cada vez más completos, también existe un espacio igualmente relevante para soluciones ligeras, abiertas y muy multilingües. En ese terreno se sitúa eSpeak-NG, una app disponible en la App Store que actúa como puente entre la biblioteca eSpeak-NG y VoiceOver, con el objetivo de hacer utilizables estas voces en iOS, iPadOS y macOS sin tener que recurrir a integraciones complejas por parte del usuario.

Este tipo de voces son de poco peso en memoria y muy personalizables. Además están disponibles en muchos idiomas para los que, oficialmente, no existen voces de alta calidad.

¿Qué es eSpeak-NG?

Se trata de la evolución comunitaria de eSpeak, el motor creado originalmente por Jonathan Duddington.

Este motor de síntesis de voz se enfoca en ofrecer soporte para muchos idiomas y variantes con un tamaño reducido y un consumo contenido de recursos, a costa de una sonoridad menos natural que la de sintetizadores basados en grabaciones humanas. Este enfoque, basado en síntesis por formantes, explica por qué eSpeak (y su “Next Generation”) sigue siendo útil en ámbitos donde la ligereza, la velocidad y la cobertura lingüística pesan más que el realismo.

eSpeak-NG en la AppStore

La app de eSpeak-NG para Apple, publicada por Yury Popov, se describe explícitamente como una “capa de compatibilidad” entre la librería eSpeak-NG y VoiceOver.

Con la instalación de esta app se consigue que el sistema y el lector de pantalla puedan acceder a esas voces y a su configuración sin que el usuario tenga que montar entornos externos, compilar nada o depender de otras soluciones.

Puedes instalar eSpeak-NG desde la AppStore.

Soporte para Vox libri

La aplicación de lectura de libros Vox libri es compatible con este motor. Esto implica que al instalar la aplicación de eSpeak-NG podremos utilizar las voces de eSpeak para leer nuestros libros con Vox libri.

Cómo crear una voz sintética con tu propia voz en macOS

La voz es una parte esencial de la identidad. No solo transmite información, también comunica personalidad, intención, estado de ánimo y cercanía. Por ese motivo, la posibilidad de conservar la voz y usarla como voz sintética en un ordenador no es un simple capricho tecnológico: es una herramienta con impacto real en autonomía, accesibilidad y dignidad, especialmente para personas que pueden perder la capacidad de hablar o que necesitan apoyos de comunicación.

También las personas con trastorno del espectro autista u otros perfiles de discapacidad cognitiva se pueden beneficiar de esta característica al incluir la voz de un familiar o un terapeuta de confianza para la persona. De esta forma la atención y la seguridad se unen a los beneficios de esta característica.

En el ecosistema de Apple podemos encontrar Personal Voice, más conocido como Voz personal, una función de accesibilidad que permite crear una voz sintética a partir de las grabaciones de una voz humana real.

Esta voz puede ser utilizada en el sistema para las notificaciones, el servicio de Live Speech (Voz en tiempo real) o para VoiceOver, el lector de pantallas de Apple.

Requisitos y consideraciones antes de empezar

En macOS Personal Voice está disponible solo en ordenadores con procesadores Apple silicon, y no está disponible en todos los idiomas o regiones. Además, Apple indica que para crear una Voz personal en el Mac necesitas tener contraseña de inicio de sesión configurada, ya que se solicita durante el proceso de creación.

Aunque el proceso oficialmente dura pocos minutos, este tiempo dependerá de la versión del hardware y del sistema operativo que estemos utilizando.

Crear tu voz paso a paso

En el menú de ajustes del Mac, debemos ir al apartado de accesibilidad y allí buscar la opción de Voz personal.

Dentro encontraremos el botón Crear una voz personal. Este botón comienza el proceso de creación.

Además en esta pantalla encontramos información sobre esta característica de accesibilidad, cuántas voces tenemos creadas, si queremos compartir nuestra voz con todos nuestros dispositivos de Apple y si queremos que nuestra voz pueda ser utilizada por otras aplicaciones como, por ejemplo, aplicaciones de lectura de libros.

El proceso de creación

Al pulsar el botón de Crear una voz personal daremos comienzo al proceso de creación.

Al comenzar el proceso de creación el sistema te guiará por una grabación de frases. El objetivo de estas lecturas es capturar suficientes muestras para que el modelo genere una voz que se parezca a la voz original.

Se puede grabar con el micrófono integrado del Macbook, pero se recomienda un micrófono externo o unos auriculares con micrófono integrado ya que con mejor calidad en la grabación obtendremos mayor calidad en la voz resultante.

Aparecerá la petición de autenticación en tu cuenta de iCloud. Tras identificarnos aparecerá un diálogo con información sobre el proceso:

Grábate,

Tendrás que leer en voz alta un conjunto de 10 frases.

Genera tu voz personal,

El Mac creará tu voz personal y la almacenará de forma segura.

Usa tu voz personal,

Usa la voz en tiempo real para decir lo que escribas.

Si has creado una voz personal, también la podrás usar con las funciones de lectura y voz, VoiceOver y las apps de comunicación aumentativa.

Y unos botones para cancelar y continuar.

Apple también contempla la posibilidad de pausar y retomar el proceso, guardando el progreso para continuar en otro momento.

Al pulsar el botón de Continuar deberemos seleccionar el idioma para realizar la grabación.

En el momento de escribir este artículo los idiomas disponibles son: inglés de Estados unidos, español de México y chino mandarín de China continental.

En nuestro caso elegiremos español y volveremos a pulsar en Continuar.

En el siguiente paso el sistema nos pregunta por el nombre que le daremos a la voz.

Luego se necesita realizar una descarga de un contenido previo para la grabación de 1Gb. Debemos esperar a que termine la descarga.

Si se necesita configurar algún aspecto de la red se puede volver al proceso al abrir de nuevo los ajustes del Macbook, accesibilidad y de nuevo entrar en el panel de Voz personal.

En la lista de voces veremos nuestra voz en un estado similar a quedan 10 frases por grabar.

Al terminar de grabar las frases el procesamiento se realizará de forma segura en el propio dispositivo y el sistema te avisará cuando la voz esté lista para usarse.

Durante el proceso de grabación tendremos que verbalizar frases del tipo: Estoy creando una voz personal con mi Mac, ¿Te gusta coleccionar pósters de películas?, .

En el caso de utilizar lector de pantallas es recomendable que utilicemos auriculares para evitar que la voz de VoiceOver se mezcle con la grabación.

Cada vez que grabemos una de las frases, pulsando el botón de grabar, podemos escuchar el resultado o pasar a la siguiente frase.

Una vez terminado el proceso de grabación se mostrará un mensaje del tipo:

Recibirás una notificación,

Cuando se haya terminado de generar tu voz personal, recibirás una notificación. El proceso no debería tardar más de un minuto..

Recomendaciones prácticas para una mejor calidad

Aunque el sistema guía el proceso, la calidad final suele mejorar cuando se graba en un entorno silencioso y estable, se mantiene una distancia constante al micrófono y se evita cambios bruscos de postura.

También ayuda leer con una dicción natural, sin forzar un tono de locutor, porque el objetivo no es interpretar, sino capturar la voz cotidiana. Si se tiene fatiga vocal, es preferible pausar y continuar más tarde; Apple permite retomar la grabación sin perder el progreso.

Uso de nuestra voz personal

Una vez creada la voz podemos activarla para compartirla entre todos nuestros dispositivos y con otras aplicaciones.Podemos realizar una prueba con la función de Voz en tiempo real que aparece en los ajustes de accesibilidad de nuestro Mac. Para ello en el campo de idioma dejamos el valor de Idioma de voz del sistema y como voz seleccionamos el nombre de nuestra voz personal.En el campo de frases para hablar introducimos el texto que queremos verbalizar y pulsamos el botón Hablar o pulsamos la tecla enter.

Creación de la voz en otros dispositivos

Este proceso también se puede completar en un iPhone, un iPad o unas Apple Vision Pro. Se recomienda realizar, en cambio, el proceso en el Mac porque el procesador es más potente y se pueden utilizar micrófonos externos con mayor facilidad.

Se puede consultar la ayuda oficial de Apple para la creación de voces en su portal de soporte.

Tutoriales para Vox libri en el canal de Alibluebox de Whatsapp

Los amigos de AliBlueBox han publicado recientemente unos tutoriales para aprender a utilizar mejor la aplicación de Vox libri.

En estos videos se detallan los siguientes elementos de la aplicación:

  • Cómo consultar toda la información de los libros que importas.
  • Explicación detallada de la barra de progreso y todo lo que ofrece.
  • Un recorrido completo por las distintas formas de navegación dentro del libro.

Este contenido está dentro del canal de Whatsapp de AliBlueBox por lo que necesitarás suscribirte a su canal para disfrutar de estos contenidos.