Charlas técnicas de AWS (AWS en Español)

Amazon Web Services (AWS) es una plataforma de cloud utilizada por todo el mundo, ofrece más de 180 servicios. Millones de clientes, desde startups a empresas distribuidas a lo largo y ancho del mundo con millones de usuarios. El podcast de Charlas Técnicas de AWS es el podcast definitivo para desarrolladores, devops, sysadmins y profesionales de la nube. En este podcast vamos a hablar sobre las últimas noticias y tendencias de la nube. También vamos a cubrir temas relevantes a la nube para que puedan aprender sobre estos temas. Escribinos a: podcast-aws-espanol@amazon.com

All Episodes

Charlas técnicas de AWS (AWS en Español)

#4.07 - Voces sintéticas con IA

May 01, 2023 • Marcia Villalba / Guillermo Ruiz • Season 4 • Episode 7

En este episodio hablamos con Nieves Ábalos, fundadora de Monoceros Lab, sobre las voces sintéticas, qué son, cómo se construyen y para que se pueden usar.

Este es el episodio 7 de la cuarta temporada del podcast de Charlas Técnicas de AWS.

📑Tabla de contenidos:
01:53 Conociendo a Nieves Ábalos
05:06 ¿Cómo surge Monoceros Labs?
11:17 Definición de voces sintéticas
12:14 Casos de Uso
13:11 Entrenando nuestro modelo
17:22 Gestionando los acentos y pronunciación
20:27 Misma palabra, distintos significados. Buscando el contexto.
23:07 Clonación de voces vs Creación nuevas voces.
25:19 Fases en la clonación de una voz.
27:22 La privacidad de la voz.
30:26 Añadiendo marca de agua a una voz.
34:34 Casos de uso: Medicina
35:49 Casos de uso: Apps lectura
37:16 Casos de uso: Creando subtítulos automáticamente
38:31 Casos de uso: Media & Entertainment
40:23 Casos de uso: Apps de Idiomas
43:30 En qué consiste la normalización?
45:44 La importancia de los lingüistas computacionales
48:11 Usando servicios AWS
52:12 Recomendación película y libro

🤳 Redes sociales del invitado:
- LinkedIn: https://www.linkedin.com/in/nievesabalosserrano/
- Twitter: https://twitter.com/nieves_as

🎫 Próximos Eventos AWS:
AWS Summit Madrid: https://aws.amazon.com/es/events/summits/madrid/
AWS Hackathon for Good: https://www.hackathoniberia.com/

🔗 Links mencionados en este episodio:

Monoceros Labs: https://monoceros.xyz/
Podcast - Cuando las máquinas hablen: https://www.youtube.com/playlist?list=PLoyQmkSmyKvFNg274ygvYtdIN8xjVZKb7
La llegada - https://www.amazon.com/Arrival-Stories-Your-Life-MTI/dp/0525433678
Exhalation - Ted Chiang
Woman in Voice Spain: https://www.youtube.com/channel/UCxHCtLW82kdM2NeyX53xGIA
Fonos: https://getfonos.com/

✉️ Si quieren escribirnos pueden hacerlo a este correo: podcast-aws-espanol@amazon.com

Podes encontrar el podcast en este link: https://aws-espanol.buzzsprout.com/
O en tu plataforma de podcast favorita

Más información y tutoriales en el canal de youtube de Charlas Técnicas

☆☆ NUESTRAS REDES SOCIALES ☆☆

🐦Guille Twitter: https://x.com/iaasgeek

🐦 Eli Twitter: https://x.com/ElizabethFue12

🐦 Podcast Charlas Técnicas: https://x.com/aws_espanol

🐦 Marcia Twitter: / mavi888uy

📷 Marcia Instagram: / foobar_codes

#foobar #AWSenEspañol

Marcia: 0:13

Hola y bienvenidos a otro episodio del podcast de charlas técnicas de AWS. Mi nombre es Marcia Villalba y soy Developer Advocate para AWS Serverless.

Guillermo: 0:24

Y por aquí Guille Developer Advocate para la región de Iberia.

Marcia: 0:28

Como estás Guille? Otro Lunes!

Guillermo: 0:31

Otro! Ya empieza a convertirse en una costumbre. Pues nada. Comentaros unas pequeñas noticias... cada vez queda menos para el Summit de Madrid de AWS... tenéis las entradas disponibles.

Marcia: 0:43

Qué día era?

Guillermo: 0:45

15 de junio. Este año va a ser solo un día y ya estamos cerrando las demos que queremos poner en el Innovation Center. Hemos ampliado nuevos booths. Yo creo que este año va a gustar bastante, muy interactivas para que la gente que atienda o que venga a vernos pueda interactuar con con las demos y luego, por otro lado, tenemos un evento que vamos a sponsorizar el JonTheBeach en Málaga, que este es del 10 al 12 de mayo. Es una conferencia para quien no haya estado... en Málaga. Tenéis buen tiempo, playa y junta en torno a 900 desarrolladores... viene a ser cada año. Muchas charlas técnicas, mucha comunidad, la verdad que es un evento muy, muy recomendable.

Marcia: 1:31

Maldita sea que no encontré ese call for papers porque un evento Mayo Málaga suena muy tentador.

Guillermo: 1:37

Mucho.

Marcia: 1:39

Pero bueno, esa fecha tengo que estar en Seattle, que no va a ser el mismo tiempo tan bonito que hay en Málaga. La playa del Pacifico, en Seattle, maybe not. Pero bueno, vamos a darle la bienvenida a nuestra invitada, hoy tenemos un tema súper súper interesante y es algo que he probado un montón que son las voces sintéticas. Como creadora de contenido, a mí, me encanta porque hace que no tenga que poner todo mi setup. Y vamos a tener acá la co-fundadora de Monoceros Labs, Nieves Ábalos que nos a venir a contar sobre cómo es tener una empresa que genera este tipo de voces sintéticas en español. Y bueno, un montón de cosas alrededor de lo que es la inteligencia artificial, la generación de voces sintéticas y 1000 otras cosas. Así que te doy la bienvenida Nieves. Muchas gracias por estar acá hoy.

Nieves: 2:35

Muchas gracias a vosotros por invitarme. Ha sido un placer estar contigo, sobre todo Marcia que a ti te tengo ya... eres una referente, así que muchas gracias de verdad por hacerme este huequito aquí con vosotros.

Marcia: 2:49

Encantada que que hayas podido venir y a contarnos un montón de cosas, pero capaz para empezar a dar un poquito de contexto de quién es Nieves nos podés contar un poquito de tu historia.¿Cómo llegaste a fundar Monoceros Labs?, a las voces sintéticas y todo eso, no?

Nieves: 3:06

Pues... sí, pues empecé... bueno, yo creo que, como todo un poco influenciado de pequeños jóvenes con la inteligencia artificial, no?, y la ciencia ficción y todo eso un poco. Y empecé la carrera de ingeniería informática, tras cinco años tuve que elegir mi proyecto fin de carrera. Digo fin de carrera ahí un poco la edad se nota, porque en España, si no sería fin de grado y ese tipo de cosas, pero sí, fin de carrera. Tuve que elegir entre diferentes cosas y descubrí un departamento que estaba trabajando con sistemas de diálogo, sistemas de diálogo, que básicamente en lenguaje no universitario, software que nos permite hablarle y entendernos osea software con el que nos comunicamos no? Entonces me tiré un año entero para hacer un sistema que me reconociera la voz para encender diferentes electrodomésticos de una vivienda simulada. Todo esto en inglés porque...

Marcia: 4:11

Y antes de Alexa.

Nieves: 4:12

Y antes de Alexa os estoy hablando, venga, voy a decir la fecha...2009 ...o por ahí y con el ordenador que yo tenía que en aquella época era un portátil Microsoft y utilizaba el reconocimiento de voz de Microsoft que solo estaba disponible en inglés en aquella época, por lo menos a nivel de usuario, no?, y de hecho tenía que entrenar el sistema para que me entendiera hablando en inglés, o sea, no funcionaba directamente. Tenía que tirarme 20 minutos leyendo textos en inglés para que aprendiera de cómo era mi pronunciación. Y bueno, el proyecto duro un año fue super bonito. Y la verdad es que eso fue un poco lo que hizo que la parte conversacional, tecnología con la que hablamos, no, fue la que caló en mi. Continué con el doctorado que no termine. Seguí investigando en evaluar este tipo de tecnología para ver cómo se adecuaba mejor a nosotras, las usuarias y usuarios. Y pasé a empresa privada, dejé el doctorado para pasar a la empresa privada. Tuve suerte también de entrar en un departamento de innovación, que estaban, pues trabajando... era un departamento de innovación de la empresa... se llamaba Viva por aquel entonces, ahora es BBVA Next Technologies. Y en el departamento de innovación, pues estábamos ahí como investigando, la tecnología para luego, pues ir como de avanzadilla, ir viendo que podíamos aplicar o no para nuestros clientes. Y ahí fue, pues, seguir trabajando con chatbots, con interfaces de voz ahí sí, apareció Alexa en inglés. Tuvimos nuestro primer Echo traído de Estados Unidos. Y ahí empezamos a hacer prototipos de Alexa skills, las aplicaciones de voz en inglés porque todavía en español no estaba. Y bueno, y trabajando con otras tecnologías de inteligencia artificial, no? que estaban relacionadas con eso con el hablar y conversar. Y fue entonces Marcia cuando dijimos... oye, esto, Alexa en español, va a venir pronto. Esto tiene mucho potencial. Se pueden hacer muchas cosas, no? Y decidimos fundar, Carlos, mi socio y yo Monoceros Labs. Empezamos en... nos cogimos en 2017 una excedencia de la empresa. Esta que os comentaba antes para fundar Monoceros. Y justo Alexa, apareció prácticamente al año siguiente, no, pero durante ese tiempo, pues estuvimos con algún proyectillo de chatbots, investigando un poco más, que funcionalidades, qué cosa íbamos a tener? Buscando casos de uso y nuestra primera aplicación de voz que lanzamos en el mercado, vamos aquí en Amazon España, en el marketplace de España. Fue, Veo, Veo. El juego de Veo, Veo para niños. Y fue muy guay porque tuvo muchísima acogida porque tampoco había muchas aplicaciones de voz en aquel entonces. Y aprendimos muchísimo, muchísimo, muchísimo de cómo, bueno, hemos estado trabajando con muchos clientes, con muchos casos de uso, pero hemos aprendido muchísimo de cómo las personas interactuamos con esta tecnología conversacional como es Alexa, desde..

Marcia: 7:22

La voz, es muy curiosa porque todo el mundo, o sea así, podés comunicarte con vos podés comunicarte con la máquina. Y yo lo veo con mi hija cuando era chiquita y no sabía... ahora te maneja el Ipad cualquier cosa, pero antes no tenía ni idea, pero al Alexa le decía feliz cumpleaños para que le pusieras la canción de feliz cumpleaños y aprendía a decir las palabras más o menos que Alexa requería para y nos tenía ahí en loop. La misma canción, tres días.

Nieves: 7:57

Y es maravilloso. Yo no sé si te ha pasado a ti, Marcia con tu hija, pero nosotros hemos llegado a ver a niños que no habían interactuado nunca por voz con la tecnología y de repente verles en los ojos esa ilusión de... ostras me está hablando. Qué es esto? Me estaba haciendo lo que yo quiero. No? Sí, me entiende y esa ilusión y ves como al final puedes crear cosas. Puedes crear herramientas que rompen barreras porque es lo que decía no, la voz está ahí siempre. Crear aplicaciones de voz de alguna manera romper barreras que a veces incluso otras tecnologías ponen, no? Entonces, eso ha sido lo que nuestro origen fue eso.¿Cómo podemos romper las barreras que a veces tenemos con tecnología como Alexa, no? Y ahí empezamos a trabajar con un montón de clientes y un montón de proyectos. Y acabamos en las voz de sintéticas.

Marcia: 8:51

Las voces sintéticas... que no tiene nada que ver con Alex a esta altura, ya lo bueno...

Nieves: 8:59

Algo algo algo de relación tiene y es que fijaos lo que nos pasó. Había mucha, muchos casos de uso que requerían, pues, de una voz en particular de una de un estilo de entonación particular que quizás con la voz que tiene Alexa, que es una voz que está... una voz sintética, Alexa, que además se adapta muy bien a diferentes países. Eso es también algo a diferentes idiomas y a diferentes países. Se adapta culturalmente. Es una maravilla, pero esa voz, eh, no deja... se ha diseñado un poco para que sea... que encaja en todos los casos de uso posible. No tiene una entonación muy específica para leer noticias, por ejemplo, no? Bueno, para leer noticias en inglés sí, en español no mucho. Entonces, viendo ahí un poco las carencias que teníamos a la hora de crear mejores experiencias conversacionales porque nos dábamos cuenta que, por ejemplo, había, hay personas mayores que con cierta entonación, pues también se le olvida más la información, eh, no eran capaces de retener tanta información. Claro por por ese estilo tan neutro a la hora de hablar. Entonces, en cuanto cambias la voz y la adaptas mejor al caso de uso incluso a la persona, pues ya mejora esa esa parte de conversación. Entonces, viendo ese ese, esa gente

Marcia: 10:18

que habla y no te no te queda nada, no? No son buenas voces sintéticas

Nieves: 10:23

y estuvimos probando un montón. Bueno, hemos hecho experiencias conversacionales en las que hemos utilizado voces de AWS Polly para crear, pues, personajes que hablaran con Alexa no? Y que jugáramos, pues jugar un poco con las posibilidades de tener diferentes personajes. Hay diferentes personalidades, no? Pero aún así veíamos que en español nos faltaba todavía un poco. No? Había un huequillo en el que podíamos aportar y nos tiramos pues, un par de años investigando, cómo estaba la tecnología a nivel de estado del arte? Vale, y decidimos desarrollar nuestra propia tecnología para tener voces personalizadas, voces sintéticas personalizada y más expresiva, sobre todo en español. No queremos meternos en otro idioma, sino para cubrir lo que realmente falta, en español. Así que ahí estamos...

Guillermo: 11:17

Increíble. Si tuvieras que dar la definición de qué son voces sintéticas?

Nieves: 11:22

Pues esta es muy buena pregunta. Una voz sintética es una voz construida con tecnología, es como una voz digital, vale?, Decimos que es sintética por eso porque está construida por software, no tanto porque se nos aparente otra cosa, no? Y las voces sintéticas normalmente lo que nos permiten es que, o bien a partir de un texto escrito, o bien a partir de un audio de otra voz pues no permite, tener un audio con las características de la voz del modelo que ha aprendido. Por ejemplo, una voz sintética, es una voz clonada. Pero una voz sintética también es una voz que no identifica a nadie, es decir, que no es un clon de nadie, que mezcla otras voces. Eso también sería una voz sintética.

Marcia: 12:14

Capaz podemos pensar algún caso de uso así para llevar a...no sé, a la tierra un poco el concepto de voz sintética.¿Cuando se usaría?

Nieves: 12:25

Pues mira, por ejemplo, se ha usado un montón de tiempo para la lectura. El voice over de artículos. Bueno, el voice over, la navegación, toda esta parte de accesibilidad de los sistemas operativos y navegadores web, para gente que tiene algún problema de visión, pues pueden utilizar estas tecnologías para consumir lo que está escrito en una página web, por ejemplo, y es super útil. Porque lo pueden adaptar. Pueden adaptar el ritmo siempre partiendo de un texto. No? Pues luego tú ya puedes cambiar alguna cosa. Pues, que lea más rápido o que leas más lento? No? O que esta voz no me gusta tanto. Prefiero otra. Y ese es como el caso de uso estrella. La accesibilidad.

Marcia: 13:07

Claro.

Guillermo: 13:08

¿Cómo entrenas un modelo para poder clonar una voz?¿Cuánto tiempo requiere?¿Cuántas horas de entrenamiento?

Nieves: 13:19

Pues es muy buena pregunta porque esto te diría, la respuesta corta es depende, no? Depende de la tecnología un poco y de lo que quieras hacer, de qué tipo de voz quieras construir? Pero en realidad para clonar una voz con la tecnología que hay disponible más reciente, la que decimos, ese estado del arte que nosotros mencionamos, pues se puede crear un modelo de cero, es decir, que no haya aprendido de ninguna voz y... un modelo de cero, pues con al menos, por ejemplo, cuatro horas. Con cuatro horas podrías tener un modelo de voz, pero, puedes crear una clonación haciendo un fine tune de un modelo ya existente, es decir, tienes ya una base y le dices oye, olvídate de eso, aprende de estas muestras y con esas grabaciones, pues a lo mejor podemos estar hablando de 10 minutos para algo muy general, sabiendo que puede fallar y está respetando la identidad de la persona o algo un poco más pro si queremos que la voz funcione mejor en diferentes casos de uso, con diferentes entonaciones, etcétera. Pero vamos, la tecnología sigue avanzando mucho. Yo hablo de una tecnología similar a la que usamos nosotros, que lo que tiene son modelos... bueno, técnica de inteligencia artificial basado en redes neuronales, que están en ese grupo en el que ahora se llama inteligencia artificial generativa, que no sé si... bueno, ChatGPT, Midjourney, y todo esto no deja de ser ese grupo de inteligencia artificial generativa, pero bueno, dentro de ese grupo hay otro tipo de tecnología de síntesis de voz que todavía están mucho más avanzados, que necesitan para clonar, digamos la voz de alguien, necesitan incluso menos datos, pero tienen un poco de trampa y que eso son por ejemplo, Vall-E .Habréis escuchado hablar de Vall-E y de otras tecnologías que están, pues el enfoque es diferente, tienen otro tipo de tecnologías que se llama... estos se llaman modelo de difusión y a veces parten de grandes modelos. O sea, tienen que construir como un gran modelo, como si fuera un gran modelo del lenguaje, vale? Y con ese gran modelo, pues ya así necesitas pocos datos para como imitar la voz de alguien. Pero ese gran modelo se ha construido pues con 60000, os hablo de Vall-E, 60000 horas de grabación de 7000 personas diferentes ,en inglés, o sea una pasada, una pasada, una pasada total.

Guillermo: 15:49

Bueno, para quien no lo sepa, la tecnología de Vall-E se supone que con tres segundos de tu voz es capaz de generar el discurso de la longitud que quieras en el speech, no?

Nieves: 16:02

Eso es. Sí, con tres segundas capaz de sacar los matices de tu voz, digamos, o sea, es, reconoce muy pronto eso que te hace diferente a ti en la voz. Pero claro, realmente, pues eso, como tiene aprendido de tanta gente y de tantas horas, pues lo tiene más fácil, imitar. Se inventa el resto que dicen bueno, va generando

Marcia: 16:25

Por eso el idioma en el cual ustedes entrenan es tan importante, porque todo esto está entrenado en inglés, un montón. Pero para el español, que es el segundo idioma materno del mundo, hay muy poquito.

Nieves: 16:38

Sí, sí, realmente sí. Al final. Eso nos pasa mucho en tecnología, y en modelos de inteligencia artificial también. Pues los datasets son clave para entrenar este tipo de modelos y en cuestión... en concreto, cuando hablamos de voces, hablamos de grabaciones de voces, no? Entonces, pues, no están tan disponibles como en inglés, en inglés siempre... bueno, aparte del avance de la tecnología también, no hay tanto datasets de los cuales podamos construir cosas, no? Así que si nosotros..

Marcia: 17:09

Porque otras cosas capaz. El idioma no importa tanto porque siempre se puede traducir o lo que sea, pero en la voz necesitas el material en español, no?

Nieves: 17:19

Eso es, eso es.

Marcia: 17:22

Entonces ustedes lo hacen todo en en la nube. Me imagino, entrenan con datasets, en español. Y cómo gestionan el tema de los acentos para tener ahí una proporción de diferentes voces de español que hay... ya cada cual dice AWS de su forma. Y no me imagino la cantidad de acentos que hay por ahí, no?

Nieves: 17:46

Eso es, pues es muy buena pregunta, Marcia. Al final, una de las cosas que nos permite esta tecnología generativa es que aprende muy bien de los patrones de lo que nos hace, de las particularidades de cada voz. Entonces, por ejemplo, podemos tener voces con diferentes acentos, porque es que los aprende super bien. Mi acento andaluz, pues yo ahí ese finales de palabra que no pronuncio porque estoy haciendo otra expresión. Estoy haciendo otra cosa. En realidad la ese está ahí. No es que no esté, pero es invisible. Pues la red es capaz de darse cuenta de que yo estoy haciendo ahí en ese contexto, esa pronunciación concreta, no? Entonces esto es maravilloso por eso, para que podamos tener voces con diferentes acentos como cada uno de nosotros nos expresamos. Eso sí, luego hablando de dialectos o de variedades más representativas del español, pues luego a lo mejor hay que hacer alguna adaptación. No? Pues, como tú decías, a lo mejor hay variedades lingüísticas del español en las que hay pronunciaciones más cercanas a cómo sería en inglés. Digo pronunciación de ciertas palabras o cómo cada uno decimos ciertas palabras. Eso tiene que ver también ya no solo a nivel fonético, sino luego a nivel de, digamos, de diccionario, cómo le enseñamos a la máquina a que hay palabras que yo como individuo, pues me gusta, eh, que se digan de una manera en concreta, no.

Marcia: 19:19

Por ejemplo, en México hablan mucho más con palabras en inglés que en España, que son como los dos opuestos, al menos en mi experiencia. Y hablando español en España, tienen palabras para todo en español. Las pronuncian en español, mientras que en México usan un montón de anglicismos y las pronuncian en inglés. Y eso es una locura para la pobre inteligencia artificial.

Nieves: 19:42

Eso pues, digamos que se crea esa otra capa que es más manual o más lingüista. De hecho, hay un trabajo de lingüística computacional aquí enorme en el tema de las voces sintéticas y de eso trata no de crear una serie de reglas, una serie de procedimientos y una serie de cosas como la normalización de los textos. Eso también tenemos que hacerlo antes de pasarle los datos a la red neuronal, no? Entonces hay una serie de tareas de las que nos encargamos con la... con esto... con la lingüística computacional para resolver este tipo de retos, no para que, bueno, pues podamos trabajar y crear experiencias. Son horas con voces sintéticas útiles, no? Y que no sean un lío para cada uno de nosotros. Cómo

Guillermo: 20:29

haces cuando una palabra tiene múltiples significados en base a la entonación, iba a decir una palabrota, así que pido disculpas con la audiencia, pero hay una palabra que es"joder" en castellano, en español, no? Que cuando es algo muy bueno y dice es joder como asombroso, pero también cuando es algo negativo, misma palabra distinto significado. Eso en las voces sintéticas...¿Cómo encaja?

Nieves: 20:51

Pues eso se puede trabajar. Bueno, pregunta y difícil. Está es difícil. Pues eso en realidad, si te fijas en muchas situaciones, a ver las redes neuronales son super buenas aprendiendo del contexto y aprendiendo ciertos patrones no? Pero ahí en otras cosas las que todavía la tecnología, pues no ha llegado, pero va a llegar pronto, que es adaptar la entonación y la pronunciación al contexto. O sea que sea capaz de entender que esa palabra significa eso y que ella sola, en base a lo que ha aprendido, sepa que la pronunciación o el énfasis que haga sea una manera ú otra. Eso todavia tecnológicamente pues estamos ahí un poco, un poco más detrás, no? Entonces, ¿cómo se resuelve esto si no es con la inteligencia artificial? Pues vuelvo a lo de antes. No? Pues podemos crear, o bien, nosotros, cuando escribimos el texto, podemos incluso ponerle... decimos oye, pues es que en este contexto yo aquí haria un énfasis en esta palabra, que esta palabra no lo sabe mi voz sintética. No sabe que esta palabra, pues yo le puedo poner el énfasis a propósito poniéndole un acento, por ejemplo, no? O otra cosa que podemos que se hace, eh, es que se se trabaja a nivel de lingüística computacional, en palabras que ya están en el diccionario y se entiende que por el contexto tienen que tener una pronunciación o no para desambiguar ciertas palabras. Entonces, se hace para una frase, se identifica si esa palabra a lo mejor es un sustantivo o un verbo, por ejemplo, en inglés, esto pasa con research, no? Pues se identifica que parte de la palabra de la hora. Bueno, ¿qué función lingüística tiene esa palabra en la oración? Y en base a eso, pues se la fuerza a que la pronunciación sea de una manera y no de otra. Entonces, pues, un trabajo super interesante y que, como digo, la tecnología todavía ahí tiene algún huequillo, pero como sigamos avanzando a este ritmo, lo mismo este podcast está obsoleto en dos meses, también os lo digo.

Marcia: 23:07

Escúchenlo antes de que expire. Tengo una una pregunta, porque estamos hablando de la clonación de voces y estamos hablando de la creación de nuevas voces, pero me imagino que no es el mismo mecanismo, no? Cómo, cómo se distinguen?

Nieves: 23:20

En realidad es lo que es el proceso de creaciones es similar, vale? O por lo menos voy a hablar del que nosotros utilizamos. Vale, eh? Viene a ser un poco igual. Necesitamos una serie de datos, audio. Vale, eh? Además, vamos a necesitar una transcripción, digamos en texto de ese audio para que la red neuronal aprenda a..

Marcia: 23:42

Pero una voz totalmente nueva. Estamos hablando esas voces que no existen.

Nieves: 23:47

Vale, pues todas, digamos que aprenden igual, necesitan esos audios de diferentes personas. O sea, aunque la voz sea nueva, hay personas de las que aprende. Vale? Pues puede haber tres personas o puede haber 100 personas. Entonces para eso necesita audio más la transcripción de lo que está diciendo esa persona.

Marcia: 24:05

Claro.

Nieves: 24:05

Y luego la red, aprende las diferentes cosas que necesita y cuando trabajamos la diferencia está en que cuando trabajamos con voces que no existen, somos nosotros los que digamos que forzamos a que luego en la salida, o sea que la voz resultante, pues pueda tener unas características u otras. Por ejemplo, sabemos que el hablante número uno del cual aprendí el modelo pues tiene la voz más grave. Oye, pues yo quiero una voz grave. Pues venga, voy a hacer que esta persona sea relevante... aparezca, digamos, en la salida, de la voz. O no, quiero que hable más rápido uy, pues esta persona hablaba súper rápido de la cual ha aprendido. Pues venga, el predictor de velocidad, o sea lo rápido que habla la voz porque sea de esa persona, no? Y así vamos jugando un poco y vamos creando voces. Cuando hablamos de clonación, esto no hace falta, porque es tal cual lo que ha aprendido de mí, lo rápido que yo haya hablado o lo grave que sea mi voz, no me puedo inventar nada más.

Marcia: 25:10

La entrada al modelo sería esas dos cosas ¿o habría que pre entrenar el modelo primero y después pasarle el texto?.

Nieves: 25:17

Muy buena pregunta. Sí, aquí siempre, hay dos fases, está la fase de entrenamiento y luego la fase en la que utilizas el modelo a la que llamamos inferencia .Entonces la fase de entrenamiento siempre va a necesitar esos datos de entrenamiento, pero luego a esos datos ya no te hace falta la inferencia. Y la inferencia que es cuando usamos es lo que necesitamos solamente un texto, el texto que queramos que la voz lea. Una red y ya está. Y tenemos, pues ese modelo ya tiene, digamos que, la configuración diseñada por nosotros. Pues esa voz que no existe ya la hemos, le hemos dicho oye habla con este tipo de y ahí, pues aparece la magia. Tenemos un audio de output, con las características de esta voz que no identifica a la gente de la cual ha aprendido.

Guillermo: 26:06

Con 500,000,000 de hispanohablantes, ¿qué probabilidad estadística de crear una nueva voz y sea la de alguien que ya exista en el planeta?

Nieves: 26:17

Esta también es muy buena pregunta. En realidad, en cuestión de... cuando decimos que no identifica, vale? Un modelo o una voz que no identifica a una persona nos referimos sobre todo que no identifica a las personas de la cual ha aprendido. La probabilidad de que en el planeta haya dos personas que tengan voz parecida, digo persona, imagínate, es muy probable. Pues imagínate de que consigamos una configuración de voz que pueda parecerse a alguien dentro del planeta, o sea, es muy probable a lo que nos referimos sobre todo es que digamos que mezcla, porque la identidad, que es super importante, no?, pues el resultado es que no identifica ninguna de las personas de las que aprende y mezcla diferentes características en función de lo que tú quieras, no? y digo identidad es importante, porque es que la voz, que no lo hemos mencionado, pero es que la voz nos identifica 100%, no?, nos podemos cortar el pelo, nos podemos poner gafas, nos podemos... pero la voz?

Guillermo: 27:20

Es es que como... Marcia: Como es el tema, como es el tema cuando compartimos y como nos pueden clonar.

Nieves: 27:33

Sí, es muy, muy buena pregunta también. Al final, eh, hay una justo lo que decíamos la voz nos identifica, eh, según la legislación, no? Por lo menos en Europa con la ley de protección de datos, no? Eh? Sabemos que los datos que no... trabajando a nivel de software con los datos que nos identifica, tenemos que tener mucho cuidado, no? Entonces con la voz pasa lo mismo. La voz está protegida bajo esa ley, no? Es un dato personal y no podemos coger un dato personal de donde nos dé la gana y hacer con esa voz lo que nos dé la gana, porque es que no... gracias a esta ley, no, no ampara, no? Entonces, si alguien nos clona la voz sin nuestro permiso, estamos con la de ganar en principio, no? Y luego otra cosa, es que también ...que la voz de cualquiera de nosotros esté en Youtube nos estáis escuchando o que estén x canal no significa que sea accesible. O sea, no significa que cualquiera pueda coger esa voz y ya tenga permiso porque está en internet para hacer lo que quiera y entrenar modelos de lo que quiera con esa voz. No? Absolutamente no. Eso es, digamos que por decirlo bien... ilegal,

Marcia: 28:50

Como si alguien agarrara nuestro rostro e hiciera avatares,

Nieves: 28:53

Efectivamente, eso es, eh, funciona. Funciona bajo la misma jurisdicción, no? Bajo las mismas reglas, no? Entonces, bueno...

Guillermo: 29:01

Bueno, por si las moscas no? Por si las moscas eliminar el factor de reconocimiento de voz en cualquier parámetro biométrico... de acceso a cualquier cosa.

Nieves: 29:13

Sí, también se está trabajando fíjate que, como la tecnología avanza tanto al final no nos queda otra que avanzar en muchos áreas, no? Y en muchos niveles. Hablábamos de legislación hace un momento, no?, pero también se está avanzando y se pretende avanzar también en biometría, no? En cómo crear sistemas que nos ayuden a detectar que nuestra... que si es nuestra voz o es una voz fake o es una voz sintética que se está haciendo pasar por nosotros, no? Entonces esto también, eh, es muy interesante y yo creo que absolutamente necesario. Porque ante la desinformación que las tecnologías de la IA generativa pueden plantear en un futuro no muy lejano, tener mecanismos que nos ayuden a identificar si algo está generado con tecnología con IA en este caso, pues nos va a ser super super útil, no? Entonces también os digo que hay avance en ese aspecto para la detección de deep fakes en voz y en audio, no? que pueda identificar si... pues, si esa voz que escuchas, eh es o Obama el real o es mentira, no? Es muy importante también.

Guillermo: 30:26

Puedes meterle una marca de agua a una voz?

Nieves: 30:29

Pues se puede, se pueden... y de hecho hay iniciativas en las que ya se está haciendo una marca de de agua, eh? Un sonido que no se ha percibido para que no se pierda la calidad de la voz. O sea, debería ser algo que no se perciba al oído, no?. Lo que pasa es que ese tipo de cosas, esta marca de agua, igual que está la marca de agua en las imágenes sintéticas, no? Nos avisa de que quizás sí, que esa voz está generada con síntesis de voz, pero estamos dependiendo de que la empresa que genera esa tecnología quiera la marca de agua, no? Entonces no es tanto de detección el sistema, sino que es más de dar confianza. La marca de agua da confianza a quien eh, usa plataforma para clonar su voz y sabe que bueno...

Guillermo: 31:27

Pero...

Nieves: 31:28

Dime.

Guillermo: 31:30

Sería como meterle una frecuencia que nosotros no conseguimos oír? Por ejemplo, la frecuencia a la que trabajan los los perros, no? Sería meterla ahí, que sería como el glitch de saber que es una voz sintética.

Nieves: 31:43

Una frecuencia efectivamente, que tenga cierta información y que imagínate, yo tengo una aplicación móvil para leer esa marca de agua. Entonces yo puedo, eh, hacer que mi aplicación móvil escuche ese audio y me diga cuál es el origen. Entonces, si yo en el origen, he puesto esa marca de agua, pues me puede decir mira si esta voz está generada por Monoceros Labs porque la marca de agua lo dice, no? Pero qué pasa si cualquiera no genera esa marca de agua? Pues que mi aplicación no va a servir para mucho, no? La de lectura de marca de agua, no, pero bueno. Sí, es difícil.

Marcia: 32:25

Si yo uso un par de programas de estos que te clonan la voz y al menos en todos tienen el que tenés que leer un texto dando consentimiento. Y eso me imagino que son para protegerse de este tipo de cosas. No?

Nieves: 32:41

Claro. Al final, eh, muy buena también, eh, esto que comentaba Marcia porque se me olvidaba también mencionarlo antes. Al final, quienes creamos estas plataformas para que cualquiera pueda crear modelos de voz, o sea, clonar su voz, tenemos que establecer mecanismos para asegurarnos que no se van a usar con fines maliciosos, no? Entonces el primer mecanismo es asegurarnos que la persona que está leyendo ahí en este momento que se está grabando su voz, es quien dice ser. Entonces siempre hay un texto específico que te ayuda a mencionar, bueno, a asegurarte, de que esa persona está leyendo eso y no es otra persona. No es que yo cojo una voz de cualquiera de Youtube y la estoy metiendo ahí. Hay un montón de mecanismos, pero es necesario, necesario que esta tecnología tengo eso.

Marcia: 33:30

Puedes generar voz para generar el (inaudible), pasárselo a la aplicación.

Nieves: 33:37

Y hacemos, verdad, el ciclo. Pero sí.

Marcia: 33:43

Estas cosas es siempre una batalla contra...

Nieves: 33:47

Sí. Sí.

Marcia: 33:48

La gente que tiene malas intenciones, en uno de nuestros episodios, hablábamos de ciberseguridad, y acá es en eso, creo que es lo mismo, no? Los deep fake que veíamos hace unos años aparecer por todos lados. Con todas estas inteligencias artificiales generativas se están volviendo más peligroso.

Nieves: 34:08

Marcia: 34:08

La desinformación...

Guillermo: 34:10

A mí es que solo se me ocurren malas cosas, eh?

Nieves: 34:13

Fíjate a mí no! No sé, a mí se me ocurren un montón de buenos casos. Desde accesibilidad a mira, creación de contenido, que podamos editar este post si me equivoco con mi voz, por ejemplo, pero sí hay mucho.

Marcia: 34:27

A la audiencia, nos estarán escuchando de verdad o estarán escuchando unas voces sintéticas.

Nieves: 34:32

Eso

Guillermo: 34:34

Pues mira ahora que has dicho casos de uso para bien, no?, eh, alguna vez se ha probado gente que tiene una traqueotomía, que cuesta hablar, utilizar una voz sintética para realmente entenderlo más fluido.

Nieves: 34:48

Pues, eh, sí que se está intentando utilizar, eh, para personas que al final pierden la voz o están en proceso, en ese proceso de pérdida, eh? Sí que se están aplicando las voces sintéticas para al menos permitirle eh, poder mantener su identidad y que no usen una voz de... porque voces sintética hay muchas. Pueden usar cualquier voz de cualquier plataforma, no?, pero que al menos le mantenga su identidad. Y aquí lo que decía al principio de la cantidad de datos necesarios para entrenar un modelo de clonación de voces es clave. Pues ... en esos casos en los que no tienes tanto audio ni tantas grabaciones o la persona le cuesta muchísimo hablar, pues cuanto menos tiempo de grabación le haga grabar a esa persona mejor, no?. Y sí, hay muchas iniciativas y es una aplicación super bonita y super necesaria, por ejemplo, de las voces sintéticas, no? Que podamos seguir siendo individuos, no? Y mantener nuestra independencia gracias a la voces sintéticas.

Marcia: 35:49

Yo tengo una amiga que le le hizo una app a la nena, para el hijo para que le leyera los cuentos de la noche con su voz.

Nieves: 35:56

Claro, eso (inaudible)...

Marcia: 35:58

Es Parent hint, 2.0. No te voy a leer el cuento, te lo lee una inteligencia artificial con mi propia voz.

Nieves: 36:06

Claro. Ese muy bonito también, no? De fíjate, eh? Y no sé que le puedas personalizar las experiencias a tu hijo y lo usas solo en tu casa, no? Y no está haciendo que cualquier use tu voz, pero sí que lo está usandoen ese caso. Es muy bonito ese ejemplo.

Marcia: 36:25

Sí, sí, pero logras cosas muy extrañas, no? Para ese niño chico, puede ser un poco confuso que tu madre esté cocinando y a la vez te esté leyendo el cuento. Es como...

Nieves: 36:38

Eso me trae a la mente que también se recomienda , y recomendamos que cuando trabajemos con este tipo de tecnología avisemos que lo que están escuchando es una voz sintética, para no llevar tampoco a engaño, eh? De hecho, pues, mucha gente con lo natural que suena la voz de Alexa, por ejemplo, mucha gente se piensa o puede pensar que incluso ahí hay una persona que te está diciendo cosas directamente. Entonces es importante también con el avance de estas tecnologías que hagamos

esos warnings: 37:13

ojo esto es voz sintética.

Marcia: 37:16

Yo hice una pipeline con las voces de Polly y toda la suite de video que básicamente le ponía un vídeo de uno de mis compañeros en inglés, creaba los subtítulos. Lo subí a Polly y me hacía la versión, yo los llamaba mi compañero se llama Eric, yo le digo que él se llama Pedro ahora, porque la voz de Polly era Pedro y suena como si fuera una película doblada. Es muy bizarro porque es muy bueno y es como jo...

Nieves: 37:43

Sí, eso es. Y permite que puedas escuchar el contenido que está en inglés, en tu idioma nativo y estás rompiendo la barrera del idioma no?, gracias a esta tecnología también, no?.

Marcia: 37:56

Y creas contenido mucho más rápido porque, por ejemplo, este video, yo lo hice... básicamente me descargué el vídeo de mi compañero, lo metí en el pipeline y saqué por el otro lado, el audio que básicamente lo super puse y ya en no sé, media hora tenía el vídeo que si lo tuviera que haber grabado de cero.

Nieves: 38:14

Sí...

Marcia: 38:14

Me hubiera llevado mucho, mucho tiempo es, dejo el link que en la descripción por si quieren ver el vídeo de mi amigo Pedro, pero es como muy, muy sencilla y... Guille tenés una pregunta?

Guillermo: 38:29

No, yo estaba pensando en... con todas estas herramientas de de voces sintéticas, toda la parte de IA generativa ,para industrias como media & entertainment, en el que ya no necesito tener, por ejemplo, al actor de turno en ese momento, sino que con un poco de su voz ya pueda hacer la muestra de cómo quedaría para seleccionar un actor para una película. Estoy pensando en toda la capacidad de ahorro de costes que se podría tener simplemente, eh, utilizando todo este tipo de herramientas, eh?

Nieves: 39:01

Sí y no sólo coste, sino que optimizas también el proceso, lo haces más rápido, más ágil, a lo mejor para la parte de prototipado. Imaginaos en videojuegos, la cantidad de tiempo que se tarda para hacer, eh, videojuegos, películas de animación, no? Ese primer prototipo que requiere de un montón de actores. No digo actores, personas, sino eh, personas involucradas, equipos involucrados, de diseño de tal, de cuál, de sonido. La voz es sintética ahí, por ejemplo, ayuda mucho a que monta un prototipo rápido y luego ya si te encaja o no te encaja tienes que tirar ese prototipo de tal a la basura. No pasa nada! No has invertido demasiado en... montas otro super rápido, no? Y luego ya te pasas al proceso más avanzado en el tiempo con las cosas más claras y ya ahí sí, contratas a tus locutores, lo haces todo con la calidad necesaria, no? en ciertos casos, no? Entonces sí que las voces complementan o la tecnología en general, eh? Las voces sintéticas en particular, sí que complementan mucho ciertos procesos de producción de contenido, no? que hasta ahora se hacía de una manera un poco más tediosa y que ahora va a ser mucho más rápido. Justo, el ejemplo que comentaba Marcia, por ejemplo, hace un momentito. No? Eh? No sé, eh.

Marcia: 40:23

Yo lo veo, por ejemplo, en aplicaciones donde los idiomas son muy pequeños. Por ejemplo, en mi casa hablamos sueco y finlandés, y son idiomas muy pequeños. Y todo el contenido para niños, en sueco o en finlandés, cuando lo ves doblado, es la misma voz. Sea mujer, hombre, es siempre en el mismo... la misma voz en el mismo tono, porque no deben tener muchos actores de doblaje y es re aburrido, es como... porque, claro, es la misma voz hablando a todos los personajes y es un contenido para niños, chicos. Y acá con una voz sintética, me lo veo que en el momento que estas productoras descubran este tipo de cosas van a poder a hacer magia con muy poco dinero.

Nieves: 41:07

Sí, es verdad que ahí también nos limita la cantidad de datos que decía antes, no? de los cuales aprende el modelo. Necesitamos datasets en esos idiomas, que digamos que no son tan minoritarios, o sea que son no-minoritarios, no? Y eso también es costoso de recopilar. Hay muchas universidades que están luchando un poco para que haya muchos idiomas así, que no tienen tanta representatividad, pero que si tengan corpus suficiente para crear este tipo de tecnología y que puedan ser accesibles. Justo lo que comentas, a más gente, no?

Marcia: 41:43

Porque con las mismas voces que te... que te hacen los dibujitos, te pueden hacer las herramientas de accesibilidad y las herramientas del coche y todas esas cosas que requieren voz pueden usar las mismas. No hay problema! Parecerá que el pato Donald te está hablando en el coche, pero bueno...

Guillermo: 42:03

Y sobre todo poder adaptar yo creo la frecuencia, no? Hay gente que por x motivos, tiene una degradación del oído y tiene ciertos niveles de sordera que sólo oye ciertas. El poder generarle una voz para que se adapte a él y pueda oír perfectamente.

Nieves: 42:19

Por ejemplo.

Guillermo: 42:20

Yo creo que eso es un logro para la sociedad.

Nieves: 42:23

Sí, o sea la tecnología... este tipo de tecnología es que rompe barreras, no? O sea que podemos usarla para miles, miles de cosas que no nos imaginamos, no? de nuestro día a día, que nos ayudan en nuestro día a día, no? a todos. Entonces, sí.

Marcia: 42:42

Es muy como ya ves, a mi y a Guille este tema nos encanta, pues seguimos tirando de casos de uso.

La audiencia ya debe estar: 42:47

Marcia deja de decir cosas. Así que capaz pasamos al próximo tema de hablar un poquito de la arquitectura de AWS, cómo lo están montando en la nube? Vos mencionabas que había como dos partes. Estaba la normalización del texto y después, por otro lado, teníamos el modelo capaz podemos hablar un poquito de qué es la normalización del texto? Para que la gente entienda que está pasando.

Nieves: 43:13

Vale, eh? Pues, como decía antes, normalmente tenemos dos fases, la fase de entrenamiento del modelo, y luego en la que ya tenemos el modelo entrenado y lo utilizamos. Y ahí, entre otras cosas, hay, por ejemplo, super importante, la normalización.. La normalización en qué consiste? Pues, la normalización ayuda que una frase escrita en texto por cualquiera de nosotros, pase procesada bien al modelo de síntesis de voz para que la pronuncie bien. Y cuando digo esto a qué me refiero?, pues me refiero a que si escribimos un número... fijaros, que es un carácter diferente a si escribimos en letra ese número. No es lo mismo poner un 10 que decir escrito que ponga 10. Entonces, pues ese tipo de tareas son necesarias para que luego el sintetizador lo lea bien, pero no es sólo eso. Mencionaba antes las palabras de diccionario. Eso también forma parte de la normalización. Monedas, símbolo, que limpie caracteres, rollo HTML o que etiqueta XML ... Hay un montón de tareas ahí entremedias...

Marcia: 44:20

Las palabras de diccionario, me imagino que te referís a esas palabras muy específicas al contexto. Por ejemplo, cuando yo digo serverless a mí muchas veces ,ahora ya no, pero me aparecía cuando usaba este tipo de servicios...sara less.

Nieves: 44:34

Eso es.

Marcia: 44:34

Porque para ella, para el servicio de Sara y less eran dos palabras, pero serverless no era una palabra. Porque es una palabra de AWS, muy específica, o si decía algún servicio de AWS me decía cualquier cosa. Entonces ahí lo metes en el diccionario y cada vez que escuchas errores, sabe que no es sara less.

Nieves: 44:54

Eso es, digamos, y eres o bien hay aquí... hay dos partes, o bien somos nosotros como usuarios quienes metemos cómo debería pronunciarse esa palabra en el diccionario. Plan no, yo quiero que la pronuncie así, no? O bien, luego, como decíamos, si es una plataforma global, en realidad hay lingüistas computacionales detrás que son los que van revisando qué palabras no se van diciendo bien, y van escribiendo o indicándole al diccionario cómo deberían pronunciarse. Por ejemplo, online, decimos online pero no on line. Queda raro si decimos... pero si tú escribes on line, la voz sintética te va a decir on line. Y claro, dice no, no. Pues entonces todo esto es como muy manual, no esta parte. Dime Guille.

Guillermo: 45:44

Qué parte, qué peso tiene precisamente los lingüistas...lo estás comentando hace un momento, computacionales, dentro de todo este proceso de validación.

Nieves: 45:53

Es super importante. Es un rol tan importante como el desarrollador, el data scientist, vamos es que son imprescindibles para asegurar que la voz tiene una calidad suficiente, tanto a nivel sonoro a que los fonemas como está pronunciando eso o cuando haya una s que pronuncia, que la voz sintética pronuncias "ese" y no una "t", no? Es un ejemplo absurdo pero eso es súper importante a nivel de fonema. Y luego, como decía, a nivel de normalización de hacer que la tecnología sea capaz de saber si algo, si una palabra es un sustantivo o un verbo. Si este símbolo, por ejemplo, pasa con las monedas y los números. Pues culturalmente hay quien dice"cero coma 33" o en otros sitios se dice "cero punto 33" y esto tiene que ver mucho también con la cultura. Pues todo esto necesitamos lingüistas que saben específicamente de ese idioma, de esa cultura, para hacer que la voz sintética se adapte lo mejor posible también a a ese idioma. No? Entonces, eso súper súper importante. El rol del lingüista computacional. Y por cierto, ya que estábamos comentando esto en uno de los episodios que estamos grabando de un podcast que tenemos acerca de voces sintéticas, que se llama "Cuando las máquinas hablen", entrevistamos a nuestras lingüistas computacional y habla mucho más de esta parte. Entonces, si estáis, si os interesa este tema en profundidad lo dejamos en la descripción del podcast para que escuchéis más acerca de las voces sintéticas, y de los roles, los casos de uso, etcétera.

Marcia: 47:50

Saben qué ir a escuchar después de que terminen de escuchar este episodio. Cuando las máquinas hablen. El paseo se les va a bien largo. Pero entretenido.

Nieves: 48:02

Un doble paseo, verdad?

Marcia: 48:04

Es 1 de Mayo, si lo están escuchando el día que sale, así que tienen tiempo. Si. Así que tenemos la normalización del texto y eso cómo lo hacen? Tienen...

Nieves: 48:15

Vale, como tecnológicamente, no? Si. Efectivamente. Pues, esta parte que es cuando ya usamos el modelo de voz, pues necesitamos de un pipeline de procesamiento, que construimos con servicio de AWS. Bueno, normalmente como muchos de ellos requieren de módulos lingüístico pues utilizamos servicios dockerizados, nos construimos para poder subir... bueno, y para que no se líe todo mucho utilizamos servicios dockerizados que ponemos en Fargate; utilizamos ECS; luego utilizamos diferentes pipelines, y colas de procesamiento; utilizamos SQS, Lambda. Bueno, esto es un poco más genérico. Esos son más genéricos que aplican a cualquier tipo de plataforma, API gateway, no? Y los que creo que sí, que son interesantes para quienes no escucháis también, son los específicos de los modelos, de este modelo de voz que comentábamos. Normalmente el modelo, estos, este modelo de voz, eh? Lo tenemos en SageMaker y en SageMaker, podemos utilizar este modelo como de dos maneras diferentes. Podemos tener levantado el modelo 24x7 o podemos, a través de serverless Inference, utilizar el modelo justo cuando lo vamos a necesitar, y no tener que tener el servicio levantado que eso al final también supone un coste. Imaginaos para una voz clonada de alguien pues vamos a levantar el modelo solo cuando sea... cuando haga falta y no todo el rato.

Marcia: 49:56

Ustedes tienen modelos para cada persona que usa este servicio, crean ese modelo específico. Y ahí, claro, tienen muchísimo sentido el serverless inference, no?,

Nieves: 50:06

Eso es.

Marcia: 50:07

Que básicamente es como una función de lambda para SageMaker para la inferencia.

Nieves: 50:14

Se encarga de levantar, de tal y de apagar cuando no se está utilizando. Así que está súper bien, la verdad.

Marcia: 50:21

Sí, sí, y este, y ahí lo usan para cada, para cada cliente y después para tienen algún modelo general o son siempre estos modelos específicos.

Nieves: 50:33

Cuando para voces que no identifican a nadie, también tenemos un modelo que pueden utilizar o podemos utilizar diferentes personas porque ahí sí, un mismo modelo puede tener diferentes diseños de voz. Entonces nos sirve. Y luego en lo que tenemos, eh, más genérico, esto, este pipeline de normalización. Nos permite a partir de cualquier texto, pues procesar todo esto para que nos dé de resultado una serie de fonemas que directamente les pasamos al modelo de voz, no? Entonces, en todo ese pipeline, eso sí que es global. Además, lo par... tenemos, eh, para Fonos, que es la herramienta online que vamos, que está en beta cerrada y que lanzaremos pronto, como ahí permitimos que cada usuario tenga su propio diccionario pues entonces en ese pipeline, sabemos qué usuario es el que ha hecho la petición y cargamos un diccionario global, con las palabras estas que os decía que desde el punto de vista lingüístico hace falta que se digan en general bien, y luego el diccionario personalizado de cada usuario, no? Entonces, pues complementamos ese pipeline y lo personalizamos para cada uno, no?

Marcia: 51:42

Sí, súper interesante. Así que la gente que nos escucha ya sabe para dónde ir e igual no vamos a entrar en los detalles de las arquitecturas en un podcast porque es súper súper complicado, pero les dejamos los links a Monoceros Labs, a Nieves para que le hagan más preguntas.

Nieves: 52:00

Cualquier duda, cualquier duda y pregunta super abierta para responderla. O sea que...

Marcia: 52:06

Exacto. Guille tenés alguna otra pregunta?

Guillermo: 52:12

Bueno yo para ir terminando, si, que me gustaría preguntar en base a este tema tan interesante, alguna peli ,serie o libro que recomiendes a la audiencia?

Nieves: 52:22

Pues empezaba el podcast hablando de ciencia afición, creo que lo voy a acabar hablando de ciencia ficción también. Y además, todo esto es lo que hemos hablado muchas veces pensamos que es muy de ciencia ficción. Esto es posible? La verdad es que me encantan, bueno, las pelis de ciencias ficción me encantan, pero ahora me estoy leyendo muchos libros de ciencia ficción. No sé si habéis visto la peli de La Llegada, Arrival, que tiene que ver con el lenguaje también. Bueno, pues primero recomiendo la peli está de La Llegada, pero sobre todo, el autor que se llama Ted Chiang que es un autor de ciencia ficción de relatos cortitos. Y ahora en concreto, me estoy leyendo Exhalación. En exhalación no está la historia de La Llegada. La Llegada la tiene en otro libro, pero tiene unas historias super apasionantes que tratan de mundos virtuales, de dilema ético de la tecnología, de robots. O sea que yo creo que Ted Chiang, La Llegada y Exhalación, por ahí me quedo.

Marcia: 53:27

Ya se los encontré en Amazon.com. Así que se los dejo el link en la cajita de descripción. Y lo voy a agregar a mi lista de libros para leer porque a mí me fascina la ciencia ficción y los libros de inteligencia artificial, filosofía y ciencia ficción. A veces no sé cuál estoy leyendo, si es uno de verdad o uno de ciencia ficción porque está todo tan solapado hoy en día que no sabe si estás leyendo un libro en serio o es una película. Imagino.

Guillermo: 53:59

Yo voy decir que el de Exhalación, el de exhalación me lo estaba leyendo ahora.

Nieves: 54:03

Ah, sí? Pues mira, mira.

Guillermo: 54:07

Muy bueno,

Nieves: 54:08

Fíjate, está muy guay.

Marcia: 54:12

Hay que dar la lista de recomendaciones. Y bueno, y con eso, te agradezco un montón Nieves, me encantó que vinieras, que hablaras con nosotros, que nos contaras de lo que están construyendo en Monoceros Labs. Y quiero escuchar una voz sintética que se ría como yo. Este...

Nieves: 54:33

Tenemos que hablar Marcia, tenemos que hablar...

Marcia: 54:35

Todavía ninguna voz ha replicado mi risa de caballito, como dicen mis amigas, así que ese va a ser el futuro del podcast, ahí no necesitan más vídeos?

Nieves: 54:50

Muchísimas, muchas gracias por invitarme. Y por esta conversación me ha encantado hablar con vosotros.

Marcia: 54:56

Todos los links a Nieves y a Monoceros están en la descripción del episodio. Muchas gracias a la audiencia por escucharnos hasta el final, y nos vemos en otro episodio del podcast de charlas técnicas en dos semanas. Chao, chao,

Nieves: 55:07

chao.

People on this episode

Guillermo Ruiz

Host

Marcia Villalba

Host