Actualizado el 17/12/2024

icon Facebook icon Twiiter icon RSS icon EMAIL
  1. Portada
  2. >
  3. Noticias
  4. >
  5. Meta lanza LLM para generar podcasts a partir de PDFs

Meta lanza LLM para generar podcasts a partir de PDFs

Escrito por Guillem Alsina el 03/12/2024 a las 08:52:30
138

NotebookLlama ha sido concebido como una alternativa de código abierto al NotebookLM de Google, y consiste en un toolkit que dispone de la capacidad de convertir el contenido de ficheros PDF a audio.


Este conjunto de herramientas lo componen el modelo de lenguaje Llama-3.2-1B-Instruct, con el que limpia y formatea el contenido del fichero PDF pasándolo a texto plano pero manteniendo su integridad estructural, mientras que de la generación de la transcripción se encarga el modelo Llama-3.1-70B-Instruct, el cual convierte el texto plano que le ha dejado el anterior modelo, en un guión que podemos locutar en un podcast.


Dramatize Podcast es un componente que ajusta la transcripción, mejorando el texto para que sea más ‘radiable’. Y, finalmente, Text-to-Speech (TTS) Conversion es el elemento que realizará la locución, utilizando para ello los modelos de transcripción de texto a voz (TTS) Parler-tts y Bark TTS, mediante prompts preparados para simular distintos acentos.


Según se explica en el repositorio GitHub de esta herramienta, no se requiere que sus usuarios tengan experiencia previa en modelos de lenguaje grandes (LLMs).


Para trabajar con NotebookLlama podemos hacerlo a través de Hugging Face, aunque también podemos descargarlo desde su repositorio de GitHub para instalarlo y ejecutarlo en local, con el único requisito de que el ordenador desde el cual corramos esta herramienta, disponga de una GPU. O podemos instalarlo en la nube para acceder a él desde cualquier lado, aunque de forma privada.


Esta solución puede ser de utilidad tanto para particulares que deseen crear un podcast pero no se atreven a ponerse delante de un micro y/o no quieren lidiar con la edición posterior del audio, como para que empresas creen contenido de forma automatizada a partir de catálogos y folletos publicitarios u otra documentación que tienen en formato PDF.


Como retos de futuro para NotebookLlama, Meta indica la mejora del modelo de texto a voz para que suene de una forma más natural (humana), y explorar el potencial de utilizar dos LLMs para crear guiones de podcasts interactivos (en formato entrevista o conversación).


Entre las mejoras que ya están agendadas, se encuentran la ampliación de las entradas que pueden alimentar al modelo, incluyendo sitios web o enlaces a vídeos de YouTube, así cómo mejorar el diseño de los prompts.


Los desarrolladores también están experimentando con modelos de lenguaje de mayor tamaño para mejorar la calidad de la transcripción.