Pese a dominar (al menos por el momento) el panorama de los chatbots, OpenAI no se duerme en los laureles, y presenta una serie de actualizaciones de ChatGPT con las que busca ampliar sus funcionalidades y hacerlo más atractivo, manteniéndose así en vanguardia.
La primera de estas novedades es, no obstante, un viejo conocido que vuelve: el acceso a Internet a través de Bing, que había sido retirado en julio debido -al menos, según la explicación oficial de la empresa- al uso que muchos hacían de ésta, solicitándole que extrajera textos de páginas web que podían estar protegidos por derechos de autor.
Gracias a dicha funcionalidad, ChatGPT puede romper la barrera autoimpuesta de disponer de datos solamente hasta 2021, que son los datos con los que el motor ha sido entrenado.
La navegación por Internet a través de Bing permite llevar a cabo búsquedas de información y captación de datos online para su posterior procesamiento. Como todas las demás novedades, se encuentra disponible para los suscriptores de pago de las modalidades Plus y Enterprise.
Para usar esta opción, y siempre que seamos usuarios Plus o Enterprise, tenemos que activar la opción en las preferencias de usuario y, luego elegir para cada chat la opción de llevarlo a cabo utilizando la navegación por Internet con Bing antes de la primera interacción con el chatbot.
La segunda novedad es la introducción de capacidades de síntesis de voz, que inicialmente estará disponible en las apps móviles para iOS y Android. Hasta ahora, dichas apps disfrutan del reconocimiento de voz del usuario para que podamos dictarle los prompts por voz, pero en ningún caso leían el producto de dichos prompts.
Con la nueva funcionalidad, podremos conversar con ChatGPT sin tener ni que teclear nuestras preguntas, ni leer el resultado de estas en la pantalla, sinó que será la misma app la que nos “hablará”.
Para hacer posible la lectura de textos en voz alta, OpenAI ha desarrollado un modelo avanzado de texto a voz, capaz de generar audio similar al humano a partir de solo texto y muestras breves de habla.
Para construirlo, la compañía ha colaborado con actores de voz profesionales y ha usado Whisper, el sistema de reconocimiento de voz de código abierto de OpenAI.
Finalmente, y como tercera novedad, OpenAI ha imbricado la funcionalidad de “comprensión” de imágenes de Dall·E en ChatGPT, de manera que ahora el chatbot soporta que le introduzcamos imágenes junto a los prompts, y podamos hablar sobre estas con la IA.
Un ejemplo que OpenAi menciona en su blog es el de que podemos hacer una foto al contenido de nuestra nevera, pasar dicha imagen a ChatGPT y, entonces, preguntarle al chatbot qué podemos preparar con el contenido de nuestra nevera, ya que gracias a la tecnología de Dall·E, podrá “reconocer” qué alimentos tenemos y, a partir de dicha lista, pasar a sugerir una serie de platos.
El uso y reconocimiento de imágenes se encontrará disponible para todas las plataformas, tanto las apps móviles como la interfaz web para escritorio.
Todas estas novedades ya se han empezado a desplegar entre los usuarios de pago de la plataforma, y seguirán siendo desplegadas gradualmente a lo largo de los próximos días y semanas.
Desde OpenAI se advierte de que la capacidad principal para transcribir texto se ha desarrollado, y soporta perfectamente, el idioma inglés, y que su rendimiento con otros idiomas, especialmente aquellos cuya escritura difiera de la del alfabeto latino, puede ser inferior.
No deja de lado la seguridad
Debido a que estas nuevas tecnologías, como la de voz, abren las puertas no solamente a las aplicaciones creativas y centradas en la accesibilidad, sinó también a otras más tenebrosas como la posible suplantación de identidad, OpenAI ha querido incluir una serie de salvaguardas en ChatGPT.
En el apartado fotográfico, ha tomado medidas técnicas para limitar la habilidad de ChatGPT de analizar y hacer afirmaciones directas sobre personas, en un esfuerzo por respetar la privacidad individual. Las colaboraciones con aplicaciones como Be My Eyes, destinada a personas con discapacidad visual, han proporcionado numerosos datos para maximizar la utilidad y seguridad de estas características.