InternGPT: Ampliando las Interacciones con ChatGPT más allá del Señalamiento
Published on
Aunque ChatGPT ha revolucionado la forma en que nos comunicamos con la IA, está surgiendo un nuevo paradigma que se expande sobre esta base. Este desarrollo, llamado InternGPT, ofrece una experiencia interactiva más enriquecedora, utilizando no solo el lenguaje sino también el señalamiento para controlar ChatGPT. Este sistema expande las fronteras de la comunicación visual con IA.
Los Detalles de InternGPT
InternGPT, abreviado como iGPT, va más allá de ser un simple sistema interactivo visual. InternGPT significa interacción, no verbal y ChatGPT, y combina estos componentes para crear una experiencia de interacción única. En su núcleo, se basa en un dispositivo de señalamiento para operaciones como hacer clic, arrastrar y crear, extendiendo efectivamente las capacidades de ChatGPT.
Desarrollado como un proyecto de código abierto por investigadores del OpenGVLab de la Universidad de la Academia China de Ciencias, InternGPT se construye sobre el modelo ChatGPT. Como una extensión transformadora de este chatbot con un modelo de lenguaje amplio, InternGPT promete una serie de posibilidades, desde la generación de texto y la traducción de lenguaje hasta la creación de material creativo y ofrecer respuestas útiles a consultas.
InternGPT: Una Herramienta Emergente para la Interacción Digital
Aunque InternGPT aún se encuentra en la etapa de desarrollo, muestra la promesa de convertirse en una poderosa herramienta en una amplia gama de aplicaciones. Por ejemplo, su capacidad para interactuar con otros software como herramientas de edición de imágenes amplifica su impacto potencial en diversas industrias. Esta interactividad permitirá una integración perfecta entre la comunicación basada en texto y la manipulación visual, desbloqueando numerosas posibilidades.
Instalación y Configuración de InternGPT
La instalación de InternGPT requiere algunos requisitos previos básicos, incluyendo Linux, Python 3.8+, PyTorch 1.12+, CUDA 11.6+ y una memoria de GPU de al menos 17G para cargar herramientas básicas. Una vez creada y activada el entorno de Python, las dependencias de Python se instalan mediante el comando pip.
Posteriormente, se lanza el servicio iChat Gradio con los componentes necesarios como HuskyVQA, SegmentAnything y ImageOCRRecognition. Para aquellos que deseen habilitar la función de asistente de voz, es necesario realizar un paso adicional de generar un certificado utilizando OpenSSL.
Funciones Interactivas de InternGPT
InternGPT es más que solo una forma innovadora de interactuar con ChatGPT. Ofrece una variedad de funciones que incluyen un diálogo multimodal que permite interacciones relacionadas con imágenes. Por ejemplo, los usuarios pueden cargar una imagen y luego entablar una conversación sobre la imagen cargada, generando comandos como "¿Qué hay en la imagen?" o "¿De qué color es el fondo de la imagen?".
Además, InternGPT admite operaciones interactivas de imágenes. Los usuarios pueden seleccionar una área específica de una imagen, realizar reconocimiento óptico de caracteres en ese lugar o incluso eliminar o reemplazar el área enmascarada en una imagen. Estos comandos pueden mejorar significativamente la manipulación y generación de imágenes, según la entrada de los usuarios.
InternGPT también permite a los usuarios crear nuevas imágenes a partir de un solo archivo de audio o de una combinación de audio y texto. Esta función de creación de imágenes se expande aún más con la capacidad de dibujar en una pizarra digital y generar imágenes a partir de estos garabatos, abriendo posibilidades creativas.
Puedes acceder al repositorio de InternGPT en GitHub aquí (opens in a new tab).
Conclusión: InternGPT - El Futuro de la Interacción con IA
Como una nueva interfaz interactiva para ChatGPT, InternGPT es un esfuerzo pionero que promete cambiar la forma en que interactuamos con la IA. Con su capacidad para combinar el lenguaje y el señalamiento para la comunicación visual, InternGPT amplía las fronteras de lo que es posible con la IA, derribando barreras entre la comunicación textual y visual. A medida que avanza el desarrollo, esperamos ver la variedad de aplicaciones que esta herramienta innovadora puede potenciar.