Cómo entrenar ChatGPT para uso personal y empresarial

Name: Olaf Källström

Published on 17/8/2023

La inteligencia artificial (IA) ha revolucionado numerosos sectores y el campo de la comunicación no es la excepción. Entre los diversos modelos de IA disponibles, ChatGPT, desarrollado por OpenAI, destaca por sus impresionantes capacidades de comprensión del lenguaje. Esta guía tiene como objetivo proporcionar una comprensión integral de cómo entrenar ChatGPT de manera efectiva con datos personalizados en MacOS.

Crear tu propio chatbot impulsado por IA nunca ha sido tan fácil. Con ChatGPT de OpenAI, puedes entrenar un modelo de lenguaje utilizando datos personalizados adaptados a tus necesidades específicas. Al final de esta guía, tendrás un conocimiento práctico de cómo configurar, preparar tus datos y ajustar tu chatbot.

Método 1: Usa herramientas en línea para entrenar ChatGPT

Uso de CustomGPT.ai para entrenar ChatGPT

CustomGPT.ai es una plataforma en línea que simplifica el proceso de entrenamiento de ChatGPT con tus propios datos. Elimina la necesidad de programar o trabajar con bases de datos, lo que la hace accesible para usuarios sin conocimientos técnicos. Aquí están los pasos para usar CustomGPT.ai:

Visita CustomGPT.ai (opens in a new tab) y crea un nuevo proyecto. Puedes darle el nombre que prefieras.
Ingresa la URL del sitemap de tu sitio web. La plataforma encolará todas las páginas de tu sitemap para su rastreo.
Espera a que el sistema rastree todas tus páginas. Este proceso puede tomar hasta una hora dependiendo del número de páginas en tu sitio web.
Una vez que se complete el proceso de rastreo, puedes comenzar a crear tu chatbot personalizado. El chatbot habrá leído todas las páginas, comprendido el contenido y estará listo para interactuar con cualquier persona que lo utilice.

Uso de ChatGPT School para entrenar ChatGPT

ChatGPT School es otra plataforma que te permite entrenar ChatGPT con tus propios datos. Es particularmente útil para contenido educativo, como cursos en línea. Así es cómo se usa:

Visita ChatGPT School (opens in a new tab) y crea un nuevo proyecto.
Al igual que con CustomGPT.ai, deberás ingresar la URL del sitemap de tu sitio web. La plataforma encolará todas las páginas de tu sitemap para su rastreo.
Espera a que el sistema rastree todas tus páginas. Este proceso puede tomar hasta una hora dependiendo del número de páginas en tu sitio web.
Una vez que se complete el proceso de rastreo, puedes comenzar a crear tu chatbot personalizado. El chatbot habrá leído todas las páginas, comprendido el contenido y estará listo para interactuar con cualquier persona que lo utilice.

Método 2: Construye tu propio LLM personalizado para entrenar ChatGPT

Preparar el entorno para entrenar ChatGPT

Paso 1: Instalar Python

Se requiere Python 3.0+ para comenzar. Antes de continuar con la instalación, se recomienda verificar si ya tienes Python3 instalado. Puedes hacer esto ejecutando el siguiente comando en tu terminal:

python3 --version

Si ves la versión listada después de ejecutar el comando, significa que ya tienes Python3 instalado y puedes omitir este paso. Si ves un error "command not found" (comando no encontrado), procede con la instalación.

Dirígete al siguiente enlace y descarga el instalador de Python: https://www.python.org/downloads/ (opens in a new tab)

Una vez que la instalación esté completa, ejecuta el comando anterior nuevamente y debería mostrar la versión de Python.

Paso 2: Actualizar Pip

Python viene con pip preinstalado, pero en caso de que estés utilizando una instalación antigua, siempre es una buena idea actualizar pip a la última versión. Pip es un administrador de paquetes para Python, similar a composer para PHP. Puedes actualizarlo usando un comando muy sencillo:

python3 -m pip install -U pip

Si ya tienes pip instalado, te dará una advertencia como "Requirement already satisfied: pip in [ubicación-aquí]". Si no tienes la última versión de pip, la instalará. Ahora puedes verificar si se instaló correctamente ejecutando el siguiente comando:

pip3 --version

Esto te mostrará la versión y la ubicación del paquete.

Instalar bibliotecas para el entrenamiento de ChatGPT

Antes de sumergirte en el proceso de entrenamiento real, deberás instalar algunas bibliotecas. Abre la aplicación Terminal en tu Mac y ejecuta los siguientes comandos, uno por uno:

El primer comando instala la biblioteca de OpenAI:

pip3 install openai

A continuación, instala GPT index, que también se llama LlamaIndex. Permite que LLM se conecte a los datos externos que componen nuestra base de conocimientos.

Para obtener más detalles sobre cómo funciona LlamaIndex y cómo usarlo, puedes leer nuestros artículos relacionados sobre LlamaIndex.

pip3 install gpt_index

Una vez hecho esto, ejecuta el siguiente comando:

pip3 install PyPDF2

Es una biblioteca de análisis de PDF basada en Python y es necesaria si vas a alimentar al modelo con archivos PDF.

Finalmente, ejecuta:

pip3 install gradio

Esto creará una interfaz de usuario simple para interactuar con ChatGPT.

Obtén una clave de OpenAI para entrenar ChatGPT

Antes de continuar con el script, obtén la clave de la API de OpenAI. Visita OpenAI API (opens in a new tab). Si no has iniciado sesión, te pedirá que lo hagas. Luego haz clic en "Create new secret key" (Crear nueva clave secreta) para generar una clave para nuestro script.

Recuerda que una vez que se genere la clave, no podrás verla nuevamente. Debes copiarla y guardarla en un lugar seguro para poder acceder a ella más tarde.

Preparar los datos para el entrenamiento de ChatGPT

Crea un nuevo directorio llamado 'docs' en cualquier ubicación que desees y coloca archivos PDF, TXT o CSV dentro de él. Puedes agregar varios archivos si así lo deseas, pero recuerda que cuantos más datos agregues, más tokens se utilizarán. Las cuentas gratuitas disponen de $18 en tokens para usar.

Crea un script para entrenar ChatGPT

Ahora que todo está en su lugar, el siguiente paso es crear un script de Python para entrenar el chatbot con datos personalizados. Utilizará los archivos dentro del directorio 'docs', que creamos anteriormente, y generará un archivo JSON.

Puedes utilizar cualquier editor de texto para crear este archivo. MacOS viene con TextEdit, puedes usar eso o, si estás usando Visual Studio Code, es aún mejor.

Crea una nueva página y copia el siguiente código:

from gpt_index import SimpleDirectoryReader, GPTListIndex, GPTSimpleVectorIndex, LLMPredictor, PromptHelper
from langchain import OpenAI
import gradio as gr
import sys
import os
 
os.environ["OPENAI_API_KEY"] = ''
 
def construct_index(directory_path):
    max_input_size = 4096
    num_outputs = 512
    max_chunk_overlap = 20
    chunk_size_limit = 600
 
    prompt_helper = PromptHelper(max_input_size, num_outputs, max_chunk_overlap, chunk_size_limit=chunk_size_limit)
 
    llm_predictor = LLMPredictor(llm=OpenAI(temperature=0.7, model_name="text-davinci-003", max_tokens=num_outputs))
 
    documents = SimpleDirectoryReader(directory_path).load_data()
 
    index = GPTSimpleVectorIndex(documents, llm_predictor=llm_predictor, prompt_helper=prompt_helper)
 
    index.save_to_disk('index.json')
 
    return index
 
def chatbot(input_text):
    index = GPTSimpleVectorIndex.load_from_disk('index.json')
    response = index.query(input_text, response_mode="compact")
    return response.response
 
iface = gr.Interface(fn=chatbot,
                     inputs=gr.inputs.Textbox(lines=7, label="Ingresa tu texto"),
                     outputs="text",
                     title="Mi chatbot de IA")
 
index = construct_index("docs")
iface.launch(share=True)

Una vez copiado, debes agregar tu clave de OpenAI al código antes de guardarlo. ¿Notaste la variable OPEN_API_KEY en el código? Copia tu clave de OpenAI, que obtuvimos en el Paso 5, entre las comillas simples de esta manera:

os.environ["OPENAI_API_KEY"] = 'tu-clave-va-aquí'

Luego guarda el archivo con la extensión app.py en la misma ubicación donde tienes el directorio 'docs'.

Ejecuta el script

Ahora que todo está listo, finalmente podemos ejecutar el script y ver la magia.

Navega hasta donde tienes app.py y el directorio 'docs'. Abre Terminal y ejecuta el siguiente comando:

cd /ruta/a/tu/directorio

A continuación, ejecuta el archivo de Python:

python3 app.py

Esto iniciará el entrenamiento de tu chatbot personalizado. Esto puede llevar algún tiempo según la cantidad de datos que le hayas proporcionado. Una vez que se complete, mostrará un enlace donde puedes probar las respuestas utilizando una interfaz de usuario simple.

Como puedes ver, muestra una URL local: http://127.0.0.1:7860

Puedes abrir esto en cualquier navegador y comenzar a probar tu chatbot entrenado personalizado. Ten en cuenta que el número de puerto anterior puede ser diferente en tu caso.

Puedes hacer preguntas en el lado izquierdo y responderá en la columna derecha. Recuerda que las preguntas te costarán tokens, por lo que cuantas más preguntas hagas, más tokens se utilizarán de tu cuenta de OpenAI. El entrenamiento también utiliza tokens según la cantidad de datos que le hayas proporcionado.

Para entrenar con datos diferentes o más datos, puedes cerrar usando CTRL + C, cambiar los archivos y luego ejecutar nuevamente el archivo de Python.

📚

Conclusión

Entrenar ChatGPT con datos personalizados te permite crear un chatbot adaptado a tus necesidades específicas. Ya sea que utilices bibliotecas de Python en MacOS, plataformas en línea como CustomGPT.ai y ChatGPT School, o te unas a una comunidad como el Grupo de Automatización de IA de ChatGPT, hay numerosas formas de personalizar y mejorar las capacidades de tu chatbot. Siguiendo los pasos detallados y los ejemplos proporcionados en esta guía, estarás en camino de crear un chatbot poderoso impulsado por IA.

Preguntas frecuentes

¿Puedo entrenar mi propio modelo ChatGPT?

Sí, puedes entrenar tu propio modelo ChatGPT. Esta guía proporciona pasos detallados sobre cómo hacerlo utilizando bibliotecas de Python en MacOS. También puedes utilizar plataformas en línea como CustomGPT.ai y ChatGPT School para simplificar el proceso.

¿Puedo entrenar ChatGPT con archivos PDF?

Sí, se puede entrenar ChatGPT con archivos PDF. Puedes utilizar bibliotecas de Python como PyPDF2 para analizar los archivos PDF y alimentar los datos al modelo.

¿Qué datos se utilizaron para entrenar ChatGPT?

ChatGPT fue entrenado con una amplia variedad de texto de Internet. Sin embargo, OpenAI no ha divulgado públicamente los detalles de los conjuntos de datos individuales utilizados. Puedes entrenar tu propio modelo ChatGPT con datos personalizados para adaptarlo a tus necesidades específicas.

¿Puedo entrenar un chatbot?

Sí, puedes entrenar un chatbot. Esta guía proporciona pasos detallados sobre cómo entrenar un chatbot utilizando ChatGPT y datos personalizados. El proceso implica configurar tu entorno, preparar tus datos y ejecutar un script de Python para entrenar el chatbot.

📚

How to Solve Open AI 'That Model Does Not Exist' Error How to Training ChatGPT on Custom Data for Advanced Chatbot Deployment