ABRAN SU MENTE! Esta es una solución que encontré para grandes cantidades de información para vectorizar.
Soy de Colombia y uno de mis clientes es la Cámara de comercio. No sé si saben lo que significa, pero básicamente son un ente que se dedica a básicamente responder todo lo que necesiten los empresarios en muchos ámbitos. O sea, sí, una LO CU RA en sentido de información.
Cuando inicié con ellos les hice un bot en chatrace 100% O sea. Un promp con 400.000 palabras aprox ☠️
Así que luego cuando aprendí del tema de los RAG me di cuenta de que lo mejor era reorganizar toda la información y separarla del promp, o sea de las ordenes que le tenía a el agente de ia y no se si saben lo que es mover eso jaja. En resumen, inicié con claude así en pleno, pero me dejaba mal la info y luego se le olvidaba el principal así que perdía todo prácticamente. Luego lo que hice fue hacer que dividiera todo en titulos y subtitulos y empecé a pedirle que recogiera toda la información de cada titulo, cuando generaba la respuesta lo copiaba en un documento y luego editaba el emnsaje y hacía la siguiente. Resultado? Llegué a la mitad en dos días.
La verdad estaba mamado (Cansado en colombiano) de esto así que simplemente me senté en el parque (hagan eso, sirve un montón jaja) y la mejor solución que encontré es salirme del marco de las ias ya creadas y creé un sistema en python que hiciera exactamente esto, claro. Apoyándome de la poderosísima IA 😎
Así que bueno, si quizá por algún motivo estás en la misma situación que yo estaba te comparto el código, solo debes ponerle tu ApiKey y listo, probablemente te divertirás revisándolo si te apasiona la ia.
También si quizá no te sirve quizá te funcione abrir tu mente de aveces salirte de lo común, esto en ocasiones es lo más fácil.
Por cierto para poderlo iniciar creen una carpeta, pongan este archivo, creen otro que se llame "texto.txt" y aquí peguen el texto completo. Luego se meten a CMD como administrador (Ya deben tener instalado Python), vayan a la carpeta que crearon con "cd ruta/de/la/carpeta" y pongan estos dos comandos: "pip install openai tiktoken" (Para instalar lo necesario) y "python extractor.py" el les va a dar el resultado en la misma carpeta y los chunks divididos.
Así que nada. Por acá un pequeño aporte que quizá le quite el estrés a alguien como en algún momento me liberó a mi. ¡Un abrazo, comunidad!
5
3 comments
Automatizaciones Ia
3
ABRAN SU MENTE! Esta es una solución que encontré para grandes cantidades de información para vectorizar.
Techain
skool.com/techain-incubator-1848
Crea Agentes de IA: Da igual si empiezas de cero o ya tienes un negocio. El momento es ahora.
Powered by