Taylor y su compañera de piso se dedicaron durante una semana de verano a una tarea peculiar: llevaban cámaras GoPro sujetas a la frente mientras pintaban, esculpían y realizaban tareas domésticas. Esta actividad formaba parte de un proyecto para entrenar un modelo de visión de inteligencia artificial (IA), coordinando cuidadosamente sus grabaciones para que el sistema pudiera obtener múltiples perspectivas del mismo comportamiento. A pesar de ser un trabajo exigente, estaba bien remunerado y permitía a Taylor dedicar la mayor parte de su día a la creación artística.
Entrenamiento de Modelos de IA
Taylor trabajaba como freelance de datos para Turing Labs, colaborando así en la mejora de habilidades de resolución secuencial de problemas y razonamiento visual para un modelo de visión de IA. A diferencia de los modelos de lenguaje amplio, este modelo se entrenaría exclusivamente con videos, recopilados mayoritariamente por la propia empresa. Además de artistas como Taylor, Turing también contrataba a chefs, obreros de la construcción y electricistas – profesionales que trabajan con sus manos, para obtener un conjunto de datos variado y rico.
El trabajo requería producir cinco horas de metraje sincronizado cada día, aunque Taylor aprendió pronto que necesitaba dedicar al menos siete horas diarias al proyecto para poder descansar y recuperarse físicamente del esfuerzo, dado que el uso prolongado de las cámaras podía causar dolores de cabeza y marcas visibles en la frente.
Cambio en la Recopilación de Datos
La estrategia de Turing Labs refleja un cambio significativo en cómo las compañías de IA están manejando la recopilación de datos. Tradicionalmente, los conjuntos de entrenamiento se obtenían de datos raspados de la web o de anotadores mal pagados. Sin embargo, ahora se invierte mucho más en obtener datos cuidadosamente curados, viendo estos como una ventaja competitiva fundamental. Por ejemplo, Fyxer, una empresa que usa modelos de IA para gestionar emails, descubrió que pequeños modelos con datos de entrenamiento bien enfocados eran los más efectivos.
Consejos para Emprendedores y Negocios en IA
- Priorizar la Calidad sobre la Cantidad: como lo destacan tanto Turing como Fyxer, invertir en datos de alta calidad puede marcar una gran diferencia en el desempeño y la eficacia de los modelos de IA.
- Diversificar las Fuentes de Datos: la colaboración con profesionales de diversos campos proporciona una rica diversidad de datos que puede mejorar significativamente la capacidad de respuesta y adaptación de la IA.
- Mantenimiento Interno de la Recolección de Datos: manejar la recopilación de datos in-house puede ser más caro y laborioso pero proporciona control sobre la calidad y confidencialidad de los datos, además de representar una barrera competitiva sólida.
- Usar Datos Sintéticos con Cuidado: aunque los datos sintéticos pueden ampliar los escenarios de entrenamiento, deben basarse siempre en conjuntos de datos originales de alta calidad para evitar la propagación de errores.
Conclusiones
El enfoque minucioso y estratégico hacia la recopilación y manejo de datos por parte de empresas como Turing Labs y Fyxer ilustra la importancia de la calidad de los datos en el desarrollo de tecnologías de IA efectivas. Las compañías que invierten en obtener y curar datos de alta calidad no solo mejoran el rendimiento de sus modelos sino que también establecen fuertes ventajas competitivas en el mercado. Para los emprendedores y negocios que aspiran a incursionar en el ámbito de la IA, es crucial reconocer que una buena infraestructura de datos puede ser tan determinante para el éxito como la tecnología misma.