ArXiv, un repositorio abierto muy utilizado para la investigación en formato de preprints, está tomando medidas adicionales para vigilar el uso descuidado de los modelos de lenguaje de gran tamaño en los artículos científicos. Aunque los documentos se publican en el sitio antes de ser revisados por pares, ArXiv ha emergido como una de las principales plataformas para la circulación de investigaciones en campos como la informática y las matemáticas, y también se ha convertido en una fuente de datos sobre las tendencias en la investigación científica.
Medidas de ArXiv contra la baja calidad en publicaciones
ArXiv ha implementado diversas estrategias para combatir el creciente número de artículos de baja calidad generados por inteligencia artificial (IA). Por ejemplo, ahora se requiere que los nuevos autores obtengan un aval de un autor establecido antes de poder publicar su trabajo en la plataforma. Después de más de 20 años bajo el alero de la Universidad de Cornell, ArXiv se está transformando en una organización sin ánimo de lucro independiente, lo que le permitirá aumentar sus ingresos y abordar problemas como el contenido generado de forma inapropiada por IA.
Requisitos para nuevas publicaciones
Recientemente, Thomas Dietterich, el presidente de la sección de informática de ArXiv, ha declarado que si una presentación contiene pruebas claras de que los autores no verificaron los resultados generados por el modelo de lenguaje, esto significaría que no se puede confiar en nada del artículo. Las pruebas incontrovertibles podrían incluir referencias fabricadas y comentarios relacionados con el modelo de lenguaje.
Si se encuentra dicha evidencia, los autores podrían enfrentar una sanción de un año de prohibición en ArXiv, tras la cual tendrían que presentar sus próximos trabajos en una revista revisada por pares de buena reputación previamente aceptada.
Responsabilidad de los autores
Cabe destacar que estas reglas no prohíben por completo el uso de modelos de lenguaje, sino que se enfatiza que los autores deben asumir la responsabilidad total por el contenido generado, independientemente de cómo se obtenga. Si los investigadores utilizan directamente contenido inapropiado, plagios, o errores generados por el modelo, seguirán siendo responsables de ello.
Dietterich ha mencionado que se aplicará una regla de un solo error, aunque se requiere que los moderadores internen el problema y que los presidentes de sección confirmen la evidencia antes de imponer cualquier penalización. Los autores también tendrán la opción de apelar la decisión.
Aumento de citas fabricadas
Investigaciones recientes revisadas por pares han encontrado un aumento en las citas fabricadas en la investigación biomédica, probable resultado del uso de modelos de lenguaje. No obstante, no solo los científicos se ven involucrados en este problema, ya que se han dado casos de abogados que se han visto obligados a disculparse después de utilizar citas generadas incorrectamente por IA.
Consejos para emprendedores y negocios
- Verificar fuentes: Asegúrate de que cualquier contenido generado (ya sea por IA o no) sea revisado y verificado por expertos en el tema.
- Promover la calidad sobre la cantidad: En lugar de crear más contenido, enfócate en proporcionar información valiosa y bien fundamentada.
- Capacitación sobre IA: Considera ofrecer formación a tu equipo sobre el uso responsable de herramientas de IA para evitar errores y malentendidos.
- Implementar revisiones de pares: Si tienes un negocio de contenido, establece un sistema de revisión para asegurar la calidad de lo que publicas.
Conclusiones
La evolución y el uso de los modelos de lenguaje en la investigación y otros campos requieren una responsabilidad y un enfoque riguroso hacia la veracidad y la ética. ArXiv está liderando el camino para mantener la integridad en la circulación de investigaciones científicas, estableciendo normativas claras sobre el uso de tecnologías avanzadas. De este modo, tanto investigadores como negocios deben adaptarse a estas nuevas realidades y centrarse en una producción de contenido que priorice la calidad y la veracidad.