Una introducción al aprendizaje profundo y como este ha impulsado la inteligencia artificial de forma exponencial en la última década.
¿Qué es el aprendizaje profundo?
El aprendizaje profundo es una subcategoría del aprendizaje automático que se basa en una red neuronal con tres o más capas. Estas redes neuronales intentan simular el comportamiento del cerebro humano, aunque aún están lejos de igualar su capacidad, permitiéndoles «aprender» de grandes cantidades de datos. Mientras que una red neuronal con una sola capa aún puede hacer predicciones aproximadas, capas ocultas adicionales pueden ayudar a optimizar y refinar la precisión.
El aprendizaje profundo impulsa muchas aplicaciones y servicios de inteligencia artificial (IA) que mejoran la automatización, realizando tareas analíticas y físicas sin intervención humana. La tecnología de aprendizaje profundo se encuentra detrás de productos y servicios cotidianos (como asistentes digitales, controles remotos de televisores activados por voz y detección de fraude con tarjetas de crédito) así como de tecnologías emergentes (como los automóviles autónomos).
Deep learning vs. machine learning
¿Cómo se diferencian el deep learning y el machine learning si el primero es un subconjunto del segundo? El deep learning se distingue del machine learning clásico por el tipo de datos con los que trabaja y los métodos en los que aprende.
Los algoritmos de machine learning utilizan datos estructurados y etiquetados para hacer predicciones, es decir, se definen características específicas a partir de los datos de entrada para el modelo y se organizan en tablas. Esto no significa necesariamente que no use datos no estructurados; simplemente significa que, si lo hace, generalmente se somete a algún preprocesamiento para organizarlo en un formato estructurado.
El deep learning elimina parte del preprocesamiento de datos que suele implicar el machine learning. Estos algoritmos pueden ingerir y procesar datos no estructurados, como texto e imágenes, y automatiza la extracción de características, eliminando parte de la dependencia de expertos humanos. Por ejemplo, supongamos que tenemos un conjunto de fotos de diferentes mascotas y queremos categorizarlas por «gato», «perro», «hámster», etc. Los algoritmos de deep learning pueden determinar qué características (como las orejas) son las más importantes para distinguir cada animal de otro. En el machine learning, esta jerarquía de características se establece manualmente por un experto humano.
Luego, a través de los procesos de descenso de gradiente y retropropagación, el algoritmo de deep learning se ajusta y adapta para la precisión, lo que le permite hacer predicciones sobre una nueva foto de un animal con mayor precisión.
Los modelos de machine learning y deep learning también son capaces de diferentes tipos de aprendizaje, que generalmente se categorizan como aprendizaje supervisado, aprendizaje no supervisado y aprendizaje por refuerzo. El aprendizaje supervisado utiliza conjuntos de datos etiquetados para categorizar o hacer predicciones; esto requiere algún tipo de intervención humana para etiquetar correctamente los datos de entrada. En contraste, el aprendizaje no supervisado no requiere conjuntos de datos etiquetados y, en su lugar, detecta patrones en los datos, agrupándolos por cualquier característica distintiva. El aprendizaje por refuerzo es un proceso en el que un modelo aprende a ser más preciso para realizar una acción en un entorno basado en la retroalimentación para maximizar la recompensa.
Cómo funciona el aprendizaje profundo
Las redes neuronales de aprendizaje profundo, o redes neuronales artificiales, intentan imitar el cerebro humano mediante una combinación de entradas de datos, pesos y sesgos. Estos elementos trabajan juntos para reconocer, clasificar y describir objetos dentro de los datos con precisión.
Las redes neuronales profundas consisten en múltiples capas de nodos interconectados, cada una construyendo sobre la capa anterior para refinar y optimizar la predicción o categorización. Esta progresión de cálculos a través de la red se llama propagación hacia adelante. Las capas de entrada y salida de una red neuronal profunda se llaman capas visibles. La capa de entrada es donde el modelo de aprendizaje profundo ingiere los datos para su procesamiento, y la capa de salida es donde se realiza la predicción o clasificación final.
Otro proceso llamado retropropagación utiliza algoritmos, como el descenso del gradiente, para calcular errores en las predicciones y luego ajusta los pesos y sesgos de la función moviéndose hacia atrás a través de las capas para entrenar el modelo. Juntos, la propagación hacia adelante y la retropropagación permiten que una red neuronal haga predicciones y corrija cualquier error en consecuencia. Con el tiempo, el algoritmo se vuelve gradualmente más preciso.
Lo anterior describe el tipo más simple de red neuronal profunda en términos simples. Sin embargo, los algoritmos de aprendizaje profundo son increíblemente complejos, y existen diferentes tipos de redes neuronales para abordar problemas o conjuntos de datos específicos. Por ejemplo, las redes neuronales convolucionales (CNN), utilizadas principalmente en aplicaciones de visión por computadora y clasificación de imágenes, pueden detectar características y patrones dentro de una imagen, permitiendo tareas como la detección o el reconocimiento de objetos. En 2015, una CNN superó a un humano en un desafío de reconocimiento de objetos por primera vez. Las redes neuronales recurrentes (RNN) se utilizan típicamente en aplicaciones de reconocimiento de lenguaje natural y habla, ya que aprovechan datos secuenciales o en series temporales.
Aplicaciones de aprendizaje profundo
Las aplicaciones de aprendizaje profundo en el mundo real son una parte cotidiana de nuestras vidas, pero en la mayoría de los casos, están tan bien integradas en los productos y servicios que los usuarios no son conscientes del complejo procesamiento de datos que está teniendo lugar en segundo plano. Algunos de estos ejemplos incluyen los siguientes:
Aplicaciones en la aplicación de la ley
Los algoritmos de aprendizaje profundo pueden analizar y aprender de los datos transaccionales para identificar patrones peligrosos que indiquen posibles actividades fraudulentas o criminales. La tecnología de reconocimiento de voz, visión por computadora y otras aplicaciones de aprendizaje profundo pueden mejorar la eficiencia y efectividad del análisis de investigaciones extrayendo patrones y pruebas de grabaciones de sonido y video, imágenes y documentos, lo que ayuda a las autoridades a analizar grandes cantidades de datos de manera más rápida y precisa.
Servicios financieros
Las instituciones financieras utilizan regularmente el análisis predictivo para impulsar la negociación algorítmica de acciones, evaluar los riesgos empresariales para la aprobación de préstamos, detectar fraudes y ayudar a administrar carteras de crédito e inversión para los clientes.
Servicio al cliente
Muchas organizaciones incorporan tecnología de aprendizaje profundo en sus procesos de servicio al cliente. Los chatbots, utilizados en una variedad de aplicaciones, servicios y portales de servicio al cliente, son una forma sencilla de inteligencia artificial. Los chatbots tradicionales utilizan lenguaje natural e incluso reconocimiento visual, comúnmente encontrados en menús similares a los de un centro de llamadas. Sin embargo, las soluciones de chatbot más sofisticadas intentan determinar, a través del aprendizaje, si hay múltiples respuestas a preguntas ambiguas. Basándose en las respuestas que recibe, el chatbot intenta responder estas preguntas directamente o derivar la conversación a un usuario humano.
Asistentes virtuales como Siri de Apple, Alexa de Amazon o Google Assistant amplían la idea de un chatbot al habilitar la funcionalidad de reconocimiento de voz. Esto crea un nuevo método para involucrar a los usuarios de manera personalizada.
Atención médica
La industria de la salud ha beneficiado mucho de las capacidades de aprendizaje profundo desde la digitalización de los registros e imágenes hospitalarios. Las aplicaciones de reconocimiento de imágenes pueden ayudar a los especialistas en imágenes médicas y radiólogos, ayudándoles a analizar y evaluar más imágenes en menos tiempo.
Requisitos de hardware para el aprendizaje profundo
El aprendizaje profundo requiere una cantidad tremenda de poder de cómputo. Las unidades de procesamiento gráfico (GPU) de alto rendimiento son ideales porque pueden manejar una gran cantidad de cálculos en múltiples núcleos con abundante memoria disponible. Sin embargo, administrar múltiples GPU en las instalaciones puede generar una gran demanda de recursos internos y ser increíblemente costoso para escalar.