Machine Learning. Algo “diferente”. Tercera parte

$\"\"$

5-Diferentes tipos de Machine learning

Uno puede pensar en el aprendizaje automático, como un nombre diferente para algo que ya existe. Tal vez sea sólo una forma actualizada de describir las estadísticas, o una nueva forma de hablar de la ciencia de los datos. Pero la clave cuando se piensa en el aprendizaje automático es el enfoque en el término “aprendizaje”.

El aprendizaje automático ciertamente tiene estadísticas. También podría ser una parte clave de los esfuerzos en el campo de la ciencia de datos. Pero estas son sólo las herramientas que una máquina necesita para aprender. No son un sustituto del aprendizaje. Imaginemos lo que significa aprender:

¿Cuáles son las diferentes estrategias que usa para aprender algo nuevo?
¿Cómo puede tomar estas estrategias y luego aplicarlas a las máquinas?

Imaginemos que alguien quiere aprender a jugar al ajedrez. Podría hacer esto de tres maneras diferentes.

$\"\"$

Podría contratar a un tutor de ajedrez. Le enseñaría las diferentes piezas de ajedrez y cómo se mueven a través del tablero. Podría también practicar jugando contra su tutor, quien supervisará sus movimientos y le ayudará cuando cometa un error. Después de un tiempo, el tutor terminará todas las lecciones y empezará a jugar contra los demás.
Por otro lado, supongamos que no pudo encontrar un tutor. Entonces, podría ir a los parques públicos y ver a varios cientos de expertos jugar. No podrá hacerles preguntas, sólo mirará y aprenderá en silencio. Si hace esto el tiempo suficiente, probablemente entenderá el juego. Puede que no conozca los nombres de las piezas de ajedrez, pero puede entender los movimientos y estrategias a partir de sus horas de observaciones.
Por último, se podría intentar una combinación de estos dos enfoques. Un tutor de ajedrez que muestre las reglas básicas y luego ir a ver jugar a otras personas. Tendría una visión general de alto nivel y los nombres de las piezas de ajedrez, pero confiaría en las observaciones como la forma de ver las nuevas estrategias y mejorar.

Estas tres estrategias son muy similares a la forma en que una máquina puede aprender.

Podría hacer algo llamado “aprendizaje supervisado”. Aquí, un científico de datos actúa como tutor de la máquina. Entrenan la máquina mostrándole las reglas básicas y dándole una estrategia global.

$\"\"$

También puede intentar el aprendizaje sin supervisión. Aquí, sólo tiene que hacer que la máquina haga todas las observaciones por sí misma. Puede que la máquina no conozca todos los nombres y etiquetas diferentes, pero encontrará patrones por sí misma.

Por último, puede mezclar los dos y probar el aprendizaje semi-supervisado. Aquí, una persona entrenaría la máquina sólo un poco para que tenga una visión general de alto nivel. La mayor parte del aprendizaje sobre las reglas y estrategias se realiza a través de la observación de diferentes patrones.

Como podemos observar, los tres enfoques tienen sus propias fortalezas y debilidades.

Para el aprendizaje supervisado, necesitará un tutor bien formado. Tiene que haber alguien que sepa mucho de ajedrez y que pueda mostrarle cómo jugar el juego.

Con el aprendizaje sin supervisión, uno necesita tener acceso a una gran cantidad de datos. Es posible que no pueda ir a un parque público y ver a cientos de expertos diferentes jugar el juego. También depende un poco de a quién mire. Hay que observar a la gente que juega bien.

Con el aprendizaje semi-supervisado, la persona puede tener problemas en ambos lados. Si tiene un mal tutor, será mucho más difícil aprender a través de las observaciones. Por otro lado, si tiene un gran tutor, pero a la gente que observa son jugadores pobres, entonces puede entender el juego, pero no convertirse en un jugador experto.

Cada persona debe estar en una posición en la que pueda decidir qué enfoque funciona mejor. Pero, a menudo, sólo puede hacer lo mejor que puede con lo que tiene disponible. Si no puede encontrar un tutor, entonces tendrá que hacer lo mejor que pueda, observando a la gente en los parques públicos. Por el contrario, si no tiene un parque público, entonces tendrá que hacer todo lo posible para encontrar un buen tutor. Sólo se puede hacer un aprendizaje semi-supervisado si se tiene acceso a ambos

6-Aprendizaje supervisado

Cuando uno sepa lo suficiente sobre sus datos, puede ayudar a su máquina a conectar los puntos con el aprendizaje supervisado. En el aprendizaje supervisado, se muestra a la máquina la conexión entre diferentes variables y resultados conocidos. En el aprendizaje automático, esto se denomina datos de muestra etiquetados y la salida correcta. Se llaman datos etiquetados porque ya están etiquetados con información de identificación. Imagínese que quisiera entrenar una máquina para que le ayude a predecir cuánto tiempo le llevará conducir a casa.

$\"\"$

Comenzaría por crear un conjunto de datos etiquetados. Estos datos incluirían las condiciones climáticas, la hora del día y si es un día festivo. Estas son las entradas. El resultado sería la cantidad de tiempo que se tardó en llegar a casa en ese día en particular. En este caso, las variables independientes serían la entrada y la variable dependiente sería la salida.

Aquí se desean utilizar diferentes algoritmos de machine learning para mapear las relaciones entre estas diferentes variables. Para ello se puede utilizar la regresión estadística y determinar cómo las variables independientes afectan a la variable dependiente. Usted sabe intuitivamente que, si está lloviendo fuera, le tomará más tiempo conducir a casa, pero las máquinas tienen que confiar en los datos y las estadísticas. Tienen que mirar la duración de su viaje y compararlo con los datos etiquetados que tiene sobre el clima. Veamos cómo podemos crear un modelo de aprendizaje supervisado de máquinas para ayudarnos a determinar nuestro tiempo de viaje.

Lo primero que debe hacer es crear un conjunto de entrenamiento. Basado en este set de entrenamiento, su máquina puede ver que hay una relación directa entre la cantidad de lluvia y el tiempo que toma llegar a casa. Cuanto más llueva, más tiempo estará en la carretera. También puede ver que hay una conexión entre la hora en que sale del trabajo y la hora en que estará en la carretera. Cuanto más cerca esté de las 5 p.m., más tiempo tardará en llegar a casa. Su máquina encuentra algunas de las relaciones con sus datos etiquetados. Este es el comienzo de su modelo de datos, comienza a entender conceptos como el impacto de la lluvia en la forma en que las personas conducen. También comenzará a ver que hay más personas que viajan a ciertas horas del día. Luego su máquina tomará este equipo de entrenamiento y lo aplicará a un conjunto de pruebas de sus datos.

verá si el modelo en este conjunto de entrenamiento es cierto cuando usted mire muchos más días. Usted podría pedirle a la computadora que prediga cuánto tiempo le tomará conducir a casa cada día y luego darle retroalimentación sobre la precisión de su predicción.

Con el tiempo, la máquina aprenderá y adaptará su modelo para mejorar el rendimiento. Su máquina continuará afinando el modelo en el set de entrenamiento y usted podrá hacer ajustes basados en los nuevos datos.

Esto es muy similar a cómo aprenden los humanos. Piense cuando aprendió a conducir. Empezó en un pequeño estacionamiento con un adulto guiándole. Entonces llegó al punto en el que podía conducir de forma predecible y segura en este espacio más pequeño. Luego, una vez que acumuló suficiente confianza, salió a la carretera.

Usted no aprendió todo lo que necesitaba saber acerca de conducir en el estacionamiento, pero pudo obtener suficientes datos que le ayudaron a comenzar. Lo más probable es que siguiera aprendiendo un montón de nuevas habilidades, y es de esperar que siga mejorando con el tiempo hasta que se convierta en un piloto experto.

$\"\"$

La clave para recordar es que en el aprendizaje supervisado de la máquina usted sabe mucho más sobre los datos de entrenamiento. Puede introducir datos etiquetados en la máquina que se clasifican fácilmente. Así que con su viaje de regreso a casa sabrá más sobre el clima, las vacaciones y la hora del día. Estos datos etiquetados son la diferencia clave entre el aprendizaje supervisado y otras formas de aprendizaje automático.

Confiamos que estos 3 capítulos sobre “Machine Learning” le hayan ayudado a tener una visión más específica sobre el tema.

La semana que viene hablaremos sobre el algoritmo gpt-3, el potencial que tiene, y la evolución con respecto de su predecesor