Transformando objetivos de predicción en el aprendizaje automático

Introducción

En el aprendizaje automático, a menudo es necesario transformar la variable objetivo de predicción antes de entrenar un modelo. Esto puede incluir tareas como convertir etiquetas de múltiples clases en una matriz indicadora binaria o codificar etiquetas no numéricas en etiquetas numéricas.

En este laboratorio, exploraremos las diversas técnicas proporcionadas por el módulo sklearn.preprocessing en scikit-learn para transformar la variable objetivo de predicción.

Consejos sobre la VM

Una vez finalizada la inicialización de la VM, haga clic en la esquina superior izquierda para cambiar a la pestaña Cuaderno y acceder a Jupyter Notebook para practicar.

A veces, es posible que tenga que esperar unos segundos a que Jupyter Notebook termine de cargarse. La validación de las operaciones no se puede automatizar debido a las limitaciones de Jupyter Notebook.

Si tiene problemas durante el aprendizaje, no dude en preguntar a Labby. Deje su retroalimentación después de la sesión y resolveremos rápidamente el problema para usted.

Skills Graph

%%%%{init: {'theme':'neutral'}}%%%% flowchart RL sklearn(("Sklearn")) -.-> sklearn/DataPreprocessingandFeatureEngineeringGroup(["Data Preprocessing and Feature Engineering"]) ml(("Machine Learning")) -.-> ml/FrameworkandSoftwareGroup(["Framework and Software"]) sklearn/DataPreprocessingandFeatureEngineeringGroup -.-> sklearn/preprocessing("Preprocessing and Normalization") ml/FrameworkandSoftwareGroup -.-> ml/sklearn("scikit-learn") subgraph Lab Skills sklearn/preprocessing -.-> lab-71136{{"Transformando el objetivo de predicción"}} ml/sklearn -.-> lab-71136{{"Transformando el objetivo de predicción"}} end

Binarización de etiquetas

La binarización de etiquetas es el proceso de convertir etiquetas de múltiples clases en una matriz indicadora binaria. Se puede lograr utilizando la clase LabelBinarizer.

from sklearn import preprocessing

## Crea una instancia de LabelBinarizer
lb = preprocessing.LabelBinarizer()

## Ajusta el LabelBinarizer a una lista de etiquetas de múltiples clases
lb.fit([1, 2, 6, 4, 2])

## Obtiene las clases aprendidas por el LabelBinarizer
lb.classes_

## Transforma una lista de etiquetas de múltiples clases en una matriz indicadora binaria
lb.transform([1, 6])

Binarización de múltiples etiquetas

La binarización de múltiples etiquetas es el proceso de convertir una colección de colecciones de etiquetas en un formato indicador. Esto se puede lograr utilizando la clase MultiLabelBinarizer.

from sklearn.preprocessing import MultiLabelBinarizer

## Define una lista de colecciones de etiquetas
y = [[2, 3, 4], [2], [0, 1, 3], [0, 1, 2, 3, 4], [0, 1, 2]]

## Crea una instancia de MultiLabelBinarizer y ajusta y transforma la lista de colecciones
MultiLabelBinarizer().fit_transform(y)

Codificación de etiquetas

La codificación de etiquetas es el proceso de convertir etiquetas no numéricas en etiquetas numéricas. Esto se puede lograr utilizando la clase LabelEncoder.

from sklearn import preprocessing

## Crea una instancia de LabelEncoder
le = preprocessing.LabelEncoder()

## Ajusta el LabelEncoder a una lista de etiquetas no numéricas
le.fit(["parís", "parís", "tokio", "ámsterdam"])

## Obtiene las clases aprendidas por el LabelEncoder
list(le.classes_)

## Transforma una lista de etiquetas no numéricas en etiquetas numéricas
le.transform(["tokio", "tokio", "parís"])

## Invierte la transformación de etiquetas numéricas de vuelta a etiquetas no numéricas
list(le.inverse_transform([2, 2, 1]))

Resumen

En este laboratorio, aprendimos cómo transformar la variable objetivo de predicción utilizando las diversas técnicas proporcionadas por el módulo sklearn.preprocessing en scikit-learn. Estas técnicas incluyeron la binarización de etiquetas, la binarización de múltiples etiquetas y la codificación de etiquetas.