Automatización de datos (AutoML), también conocido como machine learning, usando el lenguaje de programación Python y la librería gratuita pycaret. Aplicamos varios modelos de predicción, ajustamos los hiperparámetros, comparamos los modelos según las métricas, guardamos el modelo óptimo final y lo cargamos para su uso en cualquier otro momento.

Instalación de librería pycaret en Python.
AutoML con Python y pycaret, predicción de datos, ciencia de datos automática.
Código Python completo del ejemplo de ciencia de datos automatizada.

Instalación de librería pycaret en Python

En primer lugar, necesitaremos instalar la librería pycaret para Python. Podemos hacerlo abriendo una terminal (consola de comandos) y ejecutando el comando:

pip3 install pycaret

1	pip3 install pycaret

Se instalará esta librería y la tendremos disponible para su uso en Python.

Si disponemos de docker (podremos instalarlo en Windows como indicamos en este enlace o en Linux en este otro enlace), desplegando de forma rápida un contenedor con Python y pycaret, ejecutando el comando:

docker run -p 8888:8888 pycaret/full

1	docker run -p 8888:8888 pycaret/full

Para realizar este artículo hemos usado la opción de docker, que nos permite acceder vía web al contenedor desplegado anteriormente, usando el editor Jupyter, que permite ejecutar código Python y mostrar los resultados formateados en html:

AutoML con Python y pycaret, predicción de datos, ciencia de datos automática

Iniciamos importando la librería y cargando un conjunto de datos de pruebas que incluye la propia librería. En concreto, cargaremos y trabajaremos, a modo de ejemplo, con el conjunto de datos credit, que contiene un historial de créditos solicitados a un banco, indicando si han sido pagados o no:

from pycaret.datasets import get_data

dataset = get_data("credit")

from pycaret.datasets import get_data

dataset = get_data("credit")

Devolverá las 5 primeras filas del dataset, pudiendo comprobar los campos que contiene:

IDENTIFICACIÓN: código identificativo del cliente.
LIMIT_BAL: crédito otorgado en dólares (incluye crédito individual y familiar/suplementario).
SEX: género (1 = hombre, 2 = mujer).
EDUCATION: nivel de estudios (1 = posgrado, 2 = universidad, 3 = escuela secundaria, 4 = otros, 5 = desconocido, 6 = desconocido).
MARRIAGE: estado civil (1 = casado, 2 = soltero, 3 = otros).
AGE: edad en años.
PAY_0 a PAY_6: estado de amortización de los últimos seis meses.
BILL_AMT1 a BILL_AMT6: cantidad económica del estado de cuenta de los últimos seis meses (dólares).
PAY_AMT1 a PAY_AMT6: cantidad económica del pago anterior de los últimos seis meses (dólares NT).
default: pago por defecto (1 = sí, 0 = no).

Para ver el número de filas y columnas del dataset, ejecutaremos:

dataset.shape

1	dataset.shape

Devolverá el número de filas y columnas del conjunto de datos (dataset) escogido para las pruebas:

A continuación, dividiremos los datos en un conjunto de datos nuevo para pruebas (el 95% de los registros) y el 5% restante para entrenar el modelo. Para ello, ejecutaremos el siguiente código Python:

data = dataset.sample(frac=0.95, random_state=786).reset_index(drop=True)
data_unseen = dataset.drop(data.index).reset_index(drop=True)
print("Datos para el modelo: " + str(data.shape))
print("Datos no visible para predicción: " + str(data_unseen.shape))

data = dataset.sample(frac=0.95, random_state=786).reset_index(drop=True)

data_unseen = dataset.drop(data.index).reset_index(drop=True)

print("Datos para el modelo: " + str(data.shape))

print("Datos no visible para predicción: " + str(data_unseen.shape))

Devolverá:

Datos para el modelo: (22800, 24)
Datos no visible para predicción: (1200, 24)

Teniendo en cuenta que en la variable data quedarán el 95% de los datos para entrenar el modelo (22.800 registros) y en la variable data_unseen quedarán el 5% para pruebas (1.200 registros). Y teniendo en cuenta también que hemos usado el parámetro «random_state=786» como semilla para obtener los registros.

Realizaremos la clasificación para el dataset data (con el 95% de los registros) en base a la columna default, que contiene 1 si el crédito ha sido pagado y 0 en caso contrario:

from pycaret.classification import *

exp_clf101 = setup(data = data, target = "default", session_id=10001)

from pycaret.classification import *

exp_clf101 = setup(data = data, target = "default", session_id=10001)

Nos devolverá todos los datos del setup, con las acciones que aplicará al dataset:

Tendríamos que proceso realiza sobre los datos cada una de las acciones anteriores, para decidir si las generadas automáticamente son suficientes o no. Esta cuestión la dejamos para los expertos en automatización de datos. Para este artículo, dejaremos las acciones generadas como válidas.

Usando la capacidad de pycaret para ciencia de datos automática (AutoML), realizaremos la comparación de modelos, mostrando las métricas de: accuracy, AUC, Recall, Prec., F1, Kapp, MCC para varios modelos de ciencia de datos (gbc, lightgbm, ada, catboost, rf, lda, xgboost, et, ridge, dummy, lr, svm, knn, dt, qda, nb, etc.). Para ello, ejecutaremos la siguiente línea de código Python:

best_model = compare_models()

1	best_model = compare_models()

Hay que tener en cuenta que nosotros somos los que debemos elegir la métrica idónea según la intención del modelo de datos. Por ejemplo, si el modelo de datos queremos realizarlo para alguna predicción que requiera de no dejarnos ningún posible valor potencial, elegiríamos el que mayor métrica de recall haya dado, en el ejemplo elegiríamos el modelo nb (Naive Bayes).

Mostramos el mejor algoritmo y sus hiperparámetros, en este caso se usa (si no se indica otra cosa) el mejor algoritmo según la métrica accuracy, que para el ejemplo ha sido gbc (Gradient Boosting Classifier) con:

print(best_model)

1	print(best_model)

Devolverá:

GradientBoostingClassifier(ccp_alpha=0.0, criterion='friedman_mse', init=None,
                           learning_rate=0.1, loss='log_loss', max_depth=3,
                           max_features=None, max_leaf_nodes=None,
                           min_impurity_decrease=0.0, min_samples_leaf=1,
                           min_samples_split=2, min_weight_fraction_leaf=0.0,
                           n_estimators=100, n_iter_no_change=None,
                           random_state=10001, subsample=1.0, tol=0.0001,
                           validation_fraction=0.1, verbose=0,
                           warm_start=False)

GradientBoostingClassifier(ccp_alpha=0.0, criterion='friedman_mse', init=None,

learning_rate=0.1, loss='log_loss', max_depth=3,

max_features=None, max_leaf_nodes=None,

min_impurity_decrease=0.0, min_samples_leaf=1,

min_samples_split=2, min_weight_fraction_leaf=0.0,

n_estimators=100, n_iter_no_change=None,

random_state=10001, subsample=1.0, tol=0.0001,

validation_fraction=0.1, verbose=0,

warm_start=False)

Si queremos mostrar los modelos con los que probará al realizar una clasificación, ejecutaremos:

models()

models()

Comparamos los modelos y obtenemos el mejor:

best_model = compare_models()

1	best_model = compare_models()

En este caso, escogeremos el modelo Decision Tree Classifier (dt). Como hemos dicho anteriormente, elegiremos el modelo en función de la naturaleza y uso de los datos y, por ello, en base a la métrica que más se ajuste a estas características. Como ejemplo, elegiremos dt. Para escoger el modelo, introduciremos la siguiente línea de código:

dt = create_model("dt")

1	dt = create_model("dt")

Esto nos mostrará el cross validation (validación cruzada) que hizo para los 10 folds para un algoritmo en particular (para el dt en este caso):

Mostramos el modelo dt y los hiperparámetros:

print(dt)

print(dt)

DecisionTreeClassifier(ccp_alpha=0.0, class_weight=None, criterion='gini',
                       max_depth=None, max_features=None, max_leaf_nodes=None,
                       min_impurity_decrease=0.0, min_samples_leaf=1,
                       min_samples_split=2, min_weight_fraction_leaf=0.0,
                       random_state=10001, splitter='best')

DecisionTreeClassifier(ccp_alpha=0.0, class_weight=None, criterion='gini',

max_depth=None, max_features=None, max_leaf_nodes=None,

min_impurity_decrease=0.0, min_samples_leaf=1,

min_samples_split=2, min_weight_fraction_leaf=0.0,

random_state=10001, splitter='best')

Al igual que hemos hecho para el modelo dt, también podríamos generar cualquier otro modelo, como el knn y comparar los resultados (si lo estimamos oportuno):

knn = create_model("knn")

1	knn = create_model("knn")

Y mostrar el modelo knn y sus hiperparámetros:

print(knn)

1	print(knn)

KNeighborsClassifier(algorithm='auto', leaf_size=30, metric='minkowski',
                     metric_params=None, n_jobs=-1, n_neighbors=5, p=2,
                     weights='uniform')

KNeighborsClassifier(algorithm='auto', leaf_size=30, metric='minkowski',

metric_params=None, n_jobs=-1, n_neighbors=5, p=2,

weights='uniform')

Otro ejemplo, generando el modelo rf:

rf = create_model("rf")

1	rf = create_model("rf")

Y mostrando el modelo rf y sus hiperparámetros:

print(rf)

print(rf)

RandomForestClassifier(bootstrap=True, ccp_alpha=0.0, class_weight=None,
                       criterion='gini', max_depth=None, max_features='sqrt',
                       max_leaf_nodes=None, max_samples=None,
                       min_impurity_decrease=0.0, min_samples_leaf=1,
                       min_samples_split=2, min_weight_fraction_leaf=0.0,
                       n_estimators=100, n_jobs=-1, oob_score=False,
                       random_state=10001, verbose=0, warm_start=False)

RandomForestClassifier(bootstrap=True, ccp_alpha=0.0, class_weight=None,

criterion='gini', max_depth=None, max_features='sqrt',

max_leaf_nodes=None, max_samples=None,

min_impurity_decrease=0.0, min_samples_leaf=1,

min_samples_split=2, min_weight_fraction_leaf=0.0,

n_estimators=100, n_jobs=-1, oob_score=False,

random_state=10001, verbose=0, warm_start=False)

Tuneamos el modelo dt generado anteriormente, aplicando la hiperparametrización. El tuneado realiza las combinaciones potenciales y entrenamientos, modificando los parámetros, para obtener los que mejores resultados den.

tuned_dt = tune_model(dt)

1	tuned_dt = tune_model(dt)

Mostramos el modelo sin tunear y sus hiperparámetros:

print(dt)

print(dt)

DecisionTreeClassifier(ccp_alpha=0.0, class_weight=None, criterion='gini',
                       max_depth=None, max_features=None, max_leaf_nodes=None,
                       min_impurity_decrease=0.0, min_samples_leaf=1,
                       min_samples_split=2, min_weight_fraction_leaf=0.0,
                       random_state=10001, splitter='best')

DecisionTreeClassifier(ccp_alpha=0.0, class_weight=None, criterion='gini',

max_depth=None, max_features=None, max_leaf_nodes=None,

min_impurity_decrease=0.0, min_samples_leaf=1,

min_samples_split=2, min_weight_fraction_leaf=0.0,

random_state=10001, splitter='best')

Y mostramos el modelo tuneado con los hiperparámetros que haya considerado modificar (por ejemplo el parámetro min_impurity_decrease, pasando de 0 a 0.02):

print(tuned_dt)

1	print(tuned_dt)

DecisionTreeClassifier(ccp_alpha=0.0, class_weight=None, criterion='gini',
                       max_depth=16, max_features=1.0, max_leaf_nodes=None,
                       min_impurity_decrease=0.02, min_samples_leaf=4,
                       min_samples_split=7, min_weight_fraction_leaf=0.0,
                       random_state=10001, splitter='best')

DecisionTreeClassifier(ccp_alpha=0.0, class_weight=None, criterion='gini',

max_depth=16, max_features=1.0, max_leaf_nodes=None,

min_impurity_decrease=0.02, min_samples_leaf=4,

min_samples_split=7, min_weight_fraction_leaf=0.0,

random_state=10001, splitter='best')

La librería nos permite modificar el valor de cualquiera de los parámetros generados automáticamente. Por ejemplo, para modificar el valor del parámetro n_neighbors, para el modelo knn, usaremos:

import numpy as np

tuned_knn = tune_model(knn, custom_grid = {"n_neighbors":np.arange(0, 50, 1)})

import numpy as np

tuned_knn = tune_model(knn, custom_grid = {"n_neighbors":np.arange(0, 50, 1)})

Mostrándonos sus métricas, para decidir si nos conviene dejarlo en este valor o modificarlo:

Mostramos el modelo sin tunear y tuneado con sus hiperparámetros correspondientes (igual que hicimos para el modelo dt):

print(knn)

1	print(knn)

KNeighborsClassifier(algorithm='auto', leaf_size=30, metric='minkowski',
                     metric_params=None, n_jobs=-1, n_neighbors=5, p=2,
                     weights='uniform')

KNeighborsClassifier(algorithm='auto', leaf_size=30, metric='minkowski',

metric_params=None, n_jobs=-1, n_neighbors=5, p=2,

weights='uniform')

print(tuned_knn)

1	print(tuned_knn)

KNeighborsClassifier(algorithm='auto', leaf_size=30, metric='minkowski',
                     metric_params=None, n_jobs=-1, n_neighbors=46, p=2,
                     weights='uniform')

KNeighborsClassifier(algorithm='auto', leaf_size=30, metric='minkowski',

metric_params=None, n_jobs=-1, n_neighbors=46, p=2,

weights='uniform')

De igual forma para el modelo rf, aplicamos el tuneado:

tuned_rf = tune_model(rf)

1	tuned_rf = tune_model(rf)

Mostramos el modelo rf y sus hiperparámetros sin tunear:

print(rf)

print(rf)

RandomForestClassifier(bootstrap=True, ccp_alpha=0.0, class_weight=None,
                       criterion='gini', max_depth=None, max_features='sqrt',
                       max_leaf_nodes=None, max_samples=None,
                       min_impurity_decrease=0.0, min_samples_leaf=1,
                       min_samples_split=2, min_weight_fraction_leaf=0.0,
                       n_estimators=100, n_jobs=-1, oob_score=False,
                       random_state=10001, verbose=0, warm_start=False)

RandomForestClassifier(bootstrap=True, ccp_alpha=0.0, class_weight=None,

criterion='gini', max_depth=None, max_features='sqrt',

max_leaf_nodes=None, max_samples=None,

min_impurity_decrease=0.0, min_samples_leaf=1,

min_samples_split=2, min_weight_fraction_leaf=0.0,

n_estimators=100, n_jobs=-1, oob_score=False,

random_state=10001, verbose=0, warm_start=False)

Mostramos el modelo rf y sus hiperparáemtros tuneado:

print(tuned_rf)

1	print(tuned_rf)

RandomForestClassifier(bootstrap=True, ccp_alpha=0.0, class_weight={},
                       criterion='entropy', max_depth=6, max_features=1.0,
                       max_leaf_nodes=None, max_samples=None,
                       min_impurity_decrease=0, min_samples_leaf=3,
                       min_samples_split=9, min_weight_fraction_leaf=0.0,
                       n_estimators=240, n_jobs=-1, oob_score=False,
                       random_state=10001, verbose=0, warm_start=False)

RandomForestClassifier(bootstrap=True, ccp_alpha=0.0, class_weight={},

criterion='entropy', max_depth=6, max_features=1.0,

max_leaf_nodes=None, max_samples=None,

min_impurity_decrease=0, min_samples_leaf=3,

min_samples_split=9, min_weight_fraction_leaf=0.0,

n_estimators=240, n_jobs=-1, oob_score=False,

random_state=10001, verbose=0, warm_start=False)

Dibujamos las gráficas para ver, de forma visual, cómo se han comportado los modelos. Por ejemplo, para mostrar la curva de ROC para el modelo rf, usaremos la siguiente línea de código Python:

plot_model(tuned_rf, plot = "auc")

1	plot_model(tuned_rf, plot = "auc")

Para mostrar la gráfica de Precision-Recall también para el modelo rf:

plot_model(tuned_rf, plot = "pr")

1	plot_model(tuned_rf, plot = "pr")

O también la gráfica de Feature Importance para el modelo rf:

plot_model(tuned_rf, plot = "feature")

1	plot_model(tuned_rf, plot = "feature")

Y la matriz de confusión para el modelo rf:

plot_model(tuned_rf, plot = "confusion_matrix")

1	plot_model(tuned_rf, plot = "confusion_matrix")

Evaluamos el modelo con:

evaluate_model(tuned_rf)

1	evaluate_model(tuned_rf)

Y hacemos la predicción del modelo rf tuneado para ver cómo se comporta:

predict_model(tuned_rf)

1	predict_model(tuned_rf)

Generamos el modelo final:

final_rf = finalize_model(tuned_rf)

1	final_rf = finalize_model(tuned_rf)

Mostramos el modelo final rf con sus hiperparámetros:

print(final_rf)

1	print(final_rf)

Pipeline(memory=FastMemory(location=/tmp/joblib),
         steps=[('numerical_imputer',
                 TransformerWrapper(exclude=None,
                                    include=['LIMIT_BAL', 'SEX', 'EDUCATION',
                                             'MARRIAGE', 'AGE', 'PAY_1',
                                             'PAY_2', 'PAY_3', 'PAY_4', 'PAY_5',
                                             'PAY_6', 'BILL_AMT1', 'BILL_AMT2',
                                             'BILL_AMT3', 'BILL_AMT4',
                                             'BILL_AMT5', 'BILL_AMT6',
                                             'PAY_AMT1', 'PAY_AMT2', 'PAY_AMT3',
                                             'PAY_AMT4', 'PAY_AMT5',
                                             'PAY_AMT6'...
                 RandomForestClassifier(bootstrap=True, ccp_alpha=0.0,
                                        class_weight={}, criterion='entropy',
                                        max_depth=6, max_features=1.0,
                                        max_leaf_nodes=None, max_samples=None,
                                        min_impurity_decrease=0,
                                        min_samples_leaf=3, min_samples_split=9,
                                        min_weight_fraction_leaf=0.0,
                                        n_estimators=240, n_jobs=-1,
                                        oob_score=False, random_state=10001,
                                        verbose=0, warm_start=False))],
         verbose=False)

Pipeline(memory=FastMemory(location=/tmp/joblib),

steps=[('numerical_imputer',

TransformerWrapper(exclude=None,

include=['LIMIT_BAL', 'SEX', 'EDUCATION',

'MARRIAGE', 'AGE', 'PAY_1',

'PAY_2', 'PAY_3', 'PAY_4', 'PAY_5',

'PAY_6', 'BILL_AMT1', 'BILL_AMT2',

'BILL_AMT3', 'BILL_AMT4',

'BILL_AMT5', 'BILL_AMT6',

'PAY_AMT1', 'PAY_AMT2', 'PAY_AMT3',

'PAY_AMT4', 'PAY_AMT5',

'PAY_AMT6'...

RandomForestClassifier(bootstrap=True, ccp_alpha=0.0,

class_weight={}, criterion='entropy',

max_depth=6, max_features=1.0,

max_leaf_nodes=None, max_samples=None,

min_impurity_decrease=0,

min_samples_leaf=3, min_samples_split=9,

min_weight_fraction_leaf=0.0,

n_estimators=240, n_jobs=-1,

oob_score=False, random_state=10001,

verbose=0, warm_start=False))],

verbose=False)

Hacemos la predicción con el modelo final:

predict_model(final_rf)

1	predict_model(final_rf)

Hacemos la predicción con los datos iniciales almacenados en data_unseen (el dataset de 1.200 registros para pruebas):

unseen_predictions = predict_model(final_rf, data = data_unseen)
unseen_predictions.head()

1 2	unseen_predictions = predict_model(final_rf, data = data_unseen) unseen_predictions.head()

Generamos y guardamos en fichero el modelo final, listo para usarse en cualquier momento:

from pycaret.utils.generic import check_metric

check_metric(unseen_predictions.default, unseen_predictions.prediction_label, "Accuracy")
save_model(final_rf, "Modelo final")

from pycaret.utils.generic import check_metric

check_metric(unseen_predictions.default, unseen_predictions.prediction_label, "Accuracy")

save_model(final_rf, "Modelo final")

Devolviendo:

Transformation Pipeline and Model Successfully Saved
(Pipeline(memory=FastMemory(location=/tmp/joblib),
          steps=[('numerical_imputer',
                  TransformerWrapper(exclude=None,
                                     include=['LIMIT_BAL', 'SEX', 'EDUCATION',
                                              'MARRIAGE', 'AGE', 'PAY_1',
                                              'PAY_2', 'PAY_3', 'PAY_4', 'PAY_5',
                                              'PAY_6', 'BILL_AMT1', 'BILL_AMT2',
                                              'BILL_AMT3', 'BILL_AMT4',
                                              'BILL_AMT5', 'BILL_AMT6',
                                              'PAY_AMT1', 'PAY_AMT2', 'PAY_AMT3',
                                              'PAY_AMT4', 'PAY_AMT5',
                                              'PAY_AMT6'...
                  RandomForestClassifier(bootstrap=True, ccp_alpha=0.0,
                                         class_weight={}, criterion='entropy',
                                         max_depth=6, max_features=1.0,
                                         max_leaf_nodes=None, max_samples=None,
                                         min_impurity_decrease=0,
                                         min_samples_leaf=3, min_samples_split=9,
                                         min_weight_fraction_leaf=0.0,
                                         n_estimators=240, n_jobs=-1,
                                         oob_score=False, random_state=10001,
                                         verbose=0, warm_start=False))],
          verbose=False),
 'Modelo final.pkl')

Transformation Pipeline and Model Successfully Saved

(Pipeline(memory=FastMemory(location=/tmp/joblib),

steps=[('numerical_imputer',

TransformerWrapper(exclude=None,

include=['LIMIT_BAL', 'SEX', 'EDUCATION',

'MARRIAGE', 'AGE', 'PAY_1',

'PAY_2', 'PAY_3', 'PAY_4', 'PAY_5',

'PAY_6', 'BILL_AMT1', 'BILL_AMT2',

'BILL_AMT3', 'BILL_AMT4',

'BILL_AMT5', 'BILL_AMT6',

'PAY_AMT1', 'PAY_AMT2', 'PAY_AMT3',

'PAY_AMT4', 'PAY_AMT5',

'PAY_AMT6'...

RandomForestClassifier(bootstrap=True, ccp_alpha=0.0,

class_weight={}, criterion='entropy',

max_depth=6, max_features=1.0,

max_leaf_nodes=None, max_samples=None,

min_impurity_decrease=0,

min_samples_leaf=3, min_samples_split=9,

min_weight_fraction_leaf=0.0,

n_estimators=240, n_jobs=-1,

oob_score=False, random_state=10001,

verbose=0, warm_start=False))],

verbose=False),

'Modelo final.pkl')

En caso de querer cargar este modelo en otro equipo o en otra ocasión, ejecutaríamos la siguiente línea (disponiendo del fichero del modelo generado anteriormente):

saved_final_ref = load_model("Modelo final")
new_prediction = predict_model(saved_final_ref, data = data_unseen)
new_prediction.head()

saved_final_ref = load_model("Modelo final")

new_prediction = predict_model(saved_final_ref, data = data_unseen)

new_prediction.head()

Código Python completo del ejemplo de ciencia de datos automatizada

El código Python completo usado anteriormente:

from pycaret.datasets import get_data

dataset = get_data("credit")
dataset.shape

data = dataset.sample(frac=0.95, random_state=786).reset_index(drop=True)
data_unseen = dataset.drop(data.index).reset_index(drop=True)
print("Datos para el modelo: " + str(data.shape))
print("Datos no visible para predicción: " + str(data_unseen.shape))

from pycaret.classification import *
exp_clf101 = setup(data = data, target = "default", session_id=10001)
best_model = compare_models()
print(best_model)

models()

best_model = compare_models()

dt = create_model("dt")
print(dt)

knn = create_model("knn")
print(knn)

rf = create_model("rf")
print(rf)

tuned_dt = tune_model(dt)
print(dt)
print(tuned_dt)

import numpy as np
tuned_knn = tune_model(knn, custom_grid = {"n_neighbors":np.arange(0, 50, 1)})
print(knn)
print(tuned_knn)
tuned_rf = tune_model(rf)
print(rf)
print(tuned_rf)

plot_model(tuned_rf, plot = "auc")
plot_model(tuned_rf, plot = "pr")
plot_model(tuned_rf, plot = "feature")
plot_model(tuned_rf, plot = "confusion_matrix")

evaluate_model(tuned_rf)
predict_model(tuned_rf)
final_rf = finalize_model(tuned_rf)
print(final_rf)
predict_model(final_rf)

unseen_predictions = predict_model(final_rf, data = data_unseen)
unseen_predictions.head()

from pycaret.utils.generic import check_metric
check_metric(unseen_predictions.default, unseen_predictions.prediction_label, "Accuracy")

save_model(final_rf, "Modelo final")
saved_final_ref = load_model("Modelo final")
new_prediction = predict_model(saved_final_ref, data = data_unseen)
new_prediction.head()

from pycaret.datasets import get_data

dataset = get_data("credit")

dataset.shape

data = dataset.sample(frac=0.95, random_state=786).reset_index(drop=True)

data_unseen = dataset.drop(data.index).reset_index(drop=True)

print("Datos para el modelo: " + str(data.shape))

print("Datos no visible para predicción: " + str(data_unseen.shape))

from pycaret.classification import *

exp_clf101 = setup(data = data, target = "default", session_id=10001)

best_model = compare_models()

print(best_model)

models()

best_model = compare_models()

dt = create_model("dt")

print(dt)

knn = create_model("knn")

print(knn)

rf = create_model("rf")

print(rf)

tuned_dt = tune_model(dt)

print(dt)

print(tuned_dt)

import numpy as np

tuned_knn = tune_model(knn, custom_grid = {"n_neighbors":np.arange(0, 50, 1)})

print(knn)

print(tuned_knn)

tuned_rf = tune_model(rf)

print(rf)

print(tuned_rf)

plot_model(tuned_rf, plot = "auc")

plot_model(tuned_rf, plot = "pr")

plot_model(tuned_rf, plot = "feature")

plot_model(tuned_rf, plot = "confusion_matrix")

evaluate_model(tuned_rf)

predict_model(tuned_rf)

final_rf = finalize_model(tuned_rf)

print(final_rf)

predict_model(final_rf)

unseen_predictions = predict_model(final_rf, data = data_unseen)

unseen_predictions.head()

from pycaret.utils.generic import check_metric

check_metric(unseen_predictions.default, unseen_predictions.prediction_label, "Accuracy")

save_model(final_rf, "Modelo final")

saved_final_ref = load_model("Modelo final")

new_prediction = predict_model(saved_final_ref, data = data_unseen)

new_prediction.head()

Automatización de datos con Python y Pycaret

Instalación de librería pycaret en Python

AutoML con Python y pycaret, predicción de datos, ciencia de datos automática

Código Python completo del ejemplo de ciencia de datos automatizada

Sobre el autor

alonsojpd

Comentar Cancelar la respuesta

Sesión

Videotutoriales

Post foros

Respuestas foros

Descargas

Código fuente Python del ejercicio resuelto de web scraping

Código fuente Python del ejercicio resuelto de sockets

Código fuente Python del ejercicio resuelto de expresiones regulares y lectura de ficheros de texto

Código fuente Python del ejercicio resuelto de escritura y lectura de ficheros de texto

Proyecto A Obtener Procesos WMI en CSharp de Visual Studio .NET

Wiki

Descarga de la IOS de Cisco para router C7200 c7200-advipservicesk9-mz.152-4.S5.bin

Descarga de la IOS de Cisco para router C3725 c3725-adventerprisek9-mz.124-25d.bin

Turbo Pascal 7.0

BDE Borland Database Engine 5.2

ProyectoA Envío email TLS SSL v.1.6.8.69 con código fuente completo en Delphi 6

Indy Internet Direct 10.0.52 source code para instalar en Delphi desde 4 a 8 .Net XE RAD Studio C++Builder

Driver/Controlador en formato ZIP con el XML y el VIB para VMware ESXi de NIC Realtek RTL8168

Proyecto y aplicación web en Django de Python de sitio web completo para eliminar modificar y crear contactos en BD MySQL MariaDB

AjpdSoft Generador y Lector códigos QR Código Fuente VB Net

Ejemplo contenido fichero my.ini de MySQL en instalación sobre Windows con AppServ en unidad D

Automatización de datos con Python y Pycaret

Instalación de librería pycaret en Python

AutoML con Python y pycaret, predicción de datos, ciencia de datos automática

Código Python completo del ejemplo de ciencia de datos automatizada

Sobre el autor

Entradas relacionadas

Comentar Cancelar la respuesta

Sesión

Videotutoriales

Post foros

Respuestas foros

Descargas

Wiki

Etiquetas