Data Mining
El Data Mining o Minería de Datos es un método utilizado para descubrir patrones y relaciones interesantes dentro de grandes conjuntos de datos, lo que se denomina datos masivos o Big Data y normalmente se asocia al aprendizaje automático o Machine Learning.
Este método utiliza una serie de técnicas, algoritmos, lenguajes y herramientas para analizar grandes cantidades de datos y extraer información útil y relevante.
Existen una serie de técnicas utilizadas en Data mining. La categorización de estas técnicas se podría dividir en clasificación, segmentación, regresión y asociación.
Las técnicas de clasificación se utilizan para asignar un objeto o instancia a una clase o categoría previamente definida. La idea es crear un modelo predictivo que pueda identificar la clase correcta de un objeto desconocido en función de ciertas características o atributos.
Los algoritmos utilizados en la clasificación pueden ser supervisados o no supervisados, lo que significa que pueden requerir o no de un conjunto de datos de entrenamiento etiquetado.
Los ejemplos más comunes de algoritmos de clasificación son los árboles de decisión, la regresión logística, K-Nearest Neighbors o vecinos más cercanos también denominado KNN por sus siglas en inglés, los bosques aleatorios o Random Forest, el Support Vector Machine o SVM y Naive Bayes.
Por otro lado, las técnicas de segmentación se utilizan para dividir un conjunto de datos en grupos o segmentos homogéneos basados en ciertos criterios de similitud.
El objetivo es identificar patrones y relaciones entre los objetos en un conjunto de datos. Los algoritmos de segmentación son no supervisados, lo que significa que no se requieren clases predefinidas.
Los algoritmos más comunes en este grupo son el K-Means, el agrupamiento jerárquico y el análisis de componentes principales o PCA.
En cuanto a las técnicas de regresión, son utilizadas para predecir una variable numérica continua en función de una o más variables independientes. La idea es encontrar una relación matemática entre las variables que se puedan utilizar para predecir el valor de la variable dependiente.
Los algoritmos de regresión son supervisados y pueden ser lineales en los que estaría la regresión lineal o no lineales donde tendríamos la regresión polinómica, los árboles de decisión y las redes neuronales.
Por último, tendríamos las técnicas de asociación que se utilizan para encontrar patrones o relaciones interesantes entre los objetos en un conjunto de datos. La idea es descubrir qué elementos tienden a aparecer juntos y con qué frecuencia.
Los algoritmos de asociación son no supervisados y se basan en la frecuencia de co-ocurrencia. El ejemplo más común de algoritmo de asociación es el A priori pero también tenemos el FP-Growth y Eclat.
En cuanto a las herramientas o lenguajes utilizados en la minería de datos, existen tanto soluciones open source como con licencia.
Algunas de las herramientas o lenguajes más populares de código abierto u open source serían R, Python y Weka.
Con respecto a las herramientas de Data mining comerciales o de pago, algunas de las más populares son IBM SPSS, SAS y Oracle Data Mining.