machine-learning Tutorial
Empezando con el aprendizaje automático.
Buscar..
Observaciones
El aprendizaje automático es la ciencia (y el arte) de la programación de computadoras para que puedan aprender de los datos.
Una definición más formal:
Es el campo de estudio que le da a las computadoras la capacidad de aprender sin ser programadas explícitamente. Arthur Samuel, 1959
Una definición más orientada a la ingeniería:
Se dice que un programa de computadora aprende de la experiencia E con respecto a alguna tarea T y alguna medida de desempeño P, si su desempeño en T, medido por P, mejora con la experiencia E. Tom Mitchell, 1997
Fuente: “Aprendizaje automático con Scikit-Learn y TensorFlow por Aurélien Géron (O'Reilly). Derechos de autor 2017 Aurélien Géron, 978-1-491-96229-9. "
El aprendizaje automático (MA) es un campo de la informática que surgió de la investigación en inteligencia artificial. La fuerza del aprendizaje automático sobre otras formas de análisis radica en su capacidad para descubrir ideas ocultas y predecir resultados de futuros, insumos ocultos (generalización). A diferencia de los algoritmos iterativos donde las operaciones se declaran explícitamente, los algoritmos de aprendizaje automático toman prestados conceptos de la teoría de la probabilidad para seleccionar, evaluar y mejorar los modelos estadísticos.
Instalación o configuración utilizando Python
1) scikit aprender
scikit-learn es un módulo de Python para aprendizaje automático construido sobre SciPy y distribuido bajo la licencia BSD de 3 cláusulas. Cuenta con varios algoritmos de clasificación, regresión y agrupamiento, que incluyen máquinas de vectores de soporte, bosques aleatorios, aumento de gradiente, k-means y DBSCAN, y está diseñado para interactuar con las bibliotecas numéricas y científicas de Python, NumPy y SciPy.
La versión estable actual de scikit-learn requiere :
- Python (> = 2.6 o> = 3.3),
- NumPy (> = 1.6.1),
- Ciencia ficción (> = 0.9).
Durante la mayor instalación pip
gestor de paquetes Python puede instalar Python y todas sus dependencias:
pip install scikit-learn
Sin embargo, para los sistemas Linux, se recomienda utilizar el conda
paquetes conda
para evitar posibles procesos de compilación.
conda install scikit-learn
Para verificar que tiene scikit-learn
, ejecute en shell:
python -c 'import sklearn; print(sklearn.__version__)'
Instalación de Windows y Mac OSX:
Canopy y Anaconda entregan una versión reciente de scikit-learn , además de un amplio conjunto de bibliotecas científicas de Python para Windows, Mac OSX (también relevante para Linux).
Repo de código fuente oficial: https://github.com/scikit-learn/scikit-learn
2) Plataforma Numenta para Computación Inteligente.
La Plataforma Numenta para Computación Inteligente (NuPIC) es una plataforma de inteligencia de máquina que implementa los algoritmos de aprendizaje HTM. HTM es una teoría computacional detallada del neocórtex. En el núcleo de HTM se encuentran los algoritmos de aprendizaje continuo basados en el tiempo que almacenan y recuperan patrones espaciales y temporales. NuPIC es adecuado para una variedad de problemas, en particular la detección de anomalías y la predicción de fuentes de datos de transmisión.
Los binarios de NuPIC están disponibles para:
Linux x86 64bit
OS X 10.9
OS X 10.10
Windows 64bit
Se requieren las siguientes dependencias para instalar NuPIC en todos los sistemas operativos.
- Python 2.7
- pip> = 8.1.2
- setuptools> = 25.2.0
- rueda> = 0.29.0
- adormecido
- Compilador de C ++ 11 como gcc (4.8+) o clang
Requisitos adicionales de OS X:
- Herramientas de línea de comandos de Xcode
Ejecute lo siguiente para instalar NuPIC:
pip install nupic
Repo de código fuente oficial: https://github.com/numenta/nupic
3) nilearn
Nilearn es un módulo de Python para el aprendizaje estadístico rápido y fácil de los datos de NeuroImaging. Aprovecha la caja de herramientas Python de scikit-learn para estadísticas multivariadas con aplicaciones tales como modelado predictivo, clasificación, decodificación o análisis de conectividad.
Las dependencias requeridas para utilizar el software son:
- Python> = 2.6,
- herramientas de configuración
- Numpy> = 1.6.1
- Ciencia ficción> = 0.9
- Scikit-learn> = 0.14.1
- Nibabel> = 1.1.0
Si está utilizando las funcionalidades de trazado de nilearn o ejecutando los ejemplos, se requiere matplotlib> = 1.1.1.
Si desea ejecutar las pruebas, necesita nose> = 1.2.1 y cobertura> = 3.6.
Primero asegúrese de haber instalado todas las dependencias enumeradas anteriormente. Luego, puede instalar nilearn ejecutando el siguiente comando en un símbolo del sistema:
pip install -U --user nilearn
Repo de código fuente oficial: https://github.com/nilearn/nilearn/
4) Usando Anaconda
Muchas bibliotecas científicas de Python están disponibles en Anaconda. Puedes obtener los archivos de instalación desde aquí . Por un lado, al usar Anaconda, no tiene que instalar ni configurar muchos paquetes, tiene licencia BSD y tiene un proceso de instalación trivial, disponible para Python 3 y Python 2, mientras que, por otro lado, le brinda menos flexibilidad. Como ejemplo, algunos paquetes de Python de aprendizaje profundo del estado de la técnica podrían usar una versión diferente de numpy que Anaconda instalada. Sin embargo, este inconveniente puede tratarse utilizando otra instalación de Python por separado (por ejemplo, en Linux y MAC, su predeterminada).
La configuración de Anaconda le solicita la selección de la ubicación de la instalación y también la opción de adición PATH. Si agrega Anaconda a su RUTA, se espera que su sistema operativo encuentre Anaconda Python como predeterminado. Por lo tanto, las modificaciones y futuras instalaciones estarán disponibles solo para esta versión de Python.
Para dejarlo claro, después de la instalación de Anaconda y lo agrega a PATH, use Ubuntu 14.04 a través de la terminal si escribe
python
Voila, Anaconda Python es su Python predeterminado, puede comenzar a disfrutar de muchas bibliotecas de inmediato. Sin embargo, si quieres usar tu antiguo Python
/usr/bin/python
En resumen, Anaconda es una de las maneras más rápidas de comenzar el aprendizaje automático y el análisis de datos con Python.
Instalación o configuración utilizando R Language
Los paquetes son colecciones de funciones R, datos y código compilado en un formato bien definido. Los repositorios públicos (y privados) se utilizan para alojar colecciones de paquetes R. La mayor colección de paquetes de R está disponible en CRAN. Algunos de los paquetes de aprendizaje automático de R más populares son, entre otros, los siguientes:
1) rpart
Descripción: Partición recursiva para árboles de clasificación, regresión y supervivencia. Una implementación de la mayor parte de la funcionalidad del libro de 1984 de Breiman, Friedman, Olshen y Stone.
Se puede instalar desde CRAN usando el siguiente código:
install.packages("rpart")
Cargue el paquete:
library(rpart)
Fuente oficial: https://cran.r-project.org/web/packages/rpart/index.html
2) e1071
Descripción: Funciones para el análisis de clases latentes, transformada de Fourier de tiempo corto, agrupamiento difuso, máquinas de vectores de soporte, cálculo de la ruta más corta, agrupamiento empaquetado, clasificador de Bayes ingenuo, etc.
Instalación desde CRAN:
install.packages("e1071")
Cargando el paquete:
library(e1071)
Fuente oficial: https://cran.r-project.org/web/packages/e1071/index.html
3) randomForest
Descripción: Clasificación y regresión basada en un bosque de árboles usando entradas aleatorias.
Instalación desde CRAN:
install.packages("randomForest")
Cargando el paquete:
library(randomForest)
Fuente oficial: https://cran.r-project.org/web/packages/randomForest/index.html
4) caret
Descripción: Funciones misceláneas para entrenamiento y trazado de modelos de clasificación y regresión.
Instalación desde CRAN:
install.packages("caret")
Cargando el paquete:
library(caret)
Fuente oficial: https://cran.r-project.org/web/packages/caret/index.html