Lectura de datos
- Leer y escribir:
- Obtener datos d:
Limpieza y tratamiento de datos
- Preprocesado de datos
- Manipulación de datos con dplyr (forma simple)
- Funciones de resumen de datos: apply, lapply, sapply, tapply, mapply y vapply
- Expresiones regulares
- Validación Cruzada
- Unir dataframes
Análisis descriptivo de datos
- Visualización básica de datos str, head, tail, table(contar elementos categóricos), tablas de contingencias
- Resumir informacion (sumarizar) frecuencias de aparición
- Correlación entre variables cov(), pairs.panels(), chart.Correlation()
Gráficos
- Gráficos básicos plot, hist, pie, plot3d, points, lines, abline, text
- Expresiones matemáticas en gráficos
- Tipos de gráficos (tendencia, distribución, comparación y partes del total)
- Gráficos avanzados (con ggplot2) barras, quesitos, dispersión, velas japonesas, barras laterales categorizadas y mapas de calor
- Mapas de agrupamiento por zoom, círculos de colores y tamaños y coloreado de países
Estructuras de datos
Desarrollo de aplicaciones
Web dinámicas con Shiny
- Cuadro de mando (Dashboard) – app.R
- Cuadro de mando dinámico (Dashboard) – ui.R/server.R
- Visualizar caracteres especiales
- Ocultar elementos
Markdown – Notebook
- Instalar el visualizador de RStudio rmarkdown para ficheros .rmd
- Definir la estructura de ficheros Markdown
- Convertir documentos a PDF
- Cachear bloques de código para reducir tiempos
Analítica de datos
Métodos de estadísticos de Dependencia
- Cuantificador Bayesiano Ingenuo
- Regresión Logística
- Análisis discriminante
- AdaBoost
- Arboles de Clasificación
- Redes Neuronales
- Random Forest
- Bagging
- SVM – Suport Vector Machine
- Regresión Lineal Univariante
- Regresión Lineal Multivariante
- ANOVA
- MANOVA
Métodos de estadísticos de Interdependencia
- Análisis de componentes principales.
- Análisis Factorial.
- Escalamiento Multidimensional.
- Análisis de Correspondencias (Simple y Múltiple).
- Análisis Clúster Jerárquico
- Análisis Clúster No Jerárquico (Ejemplo 1, Ejemplo 2)
Muestreo
- Función sample: Distribución personalizada
- Función runif: Distribución uniforme
- Función rnorm: Distribución normal
Otros
- Control de Versiones GIT/SVN
- Funciones
- Parsear JSON a CSV
- Generar ficheros de Logs
- Cambiar la zona horaria utilizada
- Ver las múltiples versiones de R instaladas
- Estadísticos principales
- Series temporales
- Cálculo de outliers: Distancia Gauss y Mahalanobis
- Cálculo de la ganancia de información
- Apriori
- Compresión de imágenes mediante PCA
- Análisis de textos: Construcción de la Matriz de términos
- Optimización de precios (pricing)
- Instalación de RStudio Server en Hortonworks HDP
- Instalar y borrar paquetes
- Modelo de prediccion de fallos.
Nota: Entorno de desarrollo recomendado RStudio
(y)