Mineria de datos con Jupyter Notebook

¡Supera tus tareas y exámenes ahora con Quizwiz!

pandas

Biblioteca que permite el análisis de datos a través de series y «dataframes».

anaconda linux python 2.7

$ bash Anaconda2-4.4.0-Linux-x86_64.sh // Pesa como 450 Mb //

pandas

Es una herramienta inventada en una empresa de inversión financiera que se ha convertido en una biblioteca de código abierto de acceso y análisis de datos en muchos campos diferentes.

source Proyecto2-Mineria/bin/activate

Activamos (/bin/activate) con el comando SOURCE el "Proyecto2-Mineria" creado previamente con virtualEnv, aislándolo de Python. Digamos un proyecto independiente, ¿Que versión es? $ which python NOTA: siempre se debe activar para trabajarlo.

anaconda

Anaconda es un freemium de código abierto la distribución de los lenguajes de programación Python y R para el procesamiento de datos a gran escala, análisis predictivo, y la computación científica, que tiene como objetivo simplificar la gestión de paquetes y el despliegue. Las versiones de paquetes son gestionadas por el sistema de gestión de paquetes conda. Es recomendable para principiantes instalar http://www.continuum.io

git config --global user.email "[email protected]" git config --global user.name "Mi nombre"

Configurar el CLI de github, para identificar todo lo que publico en gitHub.com

Curso de $800 dolares

Course Outline Python, probability and statistics concepts: 1. Overview, Environment Setup/Test and Basic Syntax. 2. Variable Types, Basic Operators, Decision Making and Loops. 3. Lists, Tuples, Dictionary and Files I/O. 4. Functions, Modules, Classes and Exceptions Handling. 5. MySQL Database Access and CRUD Operations. 6. Numerical Descriptive Measures and Basic Probability. 7. The Normal Distribution and Other Continuous Distributions. 8. Linear and Non-linear Regression Analysis.

virtualenv Proyecto2-Mineria

Ejemplo de como crear entorno virtual de nombre "Proyecto2-Mineria"

jupyter qtconsole

Entramos vía GUI en nuestro entorno de análisis de datos, modo aplicación de escritorio gráfico

git

Es un programa de control de versiones para guardar los cambios que realices en archivos a lo largo del tiempo. Es útil cuando estás trabajando por tu cuenta, pero rápidamente se convierte en esencial con grandes proyectos de software, especialmente cuando trabajas con otros.

sudo pip install virtualenv

Es una herramienta para crear entornos Python aislados. El problema básico que se está tratando es una de las dependencias y versiones, e indirectamente los permisos, esto comando se instalará en nuestro sistema. Para crear un proyecto solo ejecutamos "$ virtualenv Proyecto2-Mineria"

jupyter notebook

Genera un URL para acceder a nuestro web http://127.0.0.1:8888 y trabajar nuestro análisis de datos, pero solo en nuestro computadoras no compartimos Jupyter Notebook, es personal. Ejemplo de Link: http://localhost:8888/?token=8bcd28ee48103fa1a4868dc0ebbebced21153eba7fd44314

pip jupyter pyp freeze

Instala Jupyter en nuestro virtualEnv y verificamos que esta instalado.

conda install numpy

Instalar (y actualizar) librerías de python dentro de Anaconda/Jupyter. Comando "conda" es el gestor paquetes

pip install pandas

Instalar libreria pandas (dentro de virtualEnv)

dataframe

Marco de datos o ______________ (en inglés) es una estructura de datos etiquetada bidimensional con columnas de tipos potencialmente diferentes. Usted puede pensar en él como una hoja de cálculo o tabla de SQL, o un diccionario de objetos de la serie. Es generalmente el objeto pandas más comúnmente utilizado.

jupyter notebook --generate-config

Para configurar nuestro Notebook, debemos editar el archivo que despliega al terminar el comando, ver guia de usuario para configurar correctamente.

my_series.describe()

Respuesta dentro de Jupyter, pandas detalla datos estadisticos de "my.series" como ejemplo en una celda.

jupyter

Se comprone de 3 siglas de lenguajes: JUlian, PYthon y lEnguaje R

. bin/activate

Si ya estamos detro de nuestro directorio virtualEnv solo activarlo en directo

virtualenv

_________ mantiene sus paquetes Python en un entorno virtual localizado en su proyecto, en lugar de obligarle a instalar sus paquetes en todo el sistema. Ejemplo Puede tener varios ___________, por lo que puede tener varios conjuntos de paquetes que para diferentes proyectos, incluso si esos conjuntos de paquetes normalmente entran en conflicto entre sí. Por ejemplo, si un proyecto en el que está trabajando se ejecuta en Django 1.4 y otro se ejecuta en Django 1.6, virtualenvs puede mantener esos proyectos completamente separados por lo que puede satisfacer ambos requisitos a la vez.

analisis predictivo

agrupa una variedad de técnicas estadísticas de modelización, aprendizaje automático y minería de datos que analiza los datos actuales e históricos reales para hacer predicciones acerca del futuro o acontecimientos no conocidos.

scipy

biblioteca open source de herramientas y algoritmos matemáticos para Python que nació a partir de la colección original de Travis Oliphant que consistía de módulos de extensión para Python

matplotlib

biblioteca para la generación de gráficos a partir de datos contenidos en listas o arrays en el lenguaje de programación Python y su extensión matemática NumPy. Proporciona una API, pylab, diseñada para recordar a la de MATLAB.

ipython

comando de consola shell para modo interactivo de Jupyter Notebook

objetivo mineria de datos

consiste en extraer información de un conjunto de datos y transformarla en una estructura comprensible para su uso posterior. Además de la etapa de análisis en bruto, que involucra aspectos de bases de datos y de gestión de datos, de procesamiento de datos, del modelo y de las consideraciones de inferencia, de métricas de Intereses, de consideraciones de la Teoría de la complejidad computacional, de post-procesamiento de las estructuras descubiertas, de la visualización y de la actualización en línea.

jupyter notebook

documento JSON que contiene una lista ordenada de entradas / salidas las cuales pueden tener código, texto, matemáticas, dibujos y rich media. Los notebooks de IPython pueden ser convertidos a otros formatos de archivos como HTML, presentaciones de diapositivas, LaTeX, PDF, Python, etc)

mineria de datos

es un campo de la estadística y las ciencias de la computación referido al proceso que intenta descubrir patrones en grandes volúmenes de conjuntos de datos.

python

es un lenguaje de programación interpretado cuya filosofía hace hincapié en una sintaxis que favorezca un código legible. Se trata de un lenguaje de programación multiparadigma, ya que soporta orientación a objetos, programación imperativa y, en menor medida, programación funcional. Es un lenguaje interpretado, usa tipado dinámico y es multiplataforma.

web scraping

esta enfoca más en la transformación de datos sin estructura en la web en datos estructurados que pueden ser almacenados y analizados en una base de datos central, en una hoja de cálculo o en alguna otra fuente de almacenamiento.

ipython

está basado en una arquitectura que suministra computación distribuida y en paralelo. ________ permite la ejecución de aplicaciones en paralelo, pudiéndose estas desarrollar, ejecutar, depurar y ser monitoreadas interactivamente. Es por esto que el nombre de ________ toma la letra I del inicio, como referencia a interactivo. La arquitectura abstrae situaciones en paralelo, lo que permite a ________ dar soporte a múltiples tipos de computación en paralelo.

numpy

extensión de Python, que le agrega mayor soporte para vectores y matrices, constituyendo una biblioteca de funciones matemáticas de alto nivel para operar con esos vectores o matrices. import _________ from matplotlib import pyplot x = __________.linspace(0, 2 * _______.pi, 100) y = ________.sin(x) pyplot.plot(x, y) pyplot.show()

datos = pd.read_csv('http://archivodeextension.csv')

importa del web archivo dataset en formato CSV (demilitado por comas) exportado por base de datos, y se lo pasa a "datos" variable

web scraping

la comparación de precios en tiendas, la monitorización de datos relacionados con el clima de cierta región, la detección de cambios en sitios webs y la integración de datos en sitios webs.

ipython

shell interactivo que añade funcionalidades extra al modo interactivo incluido con Python, como resaltado de líneas y errores mediante colores, una sintaxis adicional para el shell, autocompletado mediante tabulador de variables, módulos y atributos; entre otras funcionalidades. Es un componente del paquete SciPy

import pandas as pd

un atajo al importar una libreria, por ejemplo aqui esta "pandas" se renombra a "pd", es un estandard

mineria de datos

utiliza los métodos de la inteligencia artificial, aprendizaje automático, estadística y sistemas de bases de datos.


Conjuntos de estudio relacionados

Chapter 9. Nursing Care of Patients in Shock

View Set

Accident and Health Exam Ch 11-17

View Set