Introducción a HDInsight para Windows Azure

| 2013-04-22 | 0 Comments

Microsoft ofrece a traves de Windows Azure un servicio de “Big Data” basado en Hadoop. Ven y conoce más de la estrategia de Microsoft sobre Big Data aqui http://www.microsoft.com/bigdata

Resumen

HDInsight servicios de Windows Azure es un servicio que implementa y disposiciones ™ ™ de Apache Hadoop racimos en la nube, proporcionando un marco de software diseñado para gestionar, analizan e informar sobre big data.

Datos se describen como “big data” para indicar que se está recogiendo en siempre crecientes volúmenes, a velocidades cada vez más altas y por una creciente variedad de formatos no estructurados y contextos semánticos variables. Recopilación de datos grande no proporciona valor a una empresa por cuenta propia. Para que big data proporcionar valor en forma de inteligencia o conocimiento, debe ser accesible, limpia, analizado y luego presentó una manera útil, a menudo en combinación con datos de otras fuentes.

Apache Hadoop es un framework de software que facilita el análisis y gestión de datos grande. Apache Hadoop core proporciona almacenamiento de datos fiable con el sistema de archivos distribuido Hadoop (HDFS) y un modelo de programación simple de MapReduce para procesar y analizar paralelamente los datos almacenados en este sistema distribuido. HDFS utiliza la replicación de datos para abordar cuestiones de falta de hardware que surgen al implementar tales sistemas altamente distribuidos.

Para simplificar la complejidad del análisis de datos no estructurados de diversas fuentes, el modelo de programación de MapReduce proporciona una abstracción de la base que proporciona el cierre para mapa y reduce las operaciones. El modelo de programación de MapReduce vistas todas sus tareas como cómputos sobre conjuntos de datos del par de clave y valor. Así tanto de entrada y salida archivos deben contener tales conjuntos de datos del par de clave y valor. Otros proyectos relacionados con Hadoop tales como cerdo y colmena se construyen en la parte superior HDFS y el marco de MapReduce, proporcionando mayores niveles de abstracción tales como flujo de datos control y consulta, así como funcionalidad adicional, como el almacenamiento y la minería, necesario para integrar el análisis de datos grandes y administración end-to-end.

HDInsight servicios de Windows Azure hace Apache Hadoop disponible como un servicio en la nube. Es el marco de software HDFS/MapReduce y proyectos relacionados disponibles en un entorno eficiente más simple, más escalable y costo. Para simplificar la configuración y ejecuta trabajos de Hadoop y administración de los grupos desplegados, Microsoft proporciona JavaScript y colmena consolas interactivas. Esto simplifica JavaScript enfoque permite que los profesionales y un grupo más amplio de desarrolladores para ocuparse de análisis y gestión de datos grande al ofrecer una vía más accesible para ellos en el marco de Hadoop.

Además de los proyectos disponibles ecosistema relacionados con el Apache Hadoop, servicios de HDInsight para Windows Azure también ofrece controladores de conectividad abierta de bases de datos (ODBC) para integrar herramientas de Business Intelligence (BI) como Excel, SQL Server Analysis Services y Reporting Services, facilitar y simplificar el análisis de datos end-to-end.

Este tema describe los servicios de Windows Azure, HDInsight, los principales escenarios para usar Hadoop en Windows Azure y ofrece un recorrido por el tablero de instrumentos de HDInsight servicios de Windows Azure. Contiene las siguientes secciones:

Big data: volumen, velocidad, variedad y variabilidad

No puede manejar o procesar grandes datos RDBMS convencional por volúmenes de datos grandes son demasiado grandes, o porque los datos llegan a muy alta velocidad, o porque la variedad de estructuras de datos y variabilidad semántica no caben arquitecturas de bases de datos relacionales.

Volumen
La solución para big data Hadoop responde a dos tendencias divergentes. Por un lado, porque la capacidad de los discos duros ha seguido aumentando dramáticamente durante los últimos 20 años, grandes cantidades de nuevos datos generados por sitios web y por el nuevo dispositivo y generaciones de instrumentación conectadas a Internet, puede ser almacenado. Además, se automatiza el seguimiento de la conducta en línea de todo el mundo. Por otra parte, velocidades de acceso de datos en esas unidades de capacidad más grandes no han mantenido ritmo, para leer de y escribir en discos muy grandes son demasiado lento.

La solución para este cuello de botella de ancho de banda de red tiene dos características principales. En primer lugar, HDFS proporciona un tipo de arquitectura distribuida que almacena datos en varios discos con disco paralelo habilitado leyendo. En segundo lugar, mover cualquier requisito computacional de procesamiento de datos para el nodo de almacenamiento de datos, que permite el acceso a los datos locales como sea posible. El rendimiento mejorado de MapReduce depende de este principio de diseño conocida como localidad de datos. La idea ahorra ancho de banda por programas hacia los datos, en lugar de datos a los programas, dando por resultado el modelo de programación de MapReduce escala linealmente con el tamaño del conjunto de datos. Un aumento en el tamaño del clúster proporcionalmente con el volumen de datos procesados, el trabajo se ejecuta en más o menos la misma cantidad de tiempo.

Velocidad
La tasa en que datos se está volviendo disponibles para las organizaciones ha seguido una tendencia muy similar al descrita creciente volumen de datos, y es impulsado por registro de comportamiento mayor ecommerce clickstream consumidor y datos asociados sociales redes como Facebook y Twitter. Proliferación de dispositivo de smartphones y tablets ha aumentado drásticamente la tasa de generación de datos en línea. Juegos en línea y la instrumentación científica también generan flujos de datos a velocidades que RDBMS tradicionales no son capaces de hacer frente. Asegurar una ventaja competitiva en las actividades comerciales y juegos de azar requiere respuestas rápidas, así como resultados de análisis de datos rápida. Estos flujos de datos de alta velocidad con bucles de retroalimentación apretado requieren un enfoque de NoSQL como de Hadoop optimizado para la recuperación y almacenamiento rápido.

Variedad
Más datos generados están desordenados. Datos diversas fuentes no proporcionan una estructura estática que permite la gestión oportuna de RDBMS tradicional. Datos de redes sociales, por ejemplo, están típicamente basadas en texto teniendo una gran variedad de formas que no pueden quedar fijada en el tiempo. Datos de imágenes y sensores alimenta presentes retos similares. Este tipo de datos no estructurados requiere un sistema flexible de NoSQL como Hadoop que permite proporcionar una estructura suficiente para los datos entrantes, almacenar sin necesidad de un esquema exacto. Limpieza de datos no estructurados es una parte importante de procesamiento necesaria para preparar los datos no estructurados para su uso en una aplicación. Para hacer limpieza de alta calidad datos más fácilmente disponible, mercados de datos están compitiendo y especializada en la prestación de este servicio.

Variabilidad
También pueden surgir problemas más grandes en la interpretación de datos grandes. La variabilidad del término cuando se aplica a big data tiende para referirse específicamente a la amplia posible variación en el significado que se encuentran. Encontrar el contexto semántico más apropiado interpretar datos no estructurados que puede introducir complejidades significativas en el análisis.

 

El ecosistema de Hadoop en HDInsight servicios de Windows Azure

Introducción
HDInsight servicios de Windows Azure ofrece un marco que implementa una solución basada en la nube de Microsoft para el manejo de datos grandes. Este ecosistema FED administra y analiza cantidades grandes de datos explotando las capacidades de procesamiento en paralelo, otras optimizaciones de arquitectura HDFS y el modelo de programación de MapReduce. Tecnologías como Sqoop y saetín integran HDFS con almacenes de datos relacionales y los archivos de registro. Colmena y cerdo integran el procesamiento de datos y capacidades de almacenamiento. Pegasus proporciona capacidades de extracción de gráfico. Solución para Big Data de Microsoft se integra con herramientas de BI de Microsoft, como SQL Server Analysis Services y Reporting Services, PowerPivot de Excel. Herramientas de BI de Microsoft permiten realizar un sencillo BI en los datos almacenados y gestionados por el ecosistema de Hadoop en HDInsight servicios de Windows Azure. Las tecnologías de Apache-compatible y hermana tecnologías forman parte de este ecosistema construido para correr encima de Hadoop racimos son detallados y brevemente descritos en esta sección.

Cerdo
Cerdo es una plataforma de alto nivel para el procesamiento de datos grandes sobre Hadoop racimos. Cerdo consiste en un lenguaje de flujo de datos, llamado Pig Latin, apoyar las consultas de escritura en grandes conjuntos de datos y un entorno de ejecución de programas en ejecución desde una consola. Los programas de cerdo Latina consisten en series de transformación de conjunto de datos convertidos bajo las sábanas, a una serie de programa de MapReduce. Abstracciones de cerdo Latina proporcionan estructuras de datos más ricas que MapReduce y realizan para Hadoop lo que realiza SQL para sistemas RDBMS. Cerdo Latina es totalmente extensible. Usuario definido funciones (UDF), escrito en Java, Python, C# o JavaScript, se puede llamar para personalizar cada etapa de la ruta de procesamiento al componer el análisis. Para obtener más información, consulte Bienvenido a Apache cerdo!

Colmena
Colmena es un almacén de datos distribuidos, gestión de los datos almacenados en un HDFS. Es el motor de consulta de Hadoop. Colmena es para los analistas con sólidos conocimientos SQL, proporcionando una interfaz similar a SQL y un modelo de datos relacional. Colmena utiliza un lenguaje llamado HiveQL; un dialecto de SQL. Colmena, como cerdo, es una abstracción sobre MapReduce y cuando se ejecuta, colmena traduce las consultas en una serie de trabajos de MapReduce. Escenarios para la colmena están más cercanas en concepto a los de RDBMS y así que son apropiados para su uso con datos más estructurados. Para datos no estructurados, el cerdo es mejor opción. HDInsight servicios de Windows Azure incluye un controlador ODBC para la colmena, que permite consultar en tiempo real directa de herramientas de business intelligence como Excel en Hadoop. Para obtener más información, consulte Bienvenido a Apache colmena!

Mahout
Mahout es una librería open source de aprendizaje máquina facilitando edificio escalable bibliotecas de aprendizaje correspondiente. Utilizando el paradigma de mapa/reducir, algoritmos de agrupamiento, clasificación y filtrado colaborativo basado en el lote desarrollaron para Mahout se implementa sobre Apache Hadoop. Para más información, consulte ¿Qué es Apache Mahout.

Pagasus
Pegasus es un sistema de minería de gráfico de peta-escala en Hadoop. Minería de gráfico es utilizado para determinar los patrones, reglas y anomalías que caracterizan los gráficos de minería de datos. Un gráfico en este contexto es un conjunto de objetos con vínculos que existen entre dos objetos en el conjunto. Este tipo de estructura caracteriza por redes en todas partes, incluyendo las páginas vinculadas en la Web, Computadoras y redes sociales (FaceBook, Twitter) y muchos sistemas físicos y biológicos. Antes de Pegasus, el tamaño del gráfico máximo que podría ser minado había incorporado millones de objetos. Mediante el desarrollo de algoritmos que se ejecutan en paralelo sobre un cluster de Hadoop, Pegasus desarrolla algoritmos para mina gráficos que contiene miles de millones de objetos. Para obtener más información, consulte el sitio Web de Proyecto Pegasus .

Sqoop
Sqoop es la herramienta que las transferencias a granel datos entre Hadoop y bases de datos relacionales tal SQL o a otros almacenes de datos estructurados, tan eficientemente como sea posible. Usar Sqoop para importar datos de almacenes de datos externos en el HDFS o sistemas relacionados como la colmena. Sqoop también puede extraer datos de Hadoop y exportar los datos extraídos a bases de datos relacionales externas, almacenes de datos de la empresa o cualquier otro tipo de almacén de datos estructurados. Para obtener más información, vea la Apache Sqoop sitio Web.

Flume Saetín es un servicio distribuido, fiable y disponible para eficientemente recoger, agregación y mueven cantidades de datos de registro grande a HDFS. Arquitectura de canal es streaming base de flujo de datos. Es robusto y tolerantes con armonioso y mecanismos de fiabilidad con muchos mecanismos de recuperación y failover. Tiene un modelo de datos simples extensible que permite aplicaciones analíticas en línea. Para obtener más información, vea la canal sitio de incubación.

Herramientas de Business intelligence
Herramientas de Business Intelligence (BI) conocidas como Excel, PowerPivot, SQL Server Analysis Services y Reporting Services recupera, analiza y presenta datos integrados con HDInsight servicios de Windows Azure utilizando controladores ODBC. El controlador ODBC de colmena y colmena Add-in for Excel están disponibles para su descarga en el tablero de mandos HDInsight.
* Para instalar el controlador y el Add-in para Excel, ver Cómo para conectar Excel a Hadoop en Windows Azure via HiveODBC.
* Para obtener información de Analysis Services, vea 2012 Analysis Services de SQL Server .
* Para información de Reporting Services, consulte SQL Server 2012 informes .

Escenarios de grandes datos para servicios de HDInsight para Windows Azure

Un escenario ejemplar que preve un caso de una aplicación de servicios de HDInsight para Windows Azure es un análisis ad hoc, de manera de lote, en un conjunto de datos no estructurado todo almacenado en los nodos de Windows Azure, que no requieren actualizaciones frecuentes.

Estas condiciones se aplican a una amplia variedad de actividades en los negocios, la ciencia y el gobierno. Estas condiciones incluyen, por ejemplo, control de cadenas de suministro en retail, sospechoso comercio patrones en finanzas, patrones de demanda de servicios públicos y servicios, aire y agua calidad de matrices de sensores ambientales, o patrones de la delincuencia en áreas metropolitanas.

Hadoop es más adecuada para manejar una gran cantidad de datos registrados o archivados que no requieren de actualización frecuente, una vez que está escrito, y que se lee a menudo, por lo general para hacer un análisis completo. Este escenario es complementario a datos más adecuadamente manejados por un RDBMS que requieren menor cantidad de datos (Gigabytes en lugar de Petabytes), y que debe ser continuamente actualizado o consulta de puntos de datos específicos dentro del conjunto de datos completo. RDBMS funcionan mejor con datos estructurados organizados y almacenados según un esquema fijo. MapReduce funciona bien con datos no estructurados con ningún esquema predefinido porque interpreta datos cuando está procesando.

Introducción a servicios de HDInsight para Windows Azure

Los servicios de HDInsight para Windows Azure CTP
Los servicios de HDInsight para Windows Azure está disponible por invitación solamente durante este Community Technical Preview (CTP). El propósito de este CTP es para que probar los servicios disponibles del tablero de instrumentos HDInsight y retroalimentar. El proceso para acceder se describe a continuación.

El tablero de instrumentos de HDInsight servicios de Windows Azure
La implementación de Microsoft de Apache Hadoop en HDInsight servicios de Windows Azure utiliza un tablero de instrumentos a disposición nuevos clústeres de Apache Hadoop. Racimos provisionados en el salpicadero son temporales y expiran después de cinco días. Estos clusters ejecutan trabajos que procesan datos ya sea en el clúster o ubicados en otros lugares, por ejemplo en una cuenta de Windows Azure. La ventaja de usar un clúster temporal es que no hay ningún costo para mantener el hardware necesario para los trabajos de procesamiento paralelo de MapReduce. Puedes utilizan el clúster y luego liberan o dejarlo a punto de caducar.

Para acceder a los servicios de HDInsight para Windows Azure CTP e implementación de un cluster de Hadoop
Los pasos para poder tener acceso a los servicios de HDInsight para Windows Azure CTP, inicia sesión en el sitio y desplegar su primer cluster de Hadoop en Windows Azure son los siguientes.

  1. Proporcionar información sobre sí mismo, dominio del negocio y escenario técnico completando la Apache Hadoop para Windows Azure y Windows Server conectar el perfil. Necesita un LiveID (por ejemplo, Hotmail.com, Live.com) completar y presentar el perfil de conexión. Esto podría requerir algunos pasos preliminares.
  2. Una vez que reciba un código de invitación, ir a la HadoopOnAzure.com del sitio y haga clic en Iniciar sesión.
  3. Si es tu primera vez, le permite HadoopOnAzure.com acceso a la información de su perfil de LiveID. Haga clic en . Abre el cuadro de diálogo de Got un código .
  4. En el cuadro de diálogo de Got un código , introduzca el código de invitación y luego haga clic en inscribir.
  5. Una nueva cuenta, su primera tarea es crear un Hadoop en clúster de Windows Azure. Sus opciones son las siguientes:Sus opciones son:
    1. Nombre DNS: elegir un nombre para el clúster. Aquí se utiliza “mysamples”.
      Tamaño del clúster: seleccione qué tamaño de clúster para probar contra. Actualmente sólo un clúster de 3 nodo está disponible para probar.
      Cluster Login: proporcionar un nombre de usuario para el cluster y la contraseña para iniciar sesión en él. Aquí el “someUserName” el valor por defecto, se utiliza.
    2. Haga clic en solicitar cluster (barra de la derecha, debajo de la barra verde)
    3. En este punto, Hadoop en el servicio de Windows Azure comienza a crear el nuevo grupo, que lleva hasta decenas de minutos, según el número de nodos y el número de racimos.

    Soluciones de Apache Hadoop para Windows también están disponibles para implementar para hardware que usted manejar el cluster directamente in situ. Para más información, vea Introducción a los servicios basados en la Developer Preview de Apache Hadoop de ™ ™ en Windows.

    Tour de la consola de HDInsight

    Una vez conectado con un racimo desplegado, abre su página de cuenta.

    Hay tres secciones en el salpicadero que agrupar los iconos con funciones de administración de HDInsight para Windows Azure:

    • Sus tareas: esta sección permite crear nuevos puestos de trabajo y seguimiento de los trabajos que previamente ha creado o ejecutar.
    • Su Cluster: esta sección proporciona varios métodos para interactuar con y administrar su racimo, por ejemplo, la Consola interactiva para JavaScript y colmena, Escritorio remoto para tener acceso al clúster directamente, la capacidad de Abrir puertos para conexiones ODCB FTPS y almacenamiento de Cluster de administrar , mercados de datos, recuperación ante desastres y conexiones a tu cuenta de Windows Azure BLOB Storage.
    • Administrar tu cuenta: esta sección rastrea la Historia de trabajo en su cuenta, da acceso a las muestras que vienen listos para ejecutarse con Hadoop en Windows Azure y ofrece descargas de cliente utilidades para Hadoop en Windows Azure, tales como el controlador ODBC de colmena y colmena Add-in for Excel. (La Historia de facturación puede ser ignorada durante la developer preview).

    Para explorar la funcionalidad de la consola, haga clic en cualquier icono. Para el uso de la funcionalidad de Nuevos puestos de trabajo y Consola interactiva , consulte el tema de Ejecutar trabajos con Hadoop en Windows Azure . Para tutoriales sobre la ejecución de las muestras, vea los temas de las muestras . Puede utilizar los comandos de sistema de archivo de Hadoop desde la ventana de comandos en el nodo principal, que está disponible en el Escritorio remoto.

    Recursos para HDInsight para Windows Azure

    Microsoft: Servicios HDInsight

    Tutoriales para las muestras en el salpicadero

    Microsoft: Windows y base de datos SQL

    Microsoft: Inteligencia de negocios

    Apache Hadoop:

    • Apache Hadoop -biblioteca de software que proporciona un marco que permite el procesamiento distribuido de grandes conjuntos de datos a través de clusters de computadoras.
    • HDFS -sistema de archivos distribuido de Hadoop (HDFS) es el sistema de almacenamiento de información primario utilizado por aplicaciones de Hadoop.
    • Mapa reducir -un modelo de programación y marco de software para escribir aplicaciones que procesan rápidamente grandes cantidades de datos en paralelo en grandes racimos de computan los nodos.
    (Source: social.technet.microsoft)

Category: News

About the Author ()

Leave a Reply