Introducción

Los textos proporcionados describen la administración y monitorización de sistemas Hadoop, presentando un caso práctico en un banco que adopta esta tecnología. Se exploran herramientas clave para esta tarea, comenzando con las interfaces web nativas de HDFS (Namenode UI) y YARN (ResourceManager UI) para supervisar el almacenamiento y la ejecución de aplicaciones. Luego, se introducen Apache Ambari y Cloudera Manager como soluciones más completas que facilitan la instalación, gestión y monitorización integral de clústeres Hadoop, incluyendo configuración y alertas. Finalmente, se examina Ganglia como una herramienta genérica para la monitorización de clústeres, aunque menos específica para la administración de Hadoop en comparación con Ambari y Cloudera Manager..

Audio

 

Briefing Document: Administración y Monitorización de Sistemas Hadoop

Fecha: 26 de octubre de 2023

Fuente: Excerptos de «BDA04 Administración y monitorización de sistemas Hadoop.Archivo.pdf»

Propósito: Proporcionar una visión general de los temas principales, ideas clave y hechos importantes presentados en el material de formación sobre la administración y monitorización de sistemas Hadoop.

1. Introducción y Contexto

El material comienza con un caso práctico del Banco Español de Inversiones (BEI), una institución de banca privada con más de 100 años de historia. Tradicionalmente enfocado en el conocimiento interno de sus expertos para asesorar a grandes inversores, el banco poseía una arquitectura de sistemas basada principalmente en un mainframe y una herramienta CRM.

Sin embargo, una nueva dirección ha impulsado una estrategia de transformación digital, buscando incorporar la tecnología para mejorar la toma de decisiones mediante modelos predictivos y ofrecer funcionalidades a través de diversos canales (web, móvil, oficinas).

Para lograr esto, el BEI ha invertido en tecnologías Big Data e implementado una plataforma Hadoop, migrando datos desde el mainframe y el CRM. Un equipo de científicos de datos y analistas de negocio ya está trabajando en el clúster, desarrollando modelos predictivos y realizando análisis cruzados de datos, capacidades que antes eran limitadas debido a la inaccesibilidad de la información.

El equipo de IT, liderado por María Robles, se enfrenta ahora al reto de administrar este nuevo entorno Hadoop, con un número creciente de usuarios accediendo al clúster.

2. Desafíos de la Administración y Monitorización de Hadoop

El material destaca que la administración de Hadoop requiere un mayor esfuerzo en comparación con otras plataformas debido a varios factores:

3. Herramientas para la Administración y Monitorización de Hadoop

El documento introduce diversas herramientas disponibles para facilitar la administración y monitorización de plataformas Hadoop:

 

4. Configuración de un Clúster Hadoop

La configuración de Hadoop se basa en ficheros XML asociados a cada servicio (HDFS, YARN, Hive, etc.), ubicados habitualmente en los directorios /etc/conf en los servidores donde se ejecuta el servicio.

Se mencionan los principales ficheros de configuración y algunos parámetros clave para los servicios más importantes:

Hadoop core (HDFS, YARN y MapReduce):

Apache Hive:

Apache Spark:

Las modificaciones de la configuración pueden realizarse directamente en los ficheros o a través de herramientas de administración como Ambari o Cloudera Manager. Tras cualquier cambio, suele ser necesario reiniciar el servicio afectado, lo que implica una posible pérdida de servicio temporal.

5. Monitorización a Nivel de Sistema Operativo (Linux)

Dado que la mayoría de los clústeres Hadoop se ejecutan en sistemas Linux, es crucial monitorizar aspectos clave del sistema operativo. Problemas de rendimiento en Linux afectarán directamente el funcionamiento de Hadoop.

Las principales variables a monitorizar en un sistema Linux son:

La autoevaluación enfatiza la importancia de monitorizar las métricas del sistema operativo Linux porque Hadoop se ejecuta sobre él, consumiendo sus recursos, y porque implica la ejecución de muchos servicios en la misma máquina, lo que podría generar conflictos visibles a nivel de sistema operativo.

6. Interfaz de HDFS: Namenode UI

La Namenode UI es una interfaz web de administración que ofrece HDFS por defecto, accesible por defecto en el puerto 50070 (configurable en hdfs-site.xml). Permite a administradores como María Robles monitorizar el estado de la capa de almacenamiento, vital para toda la plataforma.

La interfaz proporciona información general y diversas pestañas:

 

La autoevaluación indica que la Namenode UI permite monitorizar el estado de HDFS, proporcionando mucha información necesaria, aunque su formato no sea muy amigable, y no ofrece funcionalidades para administrar el servicio (parar, arrancar, modificar configuración).

7. Interfaz de YARN: ResourceManager UI

Similar a HDFS, YARN también proporciona una interfaz web de monitorización (ResourceManager UI) que se despliega en el nodo donde se ejecuta el servicio ResourceManager. Permite a administradores como María Robles monitorizar las aplicaciones que se ejecutan en el clúster y el estado de los recursos.

La interfaz principal muestra un resumen del sistema y un menú con opciones como:

La autoevaluación confirma que el ResourceManager UI permite ver el total de memoria y núcleos que YARN puede utilizar y su consumo actual, qué aplicaciones se están ejecutando y sus recursos consumidos, y qué nodos worker están ejecutando YARN y su estado. No permite parar tareas que consumen muchos recursos directamente desde la interfaz básica.

8. Apache Ambari

Apache Ambari es una herramienta diseñada para simplificar la administración de Hadoop, abarcando el aprovisionamiento, la administración y la monitorización de clústeres. Ofrece una interfaz web intuitiva respaldada por APIs RESTful.

Ambari permite a los administradores:

La interfaz de Ambari presenta una pantalla inicial con métricas clave del clúster. El menú lateral permite navegar por servicios, hosts, alertas y otras acciones de administración.

Un ejemplo práctico muestra cómo Hadoop se sobrepone a la parada de nodos worker utilizando Ambari para simular una caída y observar la continuidad del servicio (consultas Hive).

La autoevaluación confirma que Ambari simplifica la instalación de clústeres, permite definir alertas y ofrece métricas como el porcentaje de CPU, memoria y disco utilizados en los servidores.

9. Cloudera Manager

Cloudera Manager fue la primera herramienta de administración de Hadoop, desarrollada por Cloudera e incluida en su distribución CDH. Aunque Apache Ambari surgió posteriormente, la adquisición de Hortonworks por Cloudera ha llevado a la discontinuación de Ambari, siendo Cloudera Manager la principal herramienta de administración en la distribución comercial de Hadoop de Cloudera.

Se destaca que Cloudera Manager y Apache Ambari son muy similares en cuanto a funcionalidad, ofreciendo capacidades de instalación, administración y monitorización con interfaces de usuario prácticamente idénticas.

La organización del menú en Cloudera Manager también separa los servicios (denominados «Clústeres») de los servidores («Hosts»). La interfaz principal muestra un resumen de los servicios y métricas.

Al seleccionar un servicio (e.g., Hive, HDFS), se accede a pantallas con información general del estado, historial, métricas, instancias (servidores donde se despliega el servicio), configuración (con opciones para ver y modificar parámetros) y un botón de «Acciones» para gestionar el servicio.

La sección de «Hosts» muestra los servidores del clúster, y al seleccionar uno, se pueden ver los servicios que ejecuta, su estado y realizar acciones. También ofrece opciones de configuración y alertas a nivel de host.

Otras opciones de menú incluyen un historial de actividad reciente, la posibilidad de generar cuadros de mando personalizados («Gráficos») y opciones de administración (usuarios, versiones, etc.).

 

La autoevaluación confirma que Cloudera Manager permite arrancar y parar los servicios del clúster y es una herramienta de trabajo para los administradores de sistemas.

10. Ganglia

Ganglia es una herramienta opensource para la recogida y monitorización de métricas de sistemas, no específica para Hadoop, pero que puede ser útil cuando Ambari o Cloudera Manager no están disponibles.

Ganglia se ejecuta en los nodos del clúster, recogiendo métricas que Hadoop puede enviar o que Ganglia puede obtener directamente del sistema operativo. Puede integrarse con Nagios para crear un sistema de alertas.

La arquitectura de Ganglia incluye:

La interfaz web de Ganglia (gweb) muestra métricas agregadas del clúster y permite seleccionar nodos individuales para ver sus métricas. Los gráficos ofrecen la opción de exportar datos (CSV, JSON) y definir umbrales para alertas. La función de «Search» permite buscar por nodos o métricas. Ganglia permite crear cuadros de mando personalizados comparando diferentes métricas de los nodos.

A pesar de ser un buen sistema de monitorización, se indica que en clústeres con Ambari o Cloudera Manager, estas herramientas suelen reemplazar por completo a Ganglia al ofrecer funcionalidades de administración además de monitorización en una única plataforma.

La autoevaluación destaca las diferencias entre Ganglia y Ambari/Cloudera Manager: Ganglia no permite modificar parámetros de configuración de Hadoop ni realizar acciones como parar servicios o nodos, mientras que Ambari y Cloudera Manager sí lo hacen. Ambas herramientas ofrecen métricas de uso de CPU en los nodos.

11. Guía Práctica de Spark en Databricks

Finalmente, se introduce una guía práctica para usar Spark en Databricks, un clúster de Spark en la nube. Se requiere una cuenta «community» gratuita para probarlo. Se proporciona un «notebook» de Databricks que debe importarse en el espacio de trabajo para seguir la guía, que consta de varios libros («ASP 1», «ASP 2», «ASP3»). Se menciona un vídeo que explica el proceso de importación y el contenido de los libros.

Conclusión:

El material revisado proporciona una introducción detallada a la administración y monitorización de sistemas Hadoop. A través del caso práctico del Banco Español de Inversiones, se contextualizan los desafíos y la importancia de estas tareas. Se presentan las herramientas clave disponibles, desde las interfaces nativas de HDFS y YARN hasta soluciones más completas como Apache Ambari y Cloudera Manager, así como una alternativa de monitorización general como Ganglia. Se aborda la configuración de los principales componentes de Hadoop y la necesidad de monitorizar el sistema operativo subyacente. Finalmente, se introduce una guía práctica para trabajar con Spark en Databricks, extendiendo el alcance del material a la explotación de datos en un entorno Hadoop.

 

Final del formulario

 

 

Guía de Estudio: Administración y Monitorización de Sistemas Hadoop

Quiz

  1. Describe brevemente el cambio estratégico del Banco Español de Inversiones y cómo esto llevó a la implementación de una plataforma Hadoop. (2-3 frases)

El BEI, tradicionalmente enfocado en el conocimiento interno, decidió incorporar tecnología Big Data para mejorar la toma de decisiones con modelos predictivos y ofrecer funcionalidades en diversos canales. Esto condujo a la implementación de una plataforma Hadoop para centralizar los datos del mainframe y CRM.

  1. ¿Cuáles son los tres tipos principales de actividades para la administración de una plataforma Hadoop? En este tema, ¿en cuál se centra la discusión y por qué? (2-3 frases)

Los tres tipos de actividades son la configuración, la operación de los servicios y la monitorización. Este tema se centra en la monitorización, ya que la configuración es más estática y la operación de servicios consiste en tareas sencillas de arranque, parada o reinicio.

  1. Menciona dos ficheros de configuración importantes para Hadoop core (HDFS y YARN) y describe brevemente una propiedad clave configurada en cada uno. (2-3 frases)

hdfs-site.xml configura propiedades específicas de HDFS como dfs.namenode.name.dir (directorio local del Namenode). yarn-site.xml configura propiedades específicas de YARN como yarn.resourcemanager.scheduler.class (tipo de scheduler utilizado).

  1. Explica por qué es crucial monitorizar las métricas de los sistemas operativos Linux subyacentes a un clúster Hadoop. (2-3 frases)

Es importante monitorizar las métricas de Linux porque Hadoop se ejecuta sobre él, utilizando sus recursos de memoria y procesador. Además, Hadoop implica la ejecución de muchos servicios en la misma máquina, lo que podría generar conflictos visibles a nivel del sistema operativo.

  1. ¿Qué tipo de información principal se puede obtener al acceder a la interfaz web de administración de HDFS (Namenode UI)? Menciona al menos dos ejemplos. (2-3 frases)

El Namenode UI permite monitorizar el estado general de HDFS, incluyendo información sobre los Datanodes (su estado, capacidad y uso de disco) y visualizar el contenido de HDFS, así como acceder a los logs.

 

  1. Describe la utilidad principal de la interfaz web de administración de YARN (ResourceManager UI) en la gestión de un clúster Hadoop con múltiples usuarios y aplicaciones. (2-3 frases)

El ResourceManager UI permite a los administradores monitorizar las aplicaciones que se están ejecutando en el clúster, ver el estado de los recursos del sistema y analizar el detalle y los logs de cada aplicación para identificar posibles cuellos de botella o errores.

  1. ¿Cuáles son las tres funcionalidades principales que Apache Ambari ofrece para la administración de clústeres Hadoop? (2-3 frases)

Apache Ambari simplifica la administración de Hadoop ofreciendo funcionalidades para la instalación de clústeres, la administración de servicios (arrancar, parar, reconfigurar) y la monitorización a través de cuadros de mando y alertas.

  1. Aunque Cloudera Manager y Apache Ambari son similares, ¿qué evento en la industria Hadoop llevó a que Cloudera Manager se convirtiera en la herramienta predominante? (2-3 frases)

La compra de Hortonworks por parte de Cloudera y la posterior discontinuación de Apache Ambari como herramienta principal en la única distribución comercial de Hadoop hicieron que Cloudera Manager se convirtiera en la herramienta predominante.

  1. Explica la arquitectura básica de Ganglia, mencionando sus dos demonios principales y sus funciones. (2-3 frases)

La arquitectura de Ganglia incluye gmond, un demonio que se ejecuta en cada nodo para recopilar métricas, y gmetad, un demonio que sondea los nodos para obtener estas métricas y las almacena utilizando RRDtool para su visualización a través de la interfaz web gweb.

  1. ¿Cuál es la principal limitación de Ganglia en comparación con herramientas como Apache Ambari o Cloudera Manager en la administración integral de un clúster Hadoop? (2-3 frases)

La principal limitación de Ganglia es que se centra principalmente en la monitorización de métricas del sistema y de Hadoop, pero no ofrece funcionalidades integradas para la administración del clúster, como la configuración de servicios, el reinicio o la gestión de nodos, a diferencia de Ambari o Cloudera Manager.

Preguntas de Ensayo

  1. El Banco Español de Inversiones pasó de una arquitectura basada en mainframe a una plataforma Hadoop. Describe los principales motivadores de este cambio y los beneficios esperados, según el caso práctico.
  2. Compara y contrasta las funcionalidades de monitorización ofrecidas por las interfaces web nativas de HDFS (Namenode UI) y YARN (ResourceManager UI) con las capacidades más amplias de herramientas como Apache Ambari o Cloudera Manager.
  3. Analiza la importancia de la monitorización en la administración de un sistema Hadoop. ¿Qué aspectos críticos deben supervisarse a nivel del sistema operativo y a nivel de los servicios de Hadoop, y por qué?
  4. Describe el papel de herramientas de administración como Apache Ambari o Cloudera Manager en el ciclo de vida de un clúster Hadoop, desde su instalación y configuración inicial hasta su operación y mantenimiento continuo.
  5. Evalúa la utilidad de una herramienta de monitorización genérica como Ganglia en un entorno Hadoop que ya cuenta con herramientas de administración específicas como Cloudera Manager. ¿En qué escenarios podría Ganglia seguir siendo relevante o complementario?

Glosario de Términos Clave

 

 

 

 

Mapa Conceptual

 

Preguntas Frecuentes sobre Hadoop: Administración, Monitorización y Caso de Uso

¿Por qué el Banco Español de Inversiones (BEI) decidió implementar una plataforma Hadoop?

El BEI, tradicionalmente enfocado en el conocimiento interno de sus expertos para la banca privada, decidió invertir en tecnologías Big Data e implementó una plataforma Hadoop. Esto se debió a una nueva estrategia del consejo de administración que buscaba incorporar la tecnología para ayudar a los clientes y a sus expertos a tomar mejores decisiones mediante modelos predictivos, así como para ofrecer funcionalidades a través de diversos canales (web, móvil, oficinas). La plataforma Hadoop se nutrió de los datos volcados desde el mainframe y el CRM del banco, permitiendo a los científicos de datos desarrollar modelos predictivos y a los analistas de negocio cruzar cualquier dato disponible, algo que antes era imposible debido a la inaccesibilidad de la información.

¿Cuáles son los principales desafíos en la administración de un sistema Hadoop?

La administración de un sistema Hadoop presenta varios desafíos. En primer lugar, su amplio ecosistema de componentes, cada uno con su propio funcionamiento, versión, ficheros de configuración y métricas de monitorización, añade complejidad. En segundo lugar, se ejecuta en un entorno distribuido, compuesto por un número potencialmente grande de servidores, cada uno con su propio sistema operativo y hardware susceptible a fallos. Finalmente, Hadoop es una plataforma con un nivel de madurez inferior a otras soluciones más establecidas, lo que implica una documentación menos extensa y herramientas de administración menos consolidadas.

¿Qué herramientas proporciona Hadoop para facilitar la administración y monitorización de la plataforma?

Hadoop ofrece varias herramientas para la administración y monitorización. Incluye las consolas de monitorización web de HDFS (Namenode UI) y YARN (ResourceManager UI), que proporcionan una visión general del estado de cada servicio y permiten acceder a información detallada como logs. Además, existen herramientas más potentes y fáciles de usar como Apache Ambari y Cloudera Manager, que ofrecen funcionalidades como visualización de cuadros de mando, creación de alarmas, modificación de la configuración y administración de usuarios. Finalmente, Ganglia es una herramienta opensource útil para la monitorización general de clústeres de servidores, aunque no es específica de Hadoop.

¿Qué información principal se puede obtener a través de la interfaz web del Namenode (Namenode UI)?

La interfaz web del Namenode (Namenode UI), accesible por defecto en el puerto 50070, ofrece una visión general del estado de HDFS. Permite ver información sobre los Datanodes, como su dirección IP, el último mensaje de «check», la capacidad y el uso de disco. Al seleccionar un Datanode específico, se puede ver el detalle de los bloques que contiene y su ubicación en el disco local. La interfaz también muestra información sobre fallos en los discos de los Datanodes, snapshots de la estructura de HDFS (si se han creado), el progreso del arranque de HDFS y utilidades para visualizar el contenido de HDFS, ver logs y obtener un volcado de los hilos en ejecución.

¿Qué funcionalidades ofrece la interfaz web del ResourceManager (ResourceManager UI) para la gestión de aplicaciones en YARN?

La interfaz web del ResourceManager (ResourceManager UI) permite monitorizar las aplicaciones que se ejecutan en el clúster YARN. En la pantalla principal se muestra un resumen del sistema. La opción «Nodes» proporciona información sobre los nodos worker, incluyendo su estado y los recursos utilizados y disponibles. En «Applications», se pueden ver las aplicaciones en ejecución y las ya finalizadas, con la posibilidad de consultar el detalle de ejecución de cada una, incluyendo el usuario que la lanzó, los nodos en los que se ejecutó y los logs. La sección «Scheduler» muestra el estado de las colas de ejecución configuradas en YARN, indicando su capacidad y ocupación. Finalmente, la opción «Tools» ofrece utilidades para ver la configuración de YARN, los ficheros de log y los hilos de ejecución.

¿Cuáles son las principales ventajas de utilizar Apache Ambari o Cloudera Manager para la administración de Hadoop en comparación con las interfaces web nativas?

Apache Ambari y Cloudera Manager ofrecen ventajas significativas sobre las interfaces web nativas de HDFS y YARN. Permiten una administración unificada de todo el clúster, incluyendo la instalación, configuración, gestión (arranque, parada, reinicio de servicios y nodos) y monitorización. Proporcionan cuadros de mando personalizables con métricas clave, la capacidad de definir alertas y notificaciones ante condiciones específicas (como fallos de nodos o bajo espacio en disco), y una gestión visual de la configuración de los diferentes servicios. Además, Ambari dispone de una API para la automatización de tareas de administración. Cloudera Manager, aunque similar en funcionalidad, es la herramienta principal en la distribución de Cloudera, tras la discontinuación de Ambari.

¿Cómo puede Ganglia complementar o ser reemplazado por herramientas como Ambari o Cloudera Manager en la monitorización de un clúster Hadoop?

Ganglia es una herramienta opensource de monitorización de clústeres, no específica de Hadoop, que puede recopilar métricas del sistema operativo de los nodos (CPU, memoria, disco, red) y presentar vistas agregadas y personalizadas a través de una interfaz web. En entornos donde Ambari o Cloudera Manager no están disponibles, Ganglia puede ser útil para monitorizar el estado general de los servidores que componen el clúster Hadoop. Sin embargo, en clústeres que utilizan Ambari o Cloudera Manager, estas herramientas generalmente reemplazan por completo a Ganglia, ya que ofrecen funcionalidades de monitorización más integradas y específicas para los servicios de Hadoop, además de capacidades de administración que Ganglia no posee (como la modificación de la configuración o el control de los servicios).

¿Cuál es el propósito de Databricks mencionado en el contexto de Hadoop y Spark?

Databricks es mencionado como un clúster de Spark en la nube que se puede utilizar de forma gratuita para aprender y experimentar con Spark. Se proporciona una guía práctica en forma de «notebook» de Databricks para enseñar a los usuarios a utilizar Spark en este entorno. El objetivo es facilitar el aprendizaje práctico de Spark, una de las herramientas del ecosistema Hadoop utilizada para el procesamiento de datos, ofreciendo una plataforma accesible y gratuita para los usuarios.

 

 

 

Evaluación

Preguntas:

Aquí tienes un cuestionario de 20 preguntas sobre la administración y monitorización de sistemas Hadoop, con cuatro posibles respuestas por pregunta y una tabla final con la respuesta correcta y una breve explicación basada en las fuentes proporcionadas:

Preguntas:

  1. ¿Cuál fue la motivación principal del Banco Español de Inversiones (BEI) para adoptar una plataforma Hadoop?
    a) Reemplazar su sistema mainframe obsoleto.
    b) Reducir los costos de infraestructura de IT.
    c) Incorporar tecnología Big Data para ayudar a clientes y expertos a tomar mejores decisiones.
    d) Mejorar la seguridad de sus datos financieros.
  2. ¿Qué rol desempeña María Robles en el caso práctico presentado en las fuentes?
    a) Científica de datos del BEI.
    b) Analista de negocio encargada de visualización de datos.
    c) Responsable de IT del Banco Español de Inversiones.
    d) Consejera del consejo de administración del BEI.
  3. ¿Cuál es una de las principales razones por las que Hadoop requiere un mayor esfuerzo de monitorización o administración?
    a) Su documentación es muy extensa y compleja.
    b) Se ejecuta en un único servidor de gran capacidad.
    c) Tiene un amplio ecosistema de componentes desarrollados de forma independiente.
    d) Su base instalada es muy grande y estable.
  4. ¿Cuáles son las consolas de monitorización que ofrece Hadoop por defecto para HDFS y YARN, respectivamente?
    a) Ambari UI y Cloudera Manager UI.
    b) Ganglia Web y ResourceManager UI.
    c) Namenode UI y ResourceManager UI.
    d) HDFS Manager y YARN Manager.
  5. ¿Qué tipo de información principal se puede obtener al acceder a la pestaña «Datanodes» en la Namenode UI?
    a) Los logs de las aplicaciones ejecutadas en HDFS.
    b) Información sobre los diferentes Datanodes, como su IP, estado y uso de disco.
    c) La configuración del fichero hdfs-site.xml.
    d) Los errores de disco detectados en todo el clúster.
  6. ¿Qué parámetro del fichero de configuración hdfs-site.xml define la dirección en la que se arranca la consola web de monitorización de HDFS?
    a) fs.defaultFS.
    b) dfs.datanode.data.dir.
    c) dfs.namenode.http-address.
    d) fs.namenode.name.dir.
  7. ¿Qué información principal se puede visualizar en la opción «Applications» del ResourceManager UI?
    a) El estado de los Datanodes y su capacidad.
    b) Las colas de ejecución configuradas en YARN y su capacidad.
    c) Las aplicaciones que se han ejecutado o se están ejecutando en el clúster.
    d) El uso de CPU y memoria de los Nodos worker.
  8. ¿Qué funcionalidad principal ofrece la opción «Scheduler» dentro del ResourceManager UI?
    a) Permite ver el detalle de ejecución de cada aplicación.
    b) Muestra el estado de las colas de ejecución configuradas en YARN.
    c) Permite acceder a los logs generados por las aplicaciones.
    d) Muestra los recursos utilizados y disponibles en cada Nodo worker.
  9. ¿Cuál es el objetivo principal de Apache Ambari?
    a) Ejecutar modelos predictivos en la plataforma Hadoop.
    b) Simplificar la administración de Hadoop para el aprovisionamiento, la administración y la monitorización de clústeres.
    c) Desarrollar aplicaciones Big Data utilizando Spark y Hive.
    d) Analizar datos del mainframe y CRM mediante herramientas de visualización.
  10. ¿Qué tipo de acciones permite realizar Apache Ambari sobre los servicios de Hadoop en un clúster?
    a) Únicamente monitorizar el estado y las métricas de rendimiento.
    b) Instalar, iniciar, detener y reconfigurar los servicios en todo el clúster.
    c) Solo instalar nuevos componentes del ecosistema Hadoop.
    d) Principalmente gestionar los usuarios y permisos de acceso a los datos.
  11. ¿Qué tipo de información se presenta en la pantalla inicial (cuadro de mando general) de Apache Ambari?
    a) Un listado detallado de todos los ficheros almacenados en HDFS.
    b) Las principales métricas del clúster, como el uso de HDFS, CPU, memoria y el estado de los nodos.
    c) La configuración detallada de todos los servicios de Hadoop.
    d) Los logs de todas las aplicaciones que se están ejecutando en YARN.
  12. Dentro de Apache Ambari, ¿dónde se pueden modificar los parámetros de configuración de un servicio como HDFS?
    a) En la pestaña «Metrics» de la sección del servicio.
    b) En la pestaña «Hosts» seleccionando un servidor específico.
    c) En la pestaña «Configuration» dentro de la sección del servicio.
    d) En la opción «Administration del clúster» del menú principal.
  13. ¿Qué herramienta de administración de Hadoop fue desarrollada por Cloudera e incluida en su distribución CDH desde 2009?
    a) Apache Ambari.
    b) Ganglia.
    c) Cloudera Manager.
    d) Namenode UI.
  14. ¿En qué se asemejan principalmente Apache Ambari y Cloudera Manager?
    a) En su arquitectura técnica interna y los lenguajes de programación utilizados.
    b) En la forma en que gestionan la seguridad y autenticación del clúster.
    c) En su capacidad de instalación, administración y monitorización de clústeres, así como en su interfaz de usuario.
    d) En el soporte para la ejecución de diferentes motores de procesamiento como MapReduce, Tez y Spark.
  15. Dentro de Cloudera Manager, ¿cómo se denominan generalmente los servicios instalados en el clúster en el menú principal?
    a) Hosts.
    b) Clústeres.
    c) Servicios.
    d) Componentes.
  16. ¿Cuál es el propósito principal de Ganglia?
    a) Administrar la configuración de los servicios de Hadoop.
    b) Recopilar métricas de un sistema y su monitorización, siendo útil para cualquier tipo de clúster.
    c) Desplegar e instalar clústeres Hadoop de forma automatizada.
    d) Analizar logs de las aplicaciones que se ejecutan en Hadoop.
  17. ¿Cuál es el demonio que se ejecuta en cada nodo del clúster en la arquitectura de Ganglia y se encarga de recopilar los datos de métricas?
    a) gmetad.
    b) gweb.
    c) gmond.
    d) RRDtool.
  18. ¿Qué componente de Ganglia proporciona la interfaz web para visualizar las métricas recopiladas?
    a) gmond.
    b) gmetad.
    c) RRDtool.
    d) gweb.
  19. ¿Qué limitaciones importantes presenta Ganglia en comparación con herramientas como Ambari o Cloudera Manager para la gestión de Hadoop?
    a) Ganglia consume muchos más recursos del sistema que Ambari o Cloudera Manager.
    b) Ganglia no permite monitorizar métricas de CPU, memoria o disco.
    c) Ganglia no permite modificar la configuración de Hadoop ni realizar acciones como parar servicios o nodos.
    d) Ganglia solo puede monitorizar clústeres pequeños con un número limitado de nodos.
  20. ¿Para qué se puede utilizar la Namenode UI, según las fuentes?
    a) Para administrar los usuarios y permisos en HDFS.
    b) Para reiniciar los servicios de HDFS.
    c) Para monitorizar el estado de HDFS, ver información de los Datanodes y el contenido de HDFS.
    d) Para configurar los parámetros de HDFS.

Tabla de Respuestas y Explicaciones:

 

Número de Pregunta Respuesta Correcta Explicación
1 c) El BEI adoptó Hadoop para incorporar tecnología Big Data que ayudara a sus clientes y expertos con modelos predictivos y funcionalidades en diversos canales.
2 c) María Robles es la responsable de IT del Banco Español de Inversiones, encargada de manejar el clúster Hadoop.
3 c) Hadoop requiere mayor esfuerzo de administración debido a su amplio ecosistema de componentes independientes y su naturaleza de entorno distribuido.
4 c) Las consolas de monitorización por defecto para HDFS y YARN son Namenode UI y ResourceManager UI respectivamente.
5 b) La pestaña «Datanodes» en la Namenode UI muestra información sobre los diferentes Datanodes, incluyendo su IP, estado del último check y uso de disco.
6 c) El parámetro **dfs.namenode.http-address** en el fichero hdfs-site.xml configura la dirección de la consola web de monitorización de HDFS.
7 c) La opción «Applications» del ResourceManager UI permite ver las aplicaciones que se han ejecutado o se están ejecutando en el clúster.
8 b) La opción «Scheduler» dentro del ResourceManager UI muestra el estado de las colas de ejecución configuradas en YARN, incluyendo su capacidad y ocupación.
9 b) El objetivo principal de Apache Ambari es simplificar la administración de Hadoop para el aprovisionamiento, administración y monitorización de clústeres.
10 b) Apache Ambari permite instalar, iniciar, detener y reconfigurar los servicios de Hadoop en todo el clúster y sus nodos.
11 b) La pantalla inicial de Apache Ambari presenta un cuadro de mando general con las principales métricas del clúster, como uso de HDFS, CPU, memoria y estado de los nodos.
12 c) Dentro de Apache Ambari, los parámetros de configuración de un servicio como HDFS se pueden modificar en la pestaña «Configuration» de la sección correspondiente al servicio.
13 c) Cloudera Manager fue desarrollado por Cloudera e incluido en su distribución CDH desde 2009.
14 c) Apache Ambari y Cloudera Manager se asemejan en su capacidad de instalación, administración y monitorización de clústeres, así como en su interfaz de usuario.
15 b) En el menú principal de Cloudera Manager, los servicios instalados en el clúster generalmente se denominan «Clústeres«.
16 b) El propósito principal de Ganglia es la recogida y monitorización de métricas de sistemas, siendo útil para cualquier tipo de clúster.
17 c) En la arquitectura de Ganglia, gmond es el demonio que se ejecuta en cada nodo para recopilar las métricas.
18 d) gweb es el componente de Ganglia que proporciona la interfaz web para visualizar las métricas recopiladas.
19 c) Ganglia, a diferencia de Ambari o Cloudera Manager, no permite modificar la configuración de Hadoop ni realizar acciones como parar servicios o nodos.
20 c) Según las fuentes, la Namenode UI se puede utilizar para monitorizar el estado de HDFS, ver información de los Datanodes y visualizar el contenido de HDFS.

 

 

Recursos

Guía de Estudio de la «Guía Práctica BDA04.mp4»

Esta guía de estudio se centra en los puntos clave cubiertos en el vídeo «Guía Práctica BDA04.mp4» sobre el uso de Apache Spark en Databricks.

Introducción a Apache Spark:

Entorno de Trabajo: Databricks:

Notebooks de Databricks:

Clusters en Databricks:

Comandos y Librerías Clave:

Databricks File System (DBFS):

Spark SQL y DataFrames:

Lectura y Escritura de Datos:

Operaciones con Columnas:

Agregaciones:

Funciones de Fecha y Timestamp:

Trabajo con Estructuras Complejas:

Otras Funciones:

Joins:

User Defined Functions (UDFs):

Preguntas Frecuentes (FAQ) de «Guía Práctica BDA04.mp4»