Introducción

Este material formativo introduce el concepto de Big Data explicando las circunstancias que llevaron a su desarrollo, ejemplificado a través de desafíos de crecimiento en empresas. Se abordan las 5 Vs de Big Data (Volumen, Velocidad, Variedad, Veracidad y Valor) como características clave que definen este fenómeno. El texto explora la infraestructura de clústeres necesaria para gestionar grandes volúmenes de datos y detalla conceptos fundamentales de almacenamiento distribuido como bases de datos relacionales, Data Lakes, ACID, el teorema CAP y BASE. Finalmente, se discuten las estrategias y conceptos de procesamiento (paralelo, distribuido, por lotes, transaccional, en tiempo real y streaming), el principio SCV, la arquitectura por capas típica en proyectos de Big Data y el panorama de herramientas y roles profesionales dentro del campo.

Resumen Audio

Título del Documento: Introducción a Big Data

Caso Práctico Inicial: FL Logistics

¿Qué es Big Data?

Las 5 Vs (y 7 Vs) de Big Data

Inicialmente se hablaban de 3 Vs, que se ampliaron a 5 y más recientemente a 7. El curso se centra en las 5 Vs principales:

  1. Volumen: La gran cantidad de datos (en bytes) que componen Big Data.
  1. Velocidad: La rapidez a la que se generan los datos y la rapidez con la que es necesario obtenerlos e integrarlos.
  1. Variedad: La diversidad en la representación de la información.
  1. Veracidad: La calidad de los datos y su fidelidad a la realidad. Un problema es que los datos no siempre tienen la calidad deseada o no son totalmente fieles. El «ruido en los datos» se refiere a que «parte de los datos no contienen información usable o de la que se pueda obtener algún tipo de valor.»
  2. Valor: Cuán útiles son los datos para una institución, empresa o persona.

Otras Vs (no tratadas en profundidad en el curso):

  1. Viabilidad: La capacidad de las empresas para generar un uso eficaz del gran volumen de datos.
  2. Visualización: La necesidad de hacer comprensible y sencilla la lectura de grandes volúmenes de datos.

Qué se consigue gracias a Big Data

Las metodologías y tecnologías de Big Data permiten:

Beneficios de Big Data:

La Pirámide de la Información (DIKW):

Clústeres de Computadoras

Conceptos de Almacenamiento de Datos

Conceptos de Procesamiento de Datos

Capas de Big Data

Aunque las arquitecturas pueden variar, una estructura generalizada para el flujo de datos en Big Data incluye capas:

El Paisaje de Big Data y Roles

Este resumen abarca los puntos principales y los conceptos más importantes presentados en el documento de origen.

 

 

Guía de Estudio

Quiz de Comprensión

  1. ¿Qué problema principal enfrentó FL Logistics que motivó la necesidad de explorar Big Data?

FL Logistics enfrentó la saturación de su servidor central debido al crecimiento, lo que limitaba su capacidad para capturar, almacenar, gestionar y analizar la gran cantidad de datos necesarios para operar. Esto se convirtió en una preocupación ya que impedía seguir abriendo nuevos almacenes.

  1. Nombra las cinco «Vs» del Big Data que se enfatizan en este curso.

Las cinco «Vs» del Big Data que se enfatizan en el curso son Volumen, Velocidad, Variedad, Veracidad y Valor.

  1. Según las predicciones mencionadas, ¿cuál era el volumen estimado de datos a nivel mundial en 2025 y cómo se compara con años anteriores?

Según las predicciones, el volumen de datos a nivel mundial se esperaba que llegara a los 163 zettabytes para el año 2025. Esto representa un crecimiento exponencial desde los 4.4 zettabytes estimados en 2013.

  1. ¿Qué es la «variedad» en el contexto de Big Data y cuáles son los tres tipos principales de representación de datos?

La «variedad» en Big Data se refiere a la gran diversidad en la representación de la información. Los tres tipos principales de representación son datos estructurados, no estructurados y semiestructurados.

  1. Explica a qué se refiere el término «ruido en los datos».

Nos referimos a ruido en los datos cuando una parte de los datos no contiene información usable o de la que se pueda obtener algún tipo de valor. Esto implica que no son totalmente fieles a la realidad o carecen de la calidad deseada.

  1. ¿Por qué la interpretación del dato es fundamental para obtener «valor» del mismo?

La interpretación del dato es fundamental porque incluso si un dato es veraz, una interpretación errónea del mismo disminuirá el valor que se puede obtener de él. Es necesario entender el contexto y el significado del dato para su uso adecuado

  1. Menciona al menos tres aportes o beneficios generales que se consiguen gracias a las metodologías y tecnologías de Big Data.

Algunos aportes o beneficios de Big Data incluyen generar registros más detallados mediante la integración de fuentes, optimizar operaciones empresariales, identificar nuevos mercados, realizar predicciones y dar soporte a la toma de decisiones

  1. ¿Cuál es la principal diferencia entre escalado vertical y escalado horizontal en un clúster de computadoras?

El escalado vertical (scale-in) mejora las características de una sola computadora (procesador, memoria, almacenamiento), limitado por el hardware disponible. El escalado horizontal (scale-out) añade más nodos a un clúster, permitiendo una mayor potencia y capacidad de forma ampliable y es el tipo de escalado relevante para Big Data

  1. Define qué es un Data Lake y cómo se diferencia de un Data Warehouse en términos de estructura de almacenamiento inicial.

Un Data Lake es un repositorio que contiene grandes cantidades de datos en formatos nativos y sin procesar, utilizando una arquitectura plana. A diferencia de un Data Warehouse jerárquico que almacena datos de forma estructurada.

  1. ¿Cuál es la relación entre el teorema CAP y el principio BASE en el diseño de bases de datos distribuidas?

El teorema CAP establece que una base de datos distribuida solo puede cumplir con un máximo de dos de las tres propiedades (Consistencia, Disponibilidad, Tolerancia a particionamiento). El principio BASE es una filosofía de diseño para bases de datos distribuidas que prefiere la disponibilidad sobre la consistencia (A+P en términos del teorema CAP).

Preguntas de Formato Ensayo Sugeridas

  1. Explica en detalle las cinco «Vs» del Big Data (Volumen, Velocidad, Variedad, Veracidad y Valor), proporcionando ejemplos concretos de cada una basándote en el material del curso. Analiza por qué la creciente magnitud en cada una de estas áreas representa un desafío significativo para los sistemas de procesamiento de datos tradicionales.
  2. Compara y contrasta las bases de datos relacionales, Data Warehouses y Data Lakes. Describe sus características principales, los tipos de datos que suelen almacenar, sus casos de uso típicos y cómo se relacionan con el entorno de Big Data.
  3. Analiza el teorema CAP y el principio BASE. Explica las tres propiedades del teorema CAP y por qué no pueden cumplirse simultáneamente en una base de datos distribuida. Describe la filosofía del principio BASE y en qué escenarios de diseño de bases de datos distribuidas es más aplicable, justificando tu respuesta.
  4. Describe las distintas capas de una arquitectura de Big Data (ingestión, colección, almacenamiento, procesamiento, consulta y analítica, visualización, seguridad, monitorización). Explica la función principal de cada capa y cómo interactúan entre sí para procesar datos desde su origen hasta la obtención de valor.
  5. Explica la diferencia entre procesamiento en paralelo y procesamiento distribuido. Detalla el principio SCV (Velocidad, Consistencia, Volumen) en el procesamiento distribuido y analiza cómo la necesidad de manejar grandes volúmenes de datos en entornos Big Data impacta la posibilidad de lograr alta velocidad y consistencia simultáneamente.

Glosario de Términos Clave

 

 

 

 

 

 

Evaluación

Cuestionario: Introducción a Big Data

Instrucciones: Selecciona la mejor respuesta para cada pregunta basándote en la información de las fuentes.

  1. ¿Cuál es el problema fundamental que origina la aparición de las metodologías y tecnologías Big Data, según las fuentes? a) Tener datos que no se sabe de dónde proceden. b) Tener grandes cantidades de datos que no caben en el almacenamiento conjunto de varias máquinas. c) Tener grandes cantidades de datos que desbordan los recursos de máquinas individuales. d) La incapacidad de realizar analítica en una única máquina.
  2. Inicialmente, la literatura sobre Big Data usaba el término «las 3 Vs». Con el tiempo, ¿cuántas características se añadieron para llegar a «las 5 Vs»? a) Ninguna, siempre fueron 5. b) Dos. c) Tres. d) Cuatro.
  3. Según las fuentes, ¿cuál es la unidad de cantidad de información digital que corresponde a 1000 gigabytes (10¹² bytes)? a) Petabyte (PB). b) Exabyte (EB). c) Zettabyte (ZB). d) Terabyte (TB).
  4. Respecto a las unidades de cantidad de información, cuando vemos un valor de 1 kB, ¿a cuántos bytes puede corresponder según las fuentes? a) A 1000 bytes siempre. b) A 1020 bytes siempre. c) Dependiendo de la situación, quizás se refiera a 1 kB (1000 bytes) o a 1 KiB (1024 bytes). d) A 1024 bytes siempre.
  5. ¿Cuál de las siguientes opciones no es mencionada en las fuentes como una fuente posible de datos que contribuye al Big Data? a) Datos adquiridos por sensores. b) Datos relacionados con la salud. c) Datos producidos por estudios de mercado tradicionales en papel. d) Datos producidos por el Internet de las cosas (IoT).
  6. Según las fuentes, ¿existe alguna entidad u organismo que regule a partir de qué cantidad de datos es Big Data? a) Sí, y establece que es a partir de 1 Petabyte. b) Sí, y establece que es a partir de 1 Exabyte. c) No, no existe ninguna entidad que lo regule. d) Solo la Wikipedia lo regula.
  7. El problema con respecto a la velocidad en Big Data no es solo que el volumen crezca, sino también: a) La dificultad para visualizarlos rápidamente. b) Lo rápido que es necesario obtenerlos e integrarlos con los datos existentes. c) La falta de herramientas para procesar datos en tiempo real. d) La incapacidad de almacenar datos que llegan a gran velocidad.
  8. ¿Qué porcentaje de los datos en el mundo se estima que son no estructurados, según las fuentes? a) Menos del 20%. b) Entre el 20% y el 50%. c) Más del 80%. d) Aproximadamente el 50%.
  9. ¿A qué tipo de información corresponde, generalmente, un fichero con extensión .json? a) Estructurados. b) No estructurados. c) Semiestructurados. d) Metadatos.
  10. En el contexto de la veracidad en Big Data, ¿a qué se refieren las fuentes cuando hablan de «ruido en los datos»? a) A que el fichero de audio se grabó con un micrófono de baja calidad. b) A que guardamos el sonido en un ambiente ruidoso. c) A que parte de los datos no contienen información usable o de la que se pueda obtener algún tipo de valor. d) No puede haber ruido en los datos, solo en el audio.
  11. ¿Cuál de los siguientes factores no se menciona como algo que influye en el «valor» que se puede obtener de los datos? a) La veracidad (fidelidad a la realidad) de los datos. b) El tiempo transcurrido desde que se produjeron los datos. c) La cantidad de almacenamiento físico disponible para los datos. d) La interpretación correcta de los datos.
  12. Según las fuentes, ¿cuál es la diferencia principal entre Minería de Datos y Ciencia de Datos? a) No hay diferencia, son términos equivalentes. b) La Minería de Datos se realiza en entornos Big Data, mientras que la Ciencia de Datos se realiza fuera de ellos. c) La Ciencia de Datos se realiza en entornos Big Data, mientras que la Minería de Datos puede realizarse fuera de ellos. d) La Minería de Datos solo usa aprendizaje automático, mientras que la Ciencia de Datos usa estadísticas y otros enfoques.
  13. ¿Qué es un clúster de computadoras en ambientes de computación, según las fuentes? a) Una única computadora muy potente con múltiples procesadores. b) Un conjunto de computadoras conectadas entre sí para trabajar como una única unidad resolviendo cargas de trabajo conjuntamente. c) Un software que permite ejecutar varias tareas al mismo tiempo en una sola máquina. d) Un sistema de almacenamiento distribuido para copias de seguridad.
  14. ¿Cuál es el tipo de escalado que se consigue añadiendo más nodos a un clúster y que realmente permite conseguir la característica de escalabilidad para sistemas Big Data? a) Escalado vertical (scale-in). b) Escalado diagonal. c) Escalado horizontal (scale-out). d) Escalado de rendimiento.
  15. ¿Cuál de las siguientes afirmaciones es cierta en relación a las bases de datos relacionales, según las fuentes? a) Son altamente escalables para entornos Big Data. b) No es necesario conocer los tipos de datos a almacenar de antemano. c) Utilizan MySQL como lenguaje de consulta principal. d) Crear índices para las columnas sobre las que se hacen búsquedas acelera estas operaciones.
  16. ¿Cuál es la principal diferencia mencionada entre un Data Lake y un Data Warehouse en cuanto a la naturaleza de los datos que almacenan? a) Los Data Lakes solo almacenan datos estructurados, mientras que los Data Warehouses almacenan todo tipo de datos. b) Los Data Lakes almacenan datos en crudo de cualquier naturaleza, mientras que los Data Warehouses solo almacenan datos estructurados ya procesados. c) Los Data Lakes y Data Warehouses almacenan los mismos tipos de datos, pero en formatos diferentes. d) Los Data Lakes almacenan datos para transacciones, mientras que los Data Warehouses almacenan datos para analítica.
  17. ¿Cuál de las siguientes propiedades no forma parte del acrónimo ACID que rige las bases de datos transaccionales? a) Atomicidad (Atomicity). b) Consistencia (Consistency). c) Aislamiento (Isolation). d) Disponibilidad (Availability).
  18. Según el Teorema CAP, una base de datos distribuida solo puede cumplir como máximo con 2 de 3 propiedades (Consistencia, Disponibilidad, Tolerancia a particionamiento). En los casos en que se quiere cumplir con la Tolerancia a particionamiento (P), ¿qué otras dos combinaciones son posibles? a) C+A o A+P. b) C+P o A+P. c) C+A o C+P. d) Solo A+P.
  19. ¿Qué capa de la arquitectura de Big Data se encarga de integrar los datos de diversas fuentes para darles una estructura unificada y con sentido para la tarea a realizar? a) La capa de ingestión. b) La capa de colección. c) La capa de almacenamiento. d) La capa de procesamiento.
  20. Según las fuentes, ¿qué queda representado en el «paisaje de Big Data»? a) Las distintas capas por las que pasan los datos en una arquitectura típica. b) La posible distribución física de los nodos de un clúster dentro de un centro de datos. c) Las herramientas y utilidades que se pueden utilizar para desarrollar proyectos Big Data. d) Únicamente las herramientas para la capa de almacenamiento.

Respuestas y Explicaciones

Pregunta Respuesta Correcta Explicación
1 c) Las metodologías y tecnologías para Big Data aparecen como respuesta a la necesidad de tratar cantidades de datos tan grandes que desbordan los sistemas convencionales monomáquina.
2 b) Al principio se usaba «las 3 Vs» (Volumen, Velocidad, Variedad), y con el tiempo se añadieron otras 2 características para formar «las 5 Vs» (Veracidad, Valor).
3 d) Según la tabla de unidades, un terabyte (TB) equivale a 1000 gigabytes (10¹² bytes).
4 c) La nomenclatura en base 10 (kB, MB, etc.) se emplea a menudo indistintamente para base 10 (1000 bytes) y base 2 (1024 bytes), dependiendo del fabricante o contexto.
5 c) Las fuentes mencionan datos de sensores, salud, IoT, usuarios, transacciones, redes sociales, geolocalización, logs, genómica, meteorología, cámaras, micrófonos, RFID, sectores energético/industrial, y Open Data, pero no estudios de mercado tradicionales en papel como fuente directa de Big Data.
6 c) No existe ninguna entidad u organismo que regule el tamaño de datos concreto a partir del cual se considera Big Data. Simplemente, los sistemas Big Data trabajan con volúmenes del orden de petabytes (PB) e incluso exabytes (EB).
7 b) El problema con respecto a la velocidad es lo rápido que es necesario obtener los datos y ser capaces de integrarlos junto con los que ya tenemos.
8 c) La proporción de datos no estructurados en el mundo se estima en más del 80% del total.
9 c) Ejemplos de formatos de fichero en los que se guardan datos semiestructurados son CSV, XML, JSON.
10 c) Ruido son datos que no pueden ser convertidos en información (ya sea porque no la contienen o porque ésta está corrupta y es irrecuperable).
11 c) El valor depende de la veracidad, el tiempo transcurrido, la completitud y la interpretación correcta, pero no se menciona la cantidad de almacenamiento físico como un factor directo del valor del dato en sí mismo.
12 c) La Ciencia de Datos es en el fondo la misma Minería de Datos, pero haciendo énfasis en que se realiza en entornos de Big Data.
13 b) Un clúster es un conjunto de computadoras conectadas mediante red para trabajar como una única unidad resolviendo cargas de trabajo de forma conjunta.
14 c) El escalado horizontal (scale-out) se consigue añadiendo más nodos a un clúster, siendo el tipo que permite la escalabilidad en Big Data.
15 d) Una característica clave para el alto rendimiento de las bases de datos relacionales es su capacidad para generar índices sobre columnas, lo que acelera las búsquedas.
16 b) Los Data Lakes pueden recopilar todo tipo de datos en crudo, mientras que los Data Warehouses solo almacenan datos estructurados ya procesados.
17 d) ACID está formado por Atomicidad, Consistencia, Aislamiento y Durabilidad. Disponibilidad es una propiedad relacionada con el Teorema CAP.
18 b) Si se requiere Tolerancia a particionamiento (P), solo se puede escoger entre cumplir Consistencia (C) y Tolerancia a particionamiento (P), o cumplir Disponibilidad (A) y Tolerancia a particionamiento (P), ya que las 3 no son posibles a la vez.
19 b) La capa de colección se encarga de integrar los datos para darles una estructura propia y unificarlos.
20 c) El paisaje de Big Data se refiere al panorama de las diversas herramientas y utilidades que se pueden emplear para desarrollar proyectos Big Data, a menudo categorizadas por capa o actividad.