Introducción a Big Data

Introducción

Este material formativo introduce el concepto de Big Data explicando las circunstancias que llevaron a su desarrollo, ejemplificado a través de desafíos de crecimiento en empresas. Se abordan las 5 Vs de Big Data (Volumen, Velocidad, Variedad, Veracidad y Valor) como características clave que definen este fenómeno. El texto explora la infraestructura de clústeres necesaria para gestionar grandes volúmenes de datos y detalla conceptos fundamentales de almacenamiento distribuido como bases de datos relacionales, Data Lakes, ACID, el teorema CAP y BASE. Finalmente, se discuten las estrategias y conceptos de procesamiento (paralelo, distribuido, por lotes, transaccional, en tiempo real y streaming), el principio SCV, la arquitectura por capas típica en proyectos de Big Data y el panorama de herramientas y roles profesionales dentro del campo.

Resumen Audio

Título del Documento: Introducción a Big Data

Caso Práctico Inicial: FL Logistics

Problema: Una empresa de logística en crecimiento, FL Logistics, está experimentando dificultades debido a la enorme cantidad de datos que necesita gestionar (proveedores, productos, orígenes, destinos, rutas, empleados, etc.). Su servidor central está saturado, limitando su crecimiento.
Necesidad: FL Logistics necesita ser capaz de «capturar, almacenar, gestionar y a ser posible también analizar una gran cantidad de datos» para operar de manera eficiente.
Contexto para Big Data: Este caso ilustra la necesidad de soluciones para manejar grandes volúmenes de información que desbordan los sistemas tradicionales.

¿Qué es Big Data?

Big Data (o macrodatos) se refiere al fenómeno de tener grandes cantidades de datos que desbordan los recursos de máquinas individuales y la incapacidad de realizar análisis en una única máquina.
No existe un tamaño de datos concreto a partir del cual se considere Big Data, pero hoy en día los sistemas para Big Data trabajan con volúmenes del orden de los petabytes (PB) e incluso exabytes (EB).
Big Data no es solo para analítica; implica capturar, almacenar, gestionar y, opcionalmente, analizar datos.

Las 5 Vs (y 7 Vs) de Big Data

Inicialmente se hablaban de 3 Vs, que se ampliaron a 5 y más recientemente a 7. El curso se centra en las 5 Vs principales:

Volumen: La gran cantidad de datos (en bytes) que componen Big Data.

La cantidad de información global ha crecido exponencialmente. Se estimaba en 4.4 ZB en 2013 y se espera que alcance 163 ZB en 2025.
Unidades de información digital: Bit, byte (B), kilobyte (kB), megabyte (MB), gigabyte (GB), terabyte (TB), petabyte (PB), exabyte (EB), zettabyte (ZB), yottabyte (YB).
Confusión con kB/KiB: Es importante notar la distinción entre unidades base 10 (kB = 1000 bytes) y base 2 (KiB = 1024 bytes), aunque a menudo se usan indistintamente.
Fuentes de datos masivos: Datos de usuarios/clientes, transacciones, sensores, redes sociales, salud, geolocalización, logs, IoT, genómica, meteorología, cámaras, micrófonos, RFID, sectores energético/industrial, y datos abiertos (Open Data).

Velocidad: La rapidez a la que se generan los datos y la rapidez con la que es necesario obtenerlos e integrarlos.

Ejemplos de velocidad de generación: 350,000 tweets por minuto, 300 horas de video subidas a YouTube por minuto, 171 millones de correos electrónicos por minuto.
La velocidad de llegada de datos nuevos da origen a estrategias de procesamiento tipo streaming.

Variedad: La diversidad en la representación de la información.

Datos estructurados: Organizados en tablas con un esquema definido (bases de datos relacionales). Tienen una estructura bien definida y son fácilmente buscables, ordenables y consultables.
Datos no estructurados: No están regidos por un esquema (videos, imágenes, audios, textos de redes sociales, blogs). Constituyen más del 80% de los datos en el mundo. Se procesan usando Bases de datos NoSQL, Data Lakes, Web Scrapping, APIs.
Datos semiestructurados: Tienen una estructura definida pero no son relacionales (CSV, XML, JSON). Mantienen flexibilidad pero permiten determinar el significado de porciones de información.
Metadatos: Datos extra sobre los datos convencionales para favorecer su interpretabilidad (fuente, autor, fecha, resolución, duración, etc.).

Veracidad: La calidad de los datos y su fidelidad a la realidad. Un problema es que los datos no siempre tienen la calidad deseada o no son totalmente fieles. El «ruido en los datos» se refiere a que «parte de los datos no contienen información usable o de la que se pueda obtener algún tipo de valor.»
Valor: Cuán útiles son los datos para una institución, empresa o persona.

La veracidad y la completitud de los datos influyen en su valor.
El tiempo transcurrido desde que se produjeron los datos afecta su valor (ej: valor de una acción en bolsa). Cuanto más rápido se procesan los datos, mayor valor se obtiene.
La interpretación correcta del dato es crucial para obtener valor.
El valor se obtiene al realizar acciones basadas en la «sabiduría» derivada de los datos, que son mejores que las acciones sin tener en cuenta los datos.

Otras Vs (no tratadas en profundidad en el curso):

Viabilidad: La capacidad de las empresas para generar un uso eficaz del gran volumen de datos.
Visualización: La necesidad de hacer comprensible y sencilla la lectura de grandes volúmenes de datos.

Qué se consigue gracias a Big Data

Las metodologías y tecnologías de Big Data permiten:

Capturar datos de diversas fuentes.
Integrarlos para un almacenamiento unificado.
Almacenarlos de forma distribuida y replicada (alta disponibilidad).
Tratarlos de forma distribuida (procesamiento paralelo en clusters).
Aplicar técnicas de minería de datos/ciencia de datos para crear modelos predictivos.
Usar modelos para predicciones en sistemas automáticos.
Crear visualizaciones y cuadros de mando para la toma de decisiones.

Beneficios de Big Data:

Generar registros más detallados.
Optimizar operaciones.
Actuar de modo inteligente basado en evidencia.
Identificar nuevos mercados.
Realizar predicciones.
Detectar fraude e impagos.
Dar soporte a la toma de decisiones.
Realizar descubrimientos científicos (ej: en medicina, creación de fármacos).

La Pirámide de la Información (DIKW):

Datos (Data): Observaciones o hechos en bruto (ej: «Llueve 4 mm»).
Información (Information): Datos con contexto, organizados lógicamente (ej: «La temperatura bajó y la humedad aumentó a las 10:00 del 10 de octubre en Almería, España»).
Conocimiento (Knowledge): Información analizada para identificar patrones o relaciones (ej: Un modelo matemático que relaciona temperatura, humedad y lluvia).
Sabiduría (Wisdom): Conocimiento con entendimiento para saber cómo emplearlo (ej: Poder anticipar por qué y cuándo lloverá según observaciones y el modelo).
Valor: El resultado mejorado de realizar acciones basadas en la sabiduría obtenida de los datos, comparado con no tenerlos en cuenta.
Importante: Aunque Big Data engloba obtener valor, son la minería de datos o la ciencia de datos las disciplinas que lo extraen. La Ciencia de Datos se considera Minería de Datos en entornos Big Data.

Clústeres de Computadoras

Concepto: Un conjunto de computadoras interconectadas que trabajan juntas como si fueran una única máquina virtual. Se utilizan para tratar con grandes cantidades de información que superan la capacidad de una máquina individual.

Ventajas del uso de clústeres: Alto rendimiento: La carga de trabajo se divide y distribuye para procesamiento paralelo, permitiendo resolver problemas complejos rápidamente.
Alta disponibilidad: Si un nodo falla, los servicios o datos pueden seguir disponibles gracias a la monitorización y redundancia.
Equilibrado de carga: Distribuye paquetes de trabajo entre nodos según su tamaño, estado de carga y potencia para optimizar el rendimiento.
Escalabilidad: La potencia de cálculo se puede aumentar añadiendo más nodos al cluster.
Tipos de escalado: Escalado vertical (scale-in): Mejorar el hardware de una máquina individual. Limitado y no proporciona escalabilidad real.
Escalado horizontal (scale-out): Añadir más nodos a un cluster. Permite la escalabilidad real, muy deseable en sistemas Big Data.

Conceptos de Almacenamiento de Datos

Base de Datos Relacional: Almacena registros en tablas con filas y columnas. Cada tabla tiene un esquema definido. Usa SQL como lenguaje de consulta. Ofrecen alto rendimiento para búsquedas y transacciones gracias a índices.

Reflexión importante: Las Bases de Datos Relacionales no están pensadas para escalar horizontalmente y manejar tablas tan grandes que no caben en un solo servidor, lo que las limita para entornos Big Data. Escalan verticalmente.

Dataset: Una colección de datos que guardan una relación, con sentido para ser tratados juntos (colección de tweets, imágenes, registros de BD, etc.). Pueden almacenarse en diversos formatos (texto, tablas, multimedia).
Almacén de Datos (Data Warehouse): Repositorio central a nivel institucional/empresarial para datos actuales e históricos. Usado para inteligencia de negocio (BI) y consultas analíticas. Suelen incluir tablas relacionales y subsistemas OLAP.
Data Lake: Repositorio de almacenamiento con grandes cantidades de datos en bruto, mantenidos en formatos nativos y sin procesar hasta que se necesitan. Usa una arquitectura plana. No tiene límite de tamaño.

Puede almacenar datos estructurados, no estructurados y semiestructurados.
A cada elemento se le asigna un ID único y metadatos.
Componentes clave de una arquitectura Data Lake: Ingesta de datos (escalable, diversas fuentes, tiempo real/lotes), Almacenamiento de datos (grandes volúmenes, en bruto, cifrado/compresión), Seguridad de datos (máxima seguridad), Analítica de datos (herramientas de análisis/machine learning), Gobierno de datos (entender el significado, calidad, disponibilidad, acceso).
Los Data Lakes se asocian a menudo con almacenamiento orientado a objetos en Hadoop. El término describe grandes conjuntos de datos donde el esquema no se define hasta la consulta.
Diferencias principales con Data Warehouses: Los Data Lakes almacenan datos en bruto y sin esquema predefinido (Schema-on-Read), mientras que los Data Warehouses almacenan datos estructurados y procesados con un esquema definido (Schema-on-Write). Los Data Lakes son más flexibles y manejan más variedad de datos.
Data Lakehouse: Una arquitectura híbrida que combina lo mejor de Data Lakes y Data Warehouses.

ACID: Principio de diseño fundamental para bases de datos transaccionales. Asegura la integridad de las transacciones. Acrónimo de:

Atomicidad (Atomicity): Las operaciones se completan por completo o fallan, dejando la base de datos en su estado inicial.
Consistencia (Consistency): Una transacción válida lleva la base de datos de un estado válido a otro.
Aislamiento (Isolation): Múltiples transacciones concurrentes no interfieren entre sí, comportándose como si se ejecutaran secuencialmente.
Durabilidad (Durability): Una vez que una transacción se confirma, sus cambios son permanentes y sobreviven a fallos del sistema.
ACID utiliza un control «pesimista» de la concurrencia, bloqueando registros/tablas para asegurar la consistencia. Las bases de datos relacionales se usan para transacciones y, por lo tanto, deben ser ACID.

Teorema CAP: (Conjetura de Brewer) Establece que una base de datos distribuida solo puede cumplir un máximo de 2 de 3 propiedades:

Consistencia (Consistency): Todos los nodos ven los datos más recientes.
Disponibilidad (Availability): El sistema siempre responde a las solicitudes.
Tolerancia a particionamiento (Partition tolerance): El sistema sigue funcionando a pesar de fallos en la red o nodos inaccesibles.
En sistemas distribuidos para Big Data (donde la Tolerancia a Particionamiento es crucial), hay que elegir entre Consistencia y Disponibilidad (C+P o A+P).

BASE: Principio de diseño de bases de datos distribuidas basado en las restricciones del Teorema CAP. Típicamente prefiere la disponibilidad (A+P). Significado del acrónimo:

Básicamente disponible (BAsically available): La base de datos siempre responde, incluso durante particionamiento (aunque la respuesta puede no ser consistente).
Estado blando (Soft state): La base de datos puede estar en un estado inconsistente; dos lecturas iguales pueden dar resultados diferentes sin escrituras intermedias.
Consistencia eventual (Eventual consistency): Si no hay nuevas escrituras, todos los accesos a los datos eventualmente devolverán el último valor escrito. No garantiza consistencia inmediata. No adecuado para usos transaccionales.

Conceptos de Procesamiento de Datos

Procesamiento en paralelo: Realizar varias tareas al mismo tiempo.

Los sistemas operativos multitarea simulan paralelismo dividiendo el tiempo de ejecución.
El paralelismo real se logra con procesadores multinúcleo o multihilo, o con arquitecturas multiprocesador.
Tarea paralelizable: Se puede dividir en subtareas independientes que se ejecutan simultáneamente y cuyos resultados parciales se combinan (ej: sumar mil millones de números).
Tarea no paralelizable: La ejecución de cada paso depende del resultado del paso anterior, impidiendo la división en subtareas independientes (ej: una operación iterativa donde el siguiente paso depende del resultado actual).

Procesamiento distribuido: Distintos procesos para un mismo trabajo ejecutándose en distintas máquinas (nodos de un cluster). Es la base del procesamiento en ambientes Big Data.

Estrategias de procesamiento de datos: OLTP (On-Line Transaction Processing): Procesamiento transaccional. Orientado a transacciones pequeñas y rápidas (ej: registro de una compra, alta de usuario). Requiere alta consistencia (ACID). Típicamente usa bases de datos relacionales.
OLAP (On-Line Analytical Processing): Procesamiento para analítica en tiempo real. Orientado a consultas complejas y agregadas sobre grandes volúmenes de datos para inteligencia de negocio y minería de datos. Almacena datos en bases de datos multidimensionales (cubos OLAP) optimizadas para consultas rápidas, a menudo desnormalizadas y mantenidas en memoria RAM.
Procesamiento por lotes (Batch Processing): Procesa grandes volúmenes de datos en bloques (lotes) de forma periódica (diaria, semanal). Es eficiente para trabajos que no requieren resultados inmediatos.
Procesamiento en tiempo real (Real-time Processing): Procesa datos tan pronto como se generan, proporcionando resultados inmediatos. Se usa tanto en OLTP como en OLAP.
Procesamiento en streaming (Streaming Processing): Un tipo de procesamiento en tiempo real que maneja un flujo continuo de datos a medida que llegan.
Procesamiento híbrido: Combina diferentes estrategias (ej: tiempo real + lotes).

Principio SCV: Similar al Teorema CAP pero para el procesamiento distribuido. Un sistema de procesamiento distribuido solo puede soportar un máximo de 2 de 3 propiedades:

Velocidad (Speed): Cuánto tardan en procesarse los datos.
Consistencia (Consistency): La precisión y fiabilidad de los resultados.
Volumen (Volume): La cantidad de datos que pueden ser procesados.
En ambientes Big Data, el Volumen es una obligación. Por lo tanto, hay que elegir entre Velocidad y Consistencia (S+V resultará en C baja; C+V resultará en S baja). Para análisis en tiempo real (alta S) con grandes volúmenes (V), a menudo se usa muestreo (baja C). Para procesamiento por lotes (alta C, alta V), la S es baja.

Capas de Big Data

Aunque las arquitecturas pueden variar, una estructura generalizada para el flujo de datos en Big Data incluye capas:

Capa de colección: Recopila datos de diversas fuentes.
Capa de ingestión: Introduce los datos al sistema, integrándolos y unificándolos para la tarea a realizar.
Capa de almacenamiento: Guarda la gran cantidad de datos, típicamente usando sistemas de almacenamiento distribuido y replicado.
Capa de procesamiento: Provee la infraestructura para tratar con grandes cantidades de datos (por lotes, tiempo real, streaming, híbrido). No obtiene valor del dato por sí misma, solo procesa lo que la capa superior le pide.
Capa de consulta y analítica: Comienza a obtener valor del dato realizando estadísticas, algoritmos o análisis, basándose en la capa de procesamiento.
Capa de visualización: Interacciona con el usuario final, mostrando reportes, cuadros de mando y visualizaciones para dar soporte a la toma de decisiones.
Capa de seguridad: Capa transversal para asegurar los datos y el sistema (métodos físicos y software, protección interna/externa).
Capa de monitorización: Capa transversal para monitorizar datos (auditoría, testeo, gestión, control) y el sistema (parte de la gobernanza de datos).

El Paisaje de Big Data y Roles

Paisaje de Big Data: Representa la gran cantidad y variedad de herramientas y utilidades que se pueden utilizar en los entornos de Big Data.
Ecosistema Hadoop: Una plataforma pionera para Big Data (enfocada a lotes) con un amplio ecosistema de herramientas:

HDFS: Sistema de ficheros distribuido y tolerante a fallos para almacenamiento.
Sqoop: Herramienta para transferir datos entre Hadoop y almacenamientos estructurados (BD relacionales).
Flume: Software para ingesta y transformación de datos masivos, facilitando streaming.
Hive: Tecnología distribuida sobre Hadoop que permite consultar grandes datasets en HDFS usando un dialecto de SQL (HiveSQL).
Spark: Plataforma enfocada a procesamiento en tiempo real y/o streaming, capaz de interactuar con herramientas Hadoop.
Nifi: Sistema distribuido para ingestar y transformar datos mediante streaming.
Kafka: Middleware de mensajería asíncrona entre sistemas heterogéneos (broker de mensajes).
Bases de datos NoSQL y NewSQL.
Diversas herramientas para analítica y visualización.
Roles y empleos en Big Data: Administrador de base de datos: Responsable del diseño, implementación, mantenimiento y operación de sistemas de bases de datos (locales y en la nube). Asegura disponibilidad, optimizaciones y rendimiento. Gestiona copias de seguridad y planes de recuperación.
Ingeniero de datos: Diseña, construye, instala, mantiene y gestiona la infraestructura de datos. Se asegura de que los datos estén disponibles, sean accesibles, limpios y confiables. Se ocupa de pipelines de datos y de la privacidad. En resumen, crea y opera la infraestructura para preparar datos para su análisis.
Analista de datos: Ayuda a las empresas a maximizar el valor de sus datos. Explora datos para identificar tendencias, implementa modelos analíticos y habilita funcionalidades de análisis avanzado (informes, visualizaciones). Procesa datos brutos en información relevante, consulta, resume y visualiza datos. Debe comprender estadísticas básicas, limpieza de datos, visualización y análisis exploratorio. En resumen, analiza datos para ayudar a la toma de decisiones.
Científico de datos: Aplica estadísticas, aprendizaje automático y enfoques analíticos para responder preguntas esenciales de negocio. Interpreta y entrega resultados (visualización, aplicaciones, storytelling). Trabaja con datasets de diferentes tamaños y ejecuta algoritmos en grandes conjuntos de datos. Debe estar al día en automatización y machine learning.

Este resumen abarca los puntos principales y los conceptos más importantes presentados en el documento de origen.

Guía de Estudio

Quiz de Comprensión

¿Qué problema principal enfrentó FL Logistics que motivó la necesidad de explorar Big Data?

FL Logistics enfrentó la saturación de su servidor central debido al crecimiento, lo que limitaba su capacidad para capturar, almacenar, gestionar y analizar la gran cantidad de datos necesarios para operar. Esto se convirtió en una preocupación ya que impedía seguir abriendo nuevos almacenes.

Nombra las cinco «Vs» del Big Data que se enfatizan en este curso.

Las cinco «Vs» del Big Data que se enfatizan en el curso son Volumen, Velocidad, Variedad, Veracidad y Valor.

Según las predicciones mencionadas, ¿cuál era el volumen estimado de datos a nivel mundial en 2025 y cómo se compara con años anteriores?

Según las predicciones, el volumen de datos a nivel mundial se esperaba que llegara a los 163 zettabytes para el año 2025. Esto representa un crecimiento exponencial desde los 4.4 zettabytes estimados en 2013.

¿Qué es la «variedad» en el contexto de Big Data y cuáles son los tres tipos principales de representación de datos?

La «variedad» en Big Data se refiere a la gran diversidad en la representación de la información. Los tres tipos principales de representación son datos estructurados, no estructurados y semiestructurados.

Explica a qué se refiere el término «ruido en los datos».

Nos referimos a ruido en los datos cuando una parte de los datos no contiene información usable o de la que se pueda obtener algún tipo de valor. Esto implica que no son totalmente fieles a la realidad o carecen de la calidad deseada.

¿Por qué la interpretación del dato es fundamental para obtener «valor» del mismo?

La interpretación del dato es fundamental porque incluso si un dato es veraz, una interpretación errónea del mismo disminuirá el valor que se puede obtener de él. Es necesario entender el contexto y el significado del dato para su uso adecuado

Menciona al menos tres aportes o beneficios generales que se consiguen gracias a las metodologías y tecnologías de Big Data.

Algunos aportes o beneficios de Big Data incluyen generar registros más detallados mediante la integración de fuentes, optimizar operaciones empresariales, identificar nuevos mercados, realizar predicciones y dar soporte a la toma de decisiones

¿Cuál es la principal diferencia entre escalado vertical y escalado horizontal en un clúster de computadoras?

El escalado vertical (scale-in) mejora las características de una sola computadora (procesador, memoria, almacenamiento), limitado por el hardware disponible. El escalado horizontal (scale-out) añade más nodos a un clúster, permitiendo una mayor potencia y capacidad de forma ampliable y es el tipo de escalado relevante para Big Data

Define qué es un Data Lake y cómo se diferencia de un Data Warehouse en términos de estructura de almacenamiento inicial.

Un Data Lake es un repositorio que contiene grandes cantidades de datos en formatos nativos y sin procesar, utilizando una arquitectura plana. A diferencia de un Data Warehouse jerárquico que almacena datos de forma estructurada.

¿Cuál es la relación entre el teorema CAP y el principio BASE en el diseño de bases de datos distribuidas?

El teorema CAP establece que una base de datos distribuida solo puede cumplir con un máximo de dos de las tres propiedades (Consistencia, Disponibilidad, Tolerancia a particionamiento). El principio BASE es una filosofía de diseño para bases de datos distribuidas que prefiere la disponibilidad sobre la consistencia (A+P en términos del teorema CAP).

Preguntas de Formato Ensayo Sugeridas

Explica en detalle las cinco «Vs» del Big Data (Volumen, Velocidad, Variedad, Veracidad y Valor), proporcionando ejemplos concretos de cada una basándote en el material del curso. Analiza por qué la creciente magnitud en cada una de estas áreas representa un desafío significativo para los sistemas de procesamiento de datos tradicionales.
Compara y contrasta las bases de datos relacionales, Data Warehouses y Data Lakes. Describe sus características principales, los tipos de datos que suelen almacenar, sus casos de uso típicos y cómo se relacionan con el entorno de Big Data.
Analiza el teorema CAP y el principio BASE. Explica las tres propiedades del teorema CAP y por qué no pueden cumplirse simultáneamente en una base de datos distribuida. Describe la filosofía del principio BASE y en qué escenarios de diseño de bases de datos distribuidas es más aplicable, justificando tu respuesta.
Describe las distintas capas de una arquitectura de Big Data (ingestión, colección, almacenamiento, procesamiento, consulta y analítica, visualización, seguridad, monitorización). Explica la función principal de cada capa y cómo interactúan entre sí para procesar datos desde su origen hasta la obtención de valor.
Explica la diferencia entre procesamiento en paralelo y procesamiento distribuido. Detalla el principio SCV (Velocidad, Consistencia, Volumen) en el procesamiento distribuido y analiza cómo la necesidad de manejar grandes volúmenes de datos en entornos Big Data impacta la posibilidad de lograr alta velocidad y consistencia simultáneamente.

Glosario de Términos Clave

Big Data (Macrodatos): Fenómeno relacionado con la captura, almacenamiento, gestión y análisis de grandes cantidades de datos que desbordan los recursos de máquinas individuales. Se caracteriza por las «Vs» (Volumen, Velocidad, Variedad, Veracidad, Valor, etc.).
Volumen: Se refiere a la gran cantidad de bytes de información que componen los datos, a menudo en el orden de petabytes o exabytes en entornos Big Data.
Velocidad: Se refiere a la alta tasa a la que se generan y deben ser procesados los datos.
Variedad: Se refiere a la diversidad en la representación de los datos, incluyendo datos estructurados, no estructurados y semiestructurados.
Veracidad: Se refiere a la calidad y fiabilidad de los datos, es decir, si son fieles a la realidad. El ruido en los datos afecta su veracidad.
Valor: Se refiere a cuán útiles son los datos para una institución, empresa o persona, y cuánto beneficio se puede obtener de ellos.
Viabilidad: La capacidad de las compañías para generar un uso eficaz del gran volumen de datos que manejan.
Visualización: La capacidad de hacer comprensible y sencilla la lectura de grandes volúmenes de información a través de representaciones visuales.
Datos Estructurados: Datos organizados en un esquema definido, típicamente en tablas de bases de datos relacionales con filas y columnas.
Datos No Estructurados: Datos que no tienen un esquema definido, como videos, imágenes o audios.
Datos Semiestructurados: Datos definidos según una cierta estructura pero sin naturaleza relacional, a menudo almacenados en formatos como CSV, XML o JSON.
Metadatos: Datos extra que se guardan acerca de los propios datos para favorecer su interpretabilidad, como la fuente, autor o fecha de creación.
Ruido en los Datos: Parte de los datos que no contienen información usable o de la que se pueda obtener algún tipo de valor.
Clusters de Computadoras: Un conjunto de computadoras interconectadas que trabajan juntas como un recurso unificado, ofreciendo alto rendimiento, alta disponibilidad, equilibrado de carga y escalabilidad.
Escalado Vertical (Scale-in): Mejorar las características hardware de una única computadora.
Escalado Horizontal (Scale-out): Añadir más nodos a un clúster para aumentar su capacidad. Es el tipo de escalado relevante para Big Data.
Base de Datos Relacional: Un almacén de información que almacena registros en tablas con esquemas definidos y relaciones entre ellas, típicamente consultado con SQL.
SQL: Lenguaje comúnmente empleado para interactuar con bases de datos relacionales.
Dataset (Conjunto de Datos): Una colección de datos que guardan una cierta relación y que tiene sentido tratar juntos.
Almacén de Datos (Data Warehouse): Un repositorio central de datos a nivel institucional o empresarial, utilizado para inteligencia de negocio y análisis, a menudo incluyendo tablas relacionales y subsistemas OLAP.
Data Lake (Lago de Datos): Un repositorio de almacenamiento que contiene grandes cantidades de datos en formatos nativos y sin procesar, con una arquitectura plana.
ACID: Principio fundamental de diseño para bases de datos transaccionales, garantizando Atomicidad, Consistencia, Aislamiento y Durabilidad.
Atomicidad: Las operaciones sobre la base de datos se completan totalmente o fallan sin dejar rastro.
Consistencia (ACID): Asegura que cada transacción lleve la base de datos de un estado válido a otro estado válido.
Aislamiento: Las transacciones concurrentes parecen ejecutarse de forma aislada, sin interferencias entre sí.
Durabilidad: Una vez que una transacción se ha confirmado, los cambios persisten incluso en caso de fallos del sistema.
Teorema CAP (Conjetura de Brewer): Establece que una base de datos distribuida solo puede cumplir un máximo de dos de las tres propiedades: Consistencia, Disponibilidad y Tolerancia a particionamiento.
Consistencia (CAP): Todas las lecturas reciben el dato más reciente escrito.
Disponibilidad: Cada solicitud recibe una respuesta exitosa o de error, sin garantizar que el dato sea el más reciente.
Tolerancia a Particionamiento: El sistema continúa operando a pesar de fallos en la red que dividen el clúster en particiones.
BASE: Un principio de diseño de bases de datos distribuidas que prefiere la disponibilidad y la tolerancia a particionamiento sobre la consistencia estricta (Básicamente disponible, Estado blando, Consistencia eventual).
Básicamente Disponible (Basically available): El sistema siempre responde a las solicitudes.
Estado Blando (Soft state): El estado del sistema puede cambiar con el tiempo, incluso sin nuevas escrituras, debido a la propagación eventual de datos.
Consistencia Eventual (Eventual consistency): Si no hay nuevas escrituras, todas las lecturas eventualmente devolverán el último dato escrito.
Procesamiento en Paralelo: La capacidad de un sistema (una máquina individual) de realizar varias tareas al mismo tiempo o concurrente.
Multitarea: Capacidad de un sistema operativo para ejecutar múltiples procesos aparentemente al mismo tiempo.
Multinúcleo: Procesador con varios núcleos de procesamiento completos.
Multihilo: CPU diseñada para atender a más de un hilo de ejecución.
Procesamiento Distribuido: Distintos procesos para un mismo trabajo ejecutándose en distintas máquinas (nodos de un clúster).
Estrategias de Procesamiento de Datos: Cómo se trabaja con los datos según el tipo de actividad (por lotes, streaming, híbrido).
OLTP (Procesamiento Transaccional en Línea): Sistemas optimizados para manejar un gran número de transacciones cortas y concurrentes, típicamente usando bases de datos relacionales.
OLAP (Procesamiento Analítico en Línea): Sistemas optimizados para realizar consultas analíticas complejas sobre grandes volúmenes de datos, a menudo utilizando bases de datos multidimensionales.
Principio SCV: Principio relacionado con el procesamiento distribuido, estableciendo que un sistema solo puede soportar como máximo 2 de las 3 características: Velocidad, Consistencia y Volumen.
Velocidad (SCV): Cuánto tardan en procesarse los datos desde el momento en que son recibidos.
Consistencia (SCV): Se refiere a si el resultado del procesamiento se basa en la totalidad de los datos relevantes, produciendo un resultado preciso.
Volumen (SCV): La cantidad de datos que pueden ser procesados.
Capa de Ingestión: Se encarga de capturar datos de diversas fuentes.
Capa de Colección: Se encarga de integrar los datos de modo que queden unificados y con sentido para la tarea a realizar.
Capa de Almacenamiento: Donde se guardan los datos, a menudo utilizando sistemas de almacenamiento distribuido.
Capa de Procesamiento: Provee la infraestructura para tratar con grandes cantidades de datos (por lotes, streaming, etc.).
Capa de Consulta y Analítica: Donde se comienza a obtener valor del dato mediante estadísticas, algoritmos y análisis.
Capa de Visualización: La capa de interacción con el usuario final, mostrando reportes y cuadros de mando.
Capa de Seguridad: Capa transversal que asegura la protección de los datos.
Capa de Monitorización: Capa transversal que supervisa los datos y el sistema para asegurar su corrección y frescura.
Paisaje de Big Data: Representación visual de las diversas herramientas y utilidades disponibles en el ecosistema de Big Data para las diferentes fases del trabajo con datos.
Hadoop: Plataforma pionera para Big Data, enfocada a trabajo por lotes.
HDFS (Hadoop Distributed File System): Sistema de ficheros distribuido de Hadoop, tolerante a fallos.
Sqoop: Herramienta para transferir datos entre Hadoop y almacenamientos estructurados.
Flume: Software para ingesta y tratamiento masivo de datos en streaming.
Hive: Tecnología distribuida sobre Hadoop que permite consultar grandes datasets en HDFS usando un dialecto de SQL.
Spark: Plataforma enfocada a procesamiento en tiempo real y/o streaming.
Kafka: Middleware de mensajería para comunicación asíncrona entre sistemas.
Bases de Datos NoSQL: Bases de datos que no siguen el modelo relacional, a menudo utilizadas para necesidades específicas de almacenamiento y escalabilidad horizontal.
Administrador de Base de Datos: Responsable del diseño, implementación, mantenimiento y operaciones de sistemas de bases de datos.
Ingeniero de Datos: Crea y opera la infraestructura de datos necesaria para preparar los datos para su análisis.
Analista de Datos: Explora datos para identificar tendencias y relaciones, diseña modelos analíticos y habilita funcionalidades de análisis a través de informes y visualizaciones. Analiza datos para tomar decisiones informadas.
Científico de Datos: Aplica estadísticas, aprendizaje automático y enfoques analíticos para responder preguntas empresariales, interpretando y entregando resultados.

Evaluación

Cuestionario: Introducción a Big Data

Instrucciones: Selecciona la mejor respuesta para cada pregunta basándote en la información de las fuentes.

¿Cuál es el problema fundamental que origina la aparición de las metodologías y tecnologías Big Data, según las fuentes? a) Tener datos que no se sabe de dónde proceden. b) Tener grandes cantidades de datos que no caben en el almacenamiento conjunto de varias máquinas. c) Tener grandes cantidades de datos que desbordan los recursos de máquinas individuales. d) La incapacidad de realizar analítica en una única máquina.
Inicialmente, la literatura sobre Big Data usaba el término «las 3 Vs». Con el tiempo, ¿cuántas características se añadieron para llegar a «las 5 Vs»? a) Ninguna, siempre fueron 5. b) Dos. c) Tres. d) Cuatro.
Según las fuentes, ¿cuál es la unidad de cantidad de información digital que corresponde a 1000 gigabytes (10¹² bytes)? a) Petabyte (PB). b) Exabyte (EB). c) Zettabyte (ZB). d) Terabyte (TB).
Respecto a las unidades de cantidad de información, cuando vemos un valor de 1 kB, ¿a cuántos bytes puede corresponder según las fuentes? a) A 1000 bytes siempre. b) A 1020 bytes siempre. c) Dependiendo de la situación, quizás se refiera a 1 kB (1000 bytes) o a 1 KiB (1024 bytes). d) A 1024 bytes siempre.
¿Cuál de las siguientes opciones no es mencionada en las fuentes como una fuente posible de datos que contribuye al Big Data? a) Datos adquiridos por sensores. b) Datos relacionados con la salud. c) Datos producidos por estudios de mercado tradicionales en papel. d) Datos producidos por el Internet de las cosas (IoT).
Según las fuentes, ¿existe alguna entidad u organismo que regule a partir de qué cantidad de datos es Big Data? a) Sí, y establece que es a partir de 1 Petabyte. b) Sí, y establece que es a partir de 1 Exabyte. c) No, no existe ninguna entidad que lo regule. d) Solo la Wikipedia lo regula.
El problema con respecto a la velocidad en Big Data no es solo que el volumen crezca, sino también: a) La dificultad para visualizarlos rápidamente. b) Lo rápido que es necesario obtenerlos e integrarlos con los datos existentes. c) La falta de herramientas para procesar datos en tiempo real. d) La incapacidad de almacenar datos que llegan a gran velocidad.
¿Qué porcentaje de los datos en el mundo se estima que son no estructurados, según las fuentes? a) Menos del 20%. b) Entre el 20% y el 50%. c) Más del 80%. d) Aproximadamente el 50%.
¿A qué tipo de información corresponde, generalmente, un fichero con extensión .json? a) Estructurados. b) No estructurados. c) Semiestructurados. d) Metadatos.
En el contexto de la veracidad en Big Data, ¿a qué se refieren las fuentes cuando hablan de «ruido en los datos»? a) A que el fichero de audio se grabó con un micrófono de baja calidad. b) A que guardamos el sonido en un ambiente ruidoso. c) A que parte de los datos no contienen información usable o de la que se pueda obtener algún tipo de valor. d) No puede haber ruido en los datos, solo en el audio.
¿Cuál de los siguientes factores no se menciona como algo que influye en el «valor» que se puede obtener de los datos? a) La veracidad (fidelidad a la realidad) de los datos. b) El tiempo transcurrido desde que se produjeron los datos. c) La cantidad de almacenamiento físico disponible para los datos. d) La interpretación correcta de los datos.
Según las fuentes, ¿cuál es la diferencia principal entre Minería de Datos y Ciencia de Datos? a) No hay diferencia, son términos equivalentes. b) La Minería de Datos se realiza en entornos Big Data, mientras que la Ciencia de Datos se realiza fuera de ellos. c) La Ciencia de Datos se realiza en entornos Big Data, mientras que la Minería de Datos puede realizarse fuera de ellos. d) La Minería de Datos solo usa aprendizaje automático, mientras que la Ciencia de Datos usa estadísticas y otros enfoques.
¿Qué es un clúster de computadoras en ambientes de computación, según las fuentes? a) Una única computadora muy potente con múltiples procesadores. b) Un conjunto de computadoras conectadas entre sí para trabajar como una única unidad resolviendo cargas de trabajo conjuntamente. c) Un software que permite ejecutar varias tareas al mismo tiempo en una sola máquina. d) Un sistema de almacenamiento distribuido para copias de seguridad.
¿Cuál es el tipo de escalado que se consigue añadiendo más nodos a un clúster y que realmente permite conseguir la característica de escalabilidad para sistemas Big Data? a) Escalado vertical (scale-in). b) Escalado diagonal. c) Escalado horizontal (scale-out). d) Escalado de rendimiento.
¿Cuál de las siguientes afirmaciones es cierta en relación a las bases de datos relacionales, según las fuentes? a) Son altamente escalables para entornos Big Data. b) No es necesario conocer los tipos de datos a almacenar de antemano. c) Utilizan MySQL como lenguaje de consulta principal. d) Crear índices para las columnas sobre las que se hacen búsquedas acelera estas operaciones.
¿Cuál es la principal diferencia mencionada entre un Data Lake y un Data Warehouse en cuanto a la naturaleza de los datos que almacenan? a) Los Data Lakes solo almacenan datos estructurados, mientras que los Data Warehouses almacenan todo tipo de datos. b) Los Data Lakes almacenan datos en crudo de cualquier naturaleza, mientras que los Data Warehouses solo almacenan datos estructurados ya procesados. c) Los Data Lakes y Data Warehouses almacenan los mismos tipos de datos, pero en formatos diferentes. d) Los Data Lakes almacenan datos para transacciones, mientras que los Data Warehouses almacenan datos para analítica.
¿Cuál de las siguientes propiedades no forma parte del acrónimo ACID que rige las bases de datos transaccionales? a) Atomicidad (Atomicity). b) Consistencia (Consistency). c) Aislamiento (Isolation). d) Disponibilidad (Availability).
Según el Teorema CAP, una base de datos distribuida solo puede cumplir como máximo con 2 de 3 propiedades (Consistencia, Disponibilidad, Tolerancia a particionamiento). En los casos en que se quiere cumplir con la Tolerancia a particionamiento (P), ¿qué otras dos combinaciones son posibles? a) C+A o A+P. b) C+P o A+P. c) C+A o C+P. d) Solo A+P.
¿Qué capa de la arquitectura de Big Data se encarga de integrar los datos de diversas fuentes para darles una estructura unificada y con sentido para la tarea a realizar? a) La capa de ingestión. b) La capa de colección. c) La capa de almacenamiento. d) La capa de procesamiento.
Según las fuentes, ¿qué queda representado en el «paisaje de Big Data»? a) Las distintas capas por las que pasan los datos en una arquitectura típica. b) La posible distribución física de los nodos de un clúster dentro de un centro de datos. c) Las herramientas y utilidades que se pueden utilizar para desarrollar proyectos Big Data. d) Únicamente las herramientas para la capa de almacenamiento.

Respuestas y Explicaciones

Pregunta	Respuesta Correcta	Explicación
1	c)	Las metodologías y tecnologías para Big Data aparecen como respuesta a la necesidad de tratar cantidades de datos tan grandes que desbordan los sistemas convencionales monomáquina.
2	b)	Al principio se usaba «las 3 Vs» (Volumen, Velocidad, Variedad), y con el tiempo se añadieron otras 2 características para formar «las 5 Vs» (Veracidad, Valor).
3	d)	Según la tabla de unidades, un terabyte (TB) equivale a 1000 gigabytes (10¹² bytes).
4	c)	La nomenclatura en base 10 (kB, MB, etc.) se emplea a menudo indistintamente para base 10 (1000 bytes) y base 2 (1024 bytes), dependiendo del fabricante o contexto.
5	c)	Las fuentes mencionan datos de sensores, salud, IoT, usuarios, transacciones, redes sociales, geolocalización, logs, genómica, meteorología, cámaras, micrófonos, RFID, sectores energético/industrial, y Open Data, pero no estudios de mercado tradicionales en papel como fuente directa de Big Data.
6	c)	No existe ninguna entidad u organismo que regule el tamaño de datos concreto a partir del cual se considera Big Data. Simplemente, los sistemas Big Data trabajan con volúmenes del orden de petabytes (PB) e incluso exabytes (EB).
7	b)	El problema con respecto a la velocidad es lo rápido que es necesario obtener los datos y ser capaces de integrarlos junto con los que ya tenemos.
8	c)	La proporción de datos no estructurados en el mundo se estima en más del 80% del total.
9	c)	Ejemplos de formatos de fichero en los que se guardan datos semiestructurados son CSV, XML, JSON.
10	c)	Ruido son datos que no pueden ser convertidos en información (ya sea porque no la contienen o porque ésta está corrupta y es irrecuperable).
11	c)	El valor depende de la veracidad, el tiempo transcurrido, la completitud y la interpretación correcta, pero no se menciona la cantidad de almacenamiento físico como un factor directo del valor del dato en sí mismo.
12	c)	La Ciencia de Datos es en el fondo la misma Minería de Datos, pero haciendo énfasis en que se realiza en entornos de Big Data.
13	b)	Un clúster es un conjunto de computadoras conectadas mediante red para trabajar como una única unidad resolviendo cargas de trabajo de forma conjunta.
14	c)	El escalado horizontal (scale-out) se consigue añadiendo más nodos a un clúster, siendo el tipo que permite la escalabilidad en Big Data.
15	d)	Una característica clave para el alto rendimiento de las bases de datos relacionales es su capacidad para generar índices sobre columnas, lo que acelera las búsquedas.
16	b)	Los Data Lakes pueden recopilar todo tipo de datos en crudo, mientras que los Data Warehouses solo almacenan datos estructurados ya procesados.
17	d)	ACID está formado por Atomicidad, Consistencia, Aislamiento y Durabilidad. Disponibilidad es una propiedad relacionada con el Teorema CAP.
18	b)	Si se requiere Tolerancia a particionamiento (P), solo se puede escoger entre cumplir Consistencia (C) y Tolerancia a particionamiento (P), o cumplir Disponibilidad (A) y Tolerancia a particionamiento (P), ya que las 3 no son posibles a la vez.
19	b)	La capa de colección se encarga de integrar los datos para darles una estructura propia y unificarlos.
20	c)	El paisaje de Big Data se refiere al panorama de las diversas herramientas y utilidades que se pueden emplear para desarrollar proyectos Big Data, a menudo categorizadas por capa o actividad.