El concepto Big data, datos masivos o macrodatos, es un término que se utiliza para definir un conjunto de datos o combinaciones de conjuntos de datos normalmente de gran tamaño y donde es un verdadero problema su captura, gestión y procesamiento por tecnologías y herramientas convencionales. Los sistemas que procesan y almacenan datos masivos se están convirtiendo en un componente necesario de las arquitecturas actuales de gestión de datos en las organizaciones.

Los datos masivos tienen una serie de características que ayudan a entender en qué consisten, lo que se conoce como las 3V; volumen, variedad y velocidad.

Volumen: El volumen o el tamaño del conjunto de los datos es una característica del Big Data, sin embargo, un entorno de big data no tiene que contener una enorme cantidad de datos, si bien es cierto que la mayoría contienen datos masivos debido a la naturaleza de los datos que se recopilan y almacenan en ellos.

Los flujos de clics, los registros del sistema y los sistemas de procesamiento de flujo se encuentran entre las fuentes que generalmente producen volúmenes masivos de datos de manera continua. La cantidad de datos se define “Big” no cuando supera un tamaño definido, sino cuando su almacenamiento, procesamiento y explotación empieza a ser un reto para una empresa.

Tal como hemos dicho, Big Data no se determina necesariamente a partir de un volumen determinado de datos, sin embargo, las implementaciones de big data normalmente hacen referencia a cantidades de datos medibles en Terabytes (TB) donde el equivalente son 1000 gigabytes (GB), Petabytes (PB) donde cada PB equivale a 1000 TB, Exabytes (EB) donde cada EB equivale a 1000 PB, o incluso Zettabytes (ZB) donde cada ZB equivale a 1000 EB.

Como nota adicional añadir que, por supuesto, existen unidades de medida mayores a las mencionadas. Para entenderlo en proporción con un ejemplo, se estima que la cantidad de datos creados en todo el mundo para el 2020 alcanzará un volumen de 47 Zettabytes.

“Sin análisis de Big Data, las empresas están ciegas y sordas”  Geoffrey Moore

Variedad: Esta característica hace referencia a la gran variedad de tipos de datos almacenados que puede haber en los sistemas de datos masivos. Un sistema Big data puede estar formado por distintos tipos de datos en base a su estructura:

    • Datos estructurados como los que podemos encontrar en una base de datos relacional tradicional.
    • Datos no estructurados como pueden ser archivos de texto y documentos almacenados o los llamados sistemas de bases de datos NoSQL.
    • Datos semiestructurados podrían ser los registros de un servidor o transmisión de datos, a tiempo real o no, provenientes de sensores utilizados en el Internet de cosas (IoT).

Las aplicaciones de Big Data permiten la integración de diferentes fuentes de datos. De esta manera, se podría intentar llevar a cabo un proyecto de big data donde el objetivo fuera medir el éxito de una marca y las ventas futuras realizando una correlación de datos de ventas previas en tiendas físicas, devoluciones y revisiones de los consumidores en las tiendas online.

Velocidad: Hace referencia a la velocidad a la que se pueden generar datos masivos para ser procesados y analizados. En muchos casos, los conjuntos de Big Data se actualizan en tiempo real o casi en tiempo real, en lugar de las actualizaciones diarias, semanales o mensuales realizadas en muchos almacenes de datos tradicionales.

La gestión de la velocidad es crucial a medida que el análisis de Big Data se une a campos como el aprendizaje automático, sobre todo en procesos de aprendizaje profundo o deep learning, y la inteligencia artificial (IA), donde los procesos analíticos encuentran automáticamente patrones en los datos recopilados y los utilizan para generar información.

“Los datos son la nueva ciencia. El Big Data contiene las respuestas” Pat Gelsinger

Posteriormente, se han agregado, otras características en diferentes descripciones actualizadas de Big Data, algunas de ellas incluyen conceptos como la veracidad, el valor y la variabilidad de los datos.

La veracidad de los datos hace referencia al grado de certeza en los conjuntos de datos. Los datos sin procesar no confiables recopilados de múltiples fuentes, como las plataformas de redes sociales o páginas web, pueden causar serios problemas en la calidad de los datos que pueden ser difíciles de identificar.

El volumen de datos inciertos o no completamente veraces en una empresa deben tenerse en cuenta previamente a su uso en aplicaciones de análisis de Big Data. Los equipos de análisis también deben asegurarse de tener suficientes datos limpios, precisos y disponibles para producir resultados válidos.

El valor. El uso de datos inexactos puede debilitar los conocimientos adquiridos en los análisis. Es fundamental que las organizaciones empleen técnicas de limpieza de datos y confirmen que los datos se relacionan con problemas comerciales relevantes previamente a su uso en un proyecto de Big Data.

Los datos incorrectos conducen a un análisis inexacto y pueden socavar el valor de los análisis comerciales porque puede hacer que los ejecutivos desconfíen de los datos en su conjunto. El objetivo es que estos datos generen un beneficio para la empresa.

La variabilidad es una característica común a los grandes conjuntos de datos, que son menos consistentes que los datos de transacciones convencionales y pueden tener múltiples significados o estar formateados de diferentes maneras de una fuente de datos a otra, factores que complican aún más los esfuerzos para procesarlos y analizarlos.