Análisis Steiner

BIG DATA

conjuntos de datos o combinaciones de conjuntos de datos cuyo tamaño (volumen
), complejidad (variabilidad) y velocidad de crecimiento (velocidad) dificultan su captura, gestión, procesamiento o análisis mediante tecnologías y herramientas convencionales, tales como datos relacionales y estadísticas convencionales o paquetes de visualización, dentro del tiempo necesario para que sean útiles.

Lo que hace que Big Data sea tan útil para muchas empresas es el hecho de que proporciona respuestas a muchas preguntas que las empresas ni siquiera sabían que tenían.

Reducción de costes, mas rápido(toma mejores decisiones), nuevos productos y servicios

RESUMIENDO…


Big Data es uno más de los muchos conceptos que han cogido fuerza en el mundo tecnológico en los últimos años, y dicho de una forma sencilla es un gran volumen de datos digitales que provienen de diferentes fuentes.

QUÉ ES EL BIG DATA

Big Data no es una tecnología específica, sino que está vinculada a otras tecnologías relacionadas con la información digital.

Para poder ahondar un poco más en el término es conveniente primero introducir algunos conceptos tecnológicos relacionados con el procesamiento de datos.

TIPOS DE DATOS

Como «datos» entenderemos cualquier información relevante para la empresa.

Para el resto del artículo asumiremos que estos datos son digitales, aunque en la realidad no siempre es así.

Datos estructurados

Son los datos que forman parte de una estructura predefinida.

Como ejemplos encontramos una hoja de Excel o una base de datos SQL.

Estos datos son fácilmente catalogables, y pueden ser utilizados para posteriores análisis y predicciones fiables.

Datos no estructurados

Son aquellos datos que no tienen ni forman parte de una estructura definida.

Como ejemplos encontramos el cuerpo de un email, una conversación por skype, datos escritos en un fichero word, o incluso bases de datos NoSQL.

Estos datos contienen mucha información valiosa, pero al no estar bien estructurada y catalogada, su uso resulta complicado a la hora de crear informes y realizar análisis.

Las últimas tendencias en Inteligencia Artificial, especialmente los algoritmos de Machine Learning, contemplan el análisis de datos no estructurados con el objetivo de obtener conclusiones fiables; es un campo complejo y en evolución, pero con un futuro muy prometedor.


LAS 5 «V» DEL BIG DATA

El Big Data se caracteriza por cumplir con las 5 «V», que no son más que 5 carácterísticas representativas de esta tecnología.

Volumen

Una de las carácterísticas del Big Data es que nuevos datos se generan constantemente. Además, como las fuentes son diversas, el volumen de datos tiende a ser inmenso.

Velocidad

No sólo se generan muchos datos y desde muchas fuentes, sino que lo normal es que la velocidad a la que se generan estos datos sea muy alta. Esto provoca un flujo de datos muy difícil de gestionar con software tradicional.

Variedad

Debido a la naturaleza unificadora del Big Data, se debe gestionar la información que llega de fuentes muy diferentes. Esto supone que, incluso siendo datos estructurados, tal estructura sea diferente en cada fuente, lo que supone un nuevo reto a solventar para la empresa.

Valor

Debido a la inmensa cantidad de datos que se debe procesar, se ha de tener especial cuidado en la elección de los datos que realmente son importantes para la empresa y sus futuras operaciones. Una buena definición de objetivos y estrategia previa al almacenamiento de datos ahorrará mucho tiempo de cómputo y facilitará la gestión a largo plazo.

Veracidad

El Big Data debe alimentarse con datos relevantes y verdaderos.

No podremos realizar analíticas útiles si muchos de los datos entrantes provienen de fuentes falsas o con errores en su información.


ALMACENAMIENTO DE LOS DATOS

On-Premise

Este término es utilizado para referirse a las instalaciones locales de software y hardware (servidores, racks, sistemas de almacenamiento…).

Se dice que una empresa tiene una instalación on-premise cuando ella misma se encarga de la infraestructura, gestión del software, y de los datos.

Cloud

El término cloud se utiliza para referirse al uso de infraestructuras (tanto hardware como software) de terceros, para el almacenamiento, gestión y procesado de los datos y aplicaciones.

El cloud, muchas veces referido como «cloud computing», suele ser un modelo de alquiler o pago por uso, y algunas de las empresas líderes en este sector son Microsoft, Amazon o Google.

El Cloud Computing no es sólo infraestructura, sino también un conjunto de servicios computacionales que permite a cualquier empresa instalar sus diferentes soluciones software, mantenerlas, analizar su rendimiento, escalarlas, realizar copias de seguridad y mucho más.

Almacén de datos (Data warehouse)

Un


Data Warehouse es un repositorio de datos que almacena la información proveniente de diversas fuentes y sistemas de la empresa.

Estos almacenes de datos destacan por su gran capacidad y por proveer un acceso óptimo a los datos, independientemente de que se encuentren On-Premise o en la nube.


PROCESADO DE LOS DATOS

Como ya se ha comentado previamente, el objetivo del Big Data es unificar el almacenamiento y procesado de diferentes fuentes de datos con el objetivo de realizar diversos análisis de datos con toda la información de la empresa.

Para un correcto procesado de los datos se debe pasar por 3 fases conocidas como ETL («extract, transform, load»).

Extracción

Esta fase consiste en la centralización de las capturas de datos provenientes de diversas fuentes.

Transformación

Esta fase trata de estandarizar los diferentes conjuntos de datos con el objetivo de que a la salida tengan una estructura similar.

Esta es una etapa compleja que requerirá de código a medida en función de nuestros datos. Esta fase también es conocida como limpieza de los datos.

Load o Carga

El «Load» o «Carga» consiste en el almacenamiento de los datos en un almacén de datos (Data Warehouse), para su posterior análisis.


ANALÍTICA DE DATOS EN BIG DATA

Una vez hayamos recopilado, unificado y limpiado los datos podremos comenzar a analizar la información de una forma fiable, para lo que necesitaremos software especializado.

Análisis de datos

Esta es una etapa posterior a la gestión de los datos y, aunque el Big Data tiene como objetivo establecer una base sobre la que realizar analíticas complejas, es un campo más bien asociado al Business Intelligence.

Es por ello que muchas de las plataformas o soluciones de Big Data ya incorporan herramientas de analítica integradas.

Herramientas Big Data

Existen en el mercado diferentes soluciones para la gestión del Big Data, lo que daría para un artículo aparte.

Entre ellas resultan destacables, por su veteranía en este campo, Hadoop (framework estándar para el almacenamiento de grandes volúMenes de datos y posterior procesamiento distribuido en clusters) y Spark (visto como evolución natural de la analítica de Hadoop en busca de modelos más optimizados); ambos frameworks pertenecen al proyecto Apache y son Open Source.