Noticias 

Las 3 Vs y las Tecnologías del Big Data

Las 3 Vs y tecnologías del Big Data, que un Data Scientist Junior quiere saber sobre la gestión de datos pero no se atrevía a preguntar

Hemos estado viendo la importancia de la figura del Data Scientist, como imprime la búsqueda, “el tono” de lo que desea lograr en el torrente de datos estructurados que se generan y almacenan a diario. Para ser un científico de datos de una start up y no morir el intento deberás tener claro y manejar todo el proceso de los datos: desde su generación , cómo y dónde se almacenan, qué tipo de análisis trabajarás y cómo pondrás a trabajar tu resultado (normalmente alguna predicción). Curiosamente en la industria por ejemplo, gran parte de trabajo consiste en la consecución de los datos brutos (un muy alto % del trabajo) por varias fuentes para su posterior “cocinado”.

Combinación de 3 factores

Hay que tener en cuenta también que, a fecha de hoy, 2019, nos movemos en un entorno en el que ha habido una combinación de 3 factores que llevaron a ese resultado:

  1. La reducción de coste y en tamaño de almacenaje (cabe más en menos) así como la proliferación de sensores (IoT) que hacen posible que el Big Data Analysis sea asumible y
  2. El modo masivo: el volumen, la velocidad y variedad de soportes de información. En concreto en 2019 los datos no estructurados (emails, video, audio, chats, posts, social media, etc) son el 80% de los datos que recogen las empresas y crecen a doble velocidad que los datos estructurados 10 años atrás. Esto modifica por completo la forma de almacenamiento ya que antes no jugaban en la ecuación las 3 V’s.

Veamos las principales tecnologías de datos que un Data Scientist debe manejar:

1. Bases de datos relacionales

Las primeras son las RDBMS (Relational Data Base Management Systems), lo que viene siendo el DBase_III o DBase_IV, y más tarde el Access de toda la vida. Son un conjunto de tablas con un esquema rígido que define características y atributos de cada campo, así como un sistema de filas y columnas para facilitar el acceso a los datos. La seguridad y certeza de los datos es fundamental para este tipo de BBDD. También se les reconoce por el acrónimo (ACID) es decir son Atomizadas, consistentes, aislados y durables o ACID-Compliant -que logran imponiendo una serie de restricciones en la carga de datos. Son perfectas para almacenar y gestionar datos contables, órdenes, pedidos etc. Como contrapartida no funcionan o no son eficientes con datos no estructurados o semiestructurados. Son más latosas de configurar, mantener y escalar. Para terminar, solo están diseñadas para correr en un terminal por lo que según que carga de datos realicemos, es muy lento. Vamos, que no están en la cima del mundo hoy en día…

2. Bases de datos no relacionales

Con el boom de internet a partir de 2000 las necesidades de los players y su necesidad exponencial de crecimiento de datos, nacen las NoSQL o bases de datos no relacionales. Así Google crea MapReduce, Amazon: DynamoDB, Yahoo: Hadoop, Facebook: Cassandra y Hive. Algunos lo hicieron en código abierto y eso les hizo crecer más todavía. Las NoSQL, son alérgicas a los esquemas y estructuras y proveen sobre todo de flexibilidad al poder tratar datos estructurados y semiestructurados. Sin embargo, no todo es de color de rosa: estas NoSQL no son ACID-Compliant. Pero ¿qué nivel de consistencia necesitaban? Es decir, si Google no te da la óptima respuesta al 100% pero te la da al 99,99% ¿es suficiente? Por supuesto que en el entorno financiero no es suficiente, pero en el resto de entornos… sí que lo era… MongoDB es la más popular NoSQL database del merado y fue capaz de generar mucho valor a ciertas empresas que sentían que iban por caminos de tierra en lugar de por autopistas. Así por ejemplo en MetLife tras años de intentos de generar una BBDD tradicional con datos estructurados que gestionara todos sus productos, un empleado en un hackathon interno montó uno bajo NoSQL en unas horas y fue puesto en el mercado en 90 días.

3. Almacenamientos

Data Warehouse – Data Lake – Data Swamp. Pero el ritmo de crecimiento siguió creciendo y trabajar todos los datos de la empresa con diferentes BBDDs se vio que era ineficiente. Una solución llamada Data Warehouse nació. Esta centraliza todos los datos de todas las bases de datos de distintas fuentes (interna y externa) de la empresa en un solo repositorio y facilitando el flujo de datos desde las operaciones a las tomas de decisión e insights del negocio. Pero necesitan ser procesadas antes de ser almacenadas lo que añadía mucho tiempo y personal al proceso. Así que surgieron los Data Lake: que almacenan datos brutos estructurados o no y a cualquier escala de tamaño. Pueden ser cargados sin necesidad de configuración ni estructura. Tienen el peligro que pueden acabar siendo más que lagos… ciénagas (Data Swamp).

4. Distributed & Paralell Processing

Hadoop, Spark & MPP. Todo lo visto anteriormente no es posible realizarlo con un ordenador ordinario y puede llevar semanas… así que había que interconectar muchos ordenadores compartiendo las BBDDs por “n” ordenadores o commodity servers (clusters). Ello logró nuevas economías. Apache Hadoop es un ejemplo de infraestructuras de datos distribuidos que permite el trabajo masivo de datos y facilita la arquitectura de “lagos”. Hadoop está diseñado para computar iterativamente escaneando cantidades masivas de datos en una operación en disco, distribuirla por su red de nodos y almacenar el resultado de nuevo en disco. Resultado lo que antes costaba 4 horas, se obtiene en 12 segundos. Aun así no puede realizar cálculos en tiempo real (al trabajar en batches). Así que lanzaron Apache Sparks en 2012 que procesa con memoria interna. Pero cuando la RAM se colapsa no se avanza gran cosa. Y nos queda la MPP, este distribuye el procesado de datos por nodos igualmente, y cada nodo, lo procesa en paralelo con multiprocesadores para ganar tiempo. Sin embargo casi todos los MPP no puede trabajar datos no estructurados e incluso los estructurados precisan de algo de cocina para ser aptos en la estructura con el consiguiente incremento de tiempo y recursos. La Bolsa de Nueva York migrando a una BBDD de MPP, eso sí, redujo sus tiempos de análisis en 8 horas.

5. La Nube

Las plataformas en la nube ofrecen servicios de almacén e infraestructura de BBDDs “pagas lo que consumes” encargándose del hardware, software y mantenimiento y otros servicios. Las Public Cloud, eliminan la inversión en capital en el momento inicial pudiendo dedicar sus recursos al core del negocio democratizando y reduciendo barreras de entradas al Big Data. Las Private Cloud son dedicadas a un solo cliente con necesidades especiales. Y por supuesto coexisten las híbridas: en la publica se trabajan datos no vitales y en la private los datos críticos de la empresa alojada.

Integra Technology School junto con UDIMA Universidad a Distancia de Madrid – Máster de Industria 4.0

Si deseas conocer nuestra formación de Industria 4.0 con el Máster de Capacitación en Industria 4.0 y Transformación Digital, puedes solicitar información o bien visitar la página donde se explica el contenido del máster junto con los profesores de primera categoría que lo imparten, donde me incluyo como coordinador del Máster.

Máster de Capacitación en Industria 4.0 y Transformación Digital

Ángel Cordero Rico

    Solicita Más Información Sin Compromiso


    Responsable: FORMATEL 2000 S.L.(en adelante, INTEGRA TECHNOLOGY SCHOOL)

    Finalidad: Proceder al envío de newsletter o comunicaciones comerciales de la compañía.

    Legitimación: Consentimiento expreso del interesado.

    Derechos: Acceso, rectificación, oposición, supresión, portabilidad, limitación de tratamiento, no ser objeto de decisiones automatizadas, como se indica en la información adicional.

    Cesión: Los datos serán cedidos a Sociedad Aragonesa de Asesoría Técnica, S.L. y como podrán ser cedidos a empresas colaboradoras con INTEGRA TECHNOLOGY SCHOOL para dicha finalidad.

    Para llevar a cabo esta actividad de tratamiento podrá llegar a utilizarse una herramienta de email marketing que automatiza el envío de correos en base a la acción del usuario en la web, su perfil y preferencias.

    Puede consultar la información adicional y detallada sobre Protección de Datos en nuestra página web https://www.integratechnologyschool.com/politica-de-privacidad/

    Noticias Relacionadas

    Una Alianza Estratégica para Potenciar el Talento en SAP CX Preparando a los Expertos del Futuro  En un panorama empresarial cada vez más digitalizado, la demanda de profesionales con habilidades...
    En el dinámico panorama empresarial actual, los departamentos de compras han trascendido su rol tradicional de mera adquisición de bienes y servicios, evolucionando hacia centros estratégicos que impulsan la eficiencia,...
    «Lo siento mucho, me he equivocado y no volverá a ocurrir» La referencia al “derecho al error” que hizo la sentencia del Tribunal Superior de Justicia de Galicia, de 28...

    ¿Qué tienes en la cabeza?Conocer tus aptitudes nos permitirá guiarte a lo largo de tu viaje. orientándote hacia la formación que mejor se adpate a tí

    Responsable: FORMATEL 2000 S.L.(en adelante, INTEGRA TECHNOLOGY SCHOOL) Finalidad: Proceder al envío de newsletter o comunicaciones comerciales de la compañía. Legitimación: Consentimiento expreso del interesado. Derechos: Acceso, rectificación, oposición, supresión, portabilidad, limitación de tratamiento, no ser objeto de decisiones automatizadas, como se indica en la información adicional. Cesión: Los datos serán cedidos a Sociedad Aragonesa de Asesoría Técnica, S.L. y como podrán ser cedidos a empresas colaboradoras con INTEGRA TECHNOLOGY SCHOOL para dicha finalidad. Para llevar a cabo esta actividad de tratamiento podrá llegar a utilizarse una herramienta de email marketing que automatiza el envío de correos en base a la acción del usuario en la web, su perfil y preferencias. Puede consultar la información adicional y detallada sobre Protección de Datos en nuestra página web https://www.integratechnologyschool.com/politica-privacidad/

      Responsable: FORMATEL 2000 S.L.
      Finalidad: enviar comunicaciones electrónicas de respuesta a consultas derivadas de:
      • El interés o la inscripción en eventos organizados por la escuela.
      • La matriculación en programas formativos organizados por la escuela.
      Legitimación: consentimiento del interesado y relación contractual.
      Más información sobre Protección de Datos: https://www.uadin.com/politica-de-privacidad/
      Ejercicio de derechos:privacidad@integratecnologia.es.

      TE INFORMAMOS SIN COMPROMISO

        Responsable: FORMATEL 2000 S.L.(en adelante, INTEGRA TECHNOLOGY SCHOOL)

        Finalidad: Proceder al envío de newsletter o comunicaciones comerciales de la compañía.

        Legitimación: Consentimiento expreso del interesado.

        Derechos: Acceso, rectificación, oposición, supresión, portabilidad, limitación de tratamiento, no ser objeto de decisiones automatizadas, como se indica en la información adicional.

        Cesión: Los datos serán cedidos a Sociedad Aragonesa de Asesoría Técnica, S.L. y como podrán ser cedidos a empresas colaboradoras con INTEGRA TECHNOLOGY SCHOOL para dicha finalidad.

        Para llevar a cabo esta actividad de tratamiento podrá llegar a utilizarse una herramienta de email marketing que automatiza el envío de correos en base a la acción del usuario en la web, su perfil y preferencias.

        Puede consultar la información adicional y detallada sobre Protección de Datos en nuestra página web https://www.integratechnologyschool.com/politica-privacidad/

        ¡INSCRÍBETE YA!
        Plazas limitadas

        Envíanos tus datos para gestionar tu inscripción en el programa «Las 3 Vs y las Tecnologías del Big Data«. Una vez enviados, accederás a la página de confirmación de tu pedido para tramitar el pago a través de Paypal.

          He leído y acepto los

          Las presentes Condiciones de Venta se aplican a la venta de los servicios por parte de Integra Technology School.

          Le rogamos que lea detenidamente las presentes condiciones antes de realizar su pedido a Integra Technology School. El usuario que haya realizado la compra acepta quedar vinculado por las presentes condiciones.

          1. Nuestro contrato.

          Cuando usted realice su pedido, le enviaremos un mensaje confirmando la recepción de su pedido.

          Acepta recibir facturas de sus compras electrónicamente. Asimismo, usted puede obtener una copia de su factura en papel contactándonos gratuitamente por e-mail a través de la siguiente dirección de correo electrónico: informacion@integratecnologia.es.

          2. Derecho de desistimiento de 14 días y efectos del desistimiento.

          DERECHO LEGAL

          Usted podrá desistir de su pedido sin motivo alguno dentro de los 14 días naturales desde el día en que usted o un tercero haya realizado la compra.

          Para información adicional sobre el ámbito, contenido e instrucciones para el ejercicio de este derecho, por favor, contacte con nuestro Servicio de Atención al cliente.

          EFECTOS DEL DESISTIMIENTO

          Integra Technology School le reembolsará el precio del servicio, no más tarde de los 14 días siguientes al día en que se realiza la compra. Integra Technology School utilizará los mismos medios de pago que usted hubiera empleado para la transacción inicial, a menos que expresamente se acuerde otro medio. En cualquier caso, usted no soportará ninguna tasa que pudiera derivarse de dicho reembolso.

          3. Precios y disponibilidad.

          Todos los precios incluyen los impuestos legalmente aplicables (el IVA).

          Incluimos en el sitio web información sobre la disponibilidad de los productos que vendemos, detallándolo en la página de información de cada uno de los productos. No nos es posible ofrecer información más precisa sobre la disponibilidad de un producto, más allá de la que mostramos en la página de información del curso o en otros apartados del sitio web. Cuando procesemos su pedido, le informaremos lo antes posible por correo electrónico si cualquiera de los cursos incluidos en su pedido no se encontrara disponible. En tal caso, no le cobraremos importe alguno por dicho producto.

          4. Información del servicio.

          En algunos cursos Integra Technology School no imparte el curso, sino que ayuda a que el curso se haga posible por medio de acciones de comunicación. El alumno sabrá en todo momento quién es el que imparte curso ya que será informado previamente. Si bien nos esforzamos para que la información que aparece en nuestro sitio web sea completamente detallada para no dejar dudas al respecto.

          5. Modificación de las condiciones de venta.

          Nos reservamos el derecho a realizar cambios a nuestro sitio web, a nuestras políticas y a nuestros términos y condiciones, incluyendo a las presentes Condiciones de Venta, en cualquier momento. Usted quedará sujeto a los términos y condiciones, políticas y Condiciones de Venta en vigor en el momento en que realice su pedido, a menos que, por ley o por requerimiento de las autoridades públicas, se deba efectuar un cambio a dichos términos y condiciones, políticas o a las presentes Condiciones de Venta (en cuyo caso, tales cambios podrían resultar aplicables a cualesquiera pedidos que hubiera realizado anteriormente). Si alguna de las presentes condiciones fuera declarada inválida, nula o por cualquier causa ineficaz, dicha condición se entenderá excluida sin que dicha declaración pueda afectar a la validez ni a la exigibilidad del resto de condiciones.

          6. Renuncia.

          En caso de incumplimiento por su parte de las presentes Condiciones de Venta, y aún cuando Integra Technology School pudiera no ejercitar cualesquiera derechos a su alcance en dicho momento, Integra Technology School podrá hacer uso de tales derechos y acciones en cualquier otra ocasión en la que usted pudiera incumplir las presentes Condiciones de Venta.

          7. Menores de edad.

          No vendemos cursos a menores de edad.

          Más información sobre Protección de Datos: https://integratechnologyschool.com/politica-privacidad/

          Ejercicio de derechos:privacidad@integratecnologia.es.

          TE INFORMAMOS SIN COMPROMISO

          Las 3 Vs y las Tecnologías del Big Data

            Responsable: FORMATEL 2000 S.L.(en adelante, INTEGRA TECHNOLOGY SCHOOL)

            Finalidad: Proceder al envío de newsletter o comunicaciones comerciales de la compañía.

            Legitimación: Consentimiento expreso del interesado.

            Derechos: Acceso, rectificación, oposición, supresión, portabilidad, limitación de tratamiento, no ser objeto de decisiones automatizadas, como se indica en la información adicional.

            Cesión: Los datos serán cedidos a Sociedad Aragonesa de Asesoría Técnica, S.L. y como podrán ser cedidos a empresas colaboradoras con INTEGRA TECHNOLOGY SCHOOL para dicha finalidad.

            Para llevar a cabo esta actividad de tratamiento podrá llegar a utilizarse una herramienta de email marketing que automatiza el envío de correos en base a la acción del usuario en la web, su perfil y preferencias.

            Puede consultar la información adicional y detallada sobre Protección de Datos en nuestra página web https://www.integratechnologyschool.com/politica-privacidad/