Download as pdf
Download as pdf
You are on page 1of 18
DATA STRATEGY Como beneficiarse de un mundo de Big Data, Analytics e Internet de las Cosas. BO a ne HANWLONIAS ea Crear la tecnologia 08 y la infraestructura de los datos Una vex que ha decidide cémo quiere utilizar los datos, qué tipo de datos. es me- jor para usted y como puede anslizarlos, el siguiente paso para crear una estra- legia de datos sélida es considerar las consecuencias que conllevan la tecnologia y la infracstructura de esas decisiones. Esto en concreto implica decidir respect al software y hardware que recopilard los datos y los convertird en informacién. Recuerde: tener cantidades ingentes de datos a su disposicién no sirve de nada sino tiene la capacidad de aprender algo de ellos y, como cansecuencia, hacer que su empresa crezca. Si quiere aprovechar al maximo los datos (ya sea para mejorar su toma de decisiones, el rendimiento operative © aumentar los in- gresos} tendrd que invertir en herramientas o servicios que lo hagan posible. La mayoria de las empresas ya tienen infraestractura de datos y tecnologia, tal ‘ver en forma de programacitn SQL, bases de datos relacionales y almacenes de datos. Todo esto esta muy bien, pero con los desarrollos que ha habido en toro ala tecnologia de Big Data, la mayoria de empresas deberian volver a plantearse esta infraestructura de datos, Hasta hace relativamente poco, para las empresas era dificil trabajar con una gran variedad y volumen de datos sin realizar inversiones importantes en la in- fraestructura (sistemas y software caros, instalaciones de almacenamiento de da- fos masives, un equipo de analistas de datos, etc). Afortunadamente, ya no es asi. Los desarrollos como «Big Data como servicio (de lo que hablaré mas adelante) y el siempre creciente mercado de proveedores de datos han permitide que incluso la empresa mas pequefia pueda aprovechar recursos, habilidades y conjuntos de datos externos, muy ficilmente. Los avanees en Ia tecnologia como la computa- cin en la nube y el almacenamiento distribuido también han ofrecido a las em- presas nuevas oportunidades relacionadas con los datos, lo que les ha permitido acceder al poder de los datos sin realizar grandes inversiones en el almacenamien- to fisico de estos. Para convertir los datos en informacida, tendremos que considerar las siguien- tes elementos de infraestructura: 1) recopilacin de datos, 2) almacenamiento de datos, 3) andlisis y procesamiento de datos, y 4) acceso a los datos y comunica- cién. Normalmente, se conoce a estos elementos como las «capas» del Big Data. 120 | DATA STRATEGY En este capitulo, explicaré cada capa, asi como sus aspectos clave y las herramien- tas mas utilizadas. Dado que la mayoria de las empresas ya tienen infraestructuras de datas, como. punto de partida, tiene sentido pensar en qué tipo de tecnologia y sistemas tiene une para cada una de las cuatro capas de datos. Indudablemente, tendra que ha- cer cambios, aiiadir elementos a la infraestructura, pero debe pensar que algunos de los sistemas que ya posce pueden tener un cometido que desempefiar en su estrategia de datos. Por ejemplo, jesta recopilando datos ya (tal vez a través de su pagina web o centro de atencién al cliente) pero todavia no tiene la capaci- dad para analizarlos completamente o para comunicar la informacién obtenida a personas que la puedan necesitar? En funcién de los datos que pretenda utilizar, jsus instalaciones de almacenamiento de datos podrian mejorarse o complemen- tarse para gestionar esos datos? ;5us habilidades analiticas pueden servir de algo? Esti transmitiendo la informacién a toda su empresa correctamente? Y, de ser asi, 3omo? Hay que tener en cuenta todo esto. Ademis, piense que puede no tener que invertir en elementos de infracstruc- tura para cada una de las capas. Si estd comprando el acceso a datos externos (como los de Facebook) para mejorar sus decisiones de marketing, entonces pue- de que no necesite captar, almacenar y analizar datos, o puede necesitarlos en menor medida (por ejemplo, si quisiera combinar estos datos externos con sus propios datos internos). La infraestructura que necesite dependerd en gran medi- dade cémo quiera utilizar los datos, con qué datos quiera trabajar y cémo quiera examinarlos, El sistema de cada empresa como tal es tinico y no hay una sola técnica que valga para todas ellas. Simplemente, analice cada una de las capas por orden, identifique sus capacidades, y haga una lista de lo que necesita conforme las vaya examinando. «Big Data como servicion: jla solucién integral para las empresas? En los dltimos afios, han aparecido muchas empresas que ofrecen servicios de datos basadas en la nube a clientes comerciales, Este nuevo mercado de rapide crecimiento se conoce generalmente como «Big Data como servicio» (BDAAS por sus siglas cn inglés). En la prictica, el término BDAAS se refiere a una amplia variedad de funciones de datos, desde proporcionar datos hasta ofrecer herra- mientas de andlisis para llevar a cabo el propio anilisis para cl cliente y ofrecer informacién a través de informes. Algunos proveedores de BDAAS inclayen ser- vicios de consultoria y asesoria de datos. Se esta convirtiendo en un mercado lucrativo. Algunos calculan que el gasto. de la empresa en teenologias de la informacién basadas en la nube, actividades de X como servicio, aumentard de un 15% actual a un 35% en 2021. Teniendo en cuen- ta que se calcula que el mercado de Big Data mundial aumentard a 88 mil millones CREARLA TECNOLOGIA Y LA INFRAESTRUCTURADELOSDATOS | 121 de délares estadounidenses en 2021, el mercado de BDAAS podria representar 30 mil millones de esa cantidad, EL BDAAS presenta ventajas importantes, especialmente el hecho de que in- cluso las pequefias empresas pueden beneficiarse de conjuntos de datos enormes alos que, de otra manera, no tendrian acceso. EI BDAAS también reduce conside- rablemente o elimina costes de infraestructuras por adelantado, reduciendo, asi, las barreras de entrada y eliminando muchas de las trabas asociadas con la imple mentacién de una estrategia de datos. Con el BDAAS, simplemente puede alquilar los servicios de anilisis y el almacenamiento basado en la nube de un proveedor y Pagarle conforme dure el proceso. Ademis, cuando trabaje con un proveedor de BDAAS, en teoria, todos los asuntos técnicos y requisites se encuentran «en se- gundo plano» y vienen proporeionados por el proveedor, de forma que sola tenga que centrarse en la informacién obtenida de los datos. Otra gran veotaja es que los proveedores de BDAAS.a menudo asumen los costes de la gobernanza, cum plimiento de las normas requeridas y de la proteccién de datos, lo que le puede resultar bastante atractivo a pequefas empresas. Muchas de las grandes empresas como HP e IBM ofrecen en la actualidad sus propias versiones de BDAAS. La plataforma de anilisis de HP. Haven, esta completamente disponible en la nube, lo que significa que HP maneja tanto el almacenamiento como los anilisis ¢ informes, y usted solo tiene que comprar una suscripcién para utilizar a plataforma, eliminanda de este modo otros costes de infraestructura. De la misma mvanera, el servicio de Andlisis de datos de ‘Twitter de IBM ofrece a las empresas el acceso a datos y andlisis de los 500 mi- llones de tweets diaries y de mas de 300 millones de usuarios activos, [BM pro- Porciona sus propias herramientas y aplicaciones de analisis para que todos esos datos no estructurados tengan sentido, y ha formado a un ejércite de consultores para ayudar a que las empresas s¢ beneficien de ello, El fabricante agricola John Deere es otro ejemplo de una gran empresa que ofrece su propia versién de BDAAS. Como todos sabemos, los sensores induidos en los tractores de esta marca recogen datos sobre la maquinaria ademés de las condiciones del suelo y del cultivo. Estos datos van a las plataformas de la empresa MylohnDeere.com y Farmsight. Los agricultores pueden suscribirse para tener acceso.a inteligencia analitica para todos los aspectos de su actividad, desde cudn- do pedir piezas de repuesto hasta cuindo plantar cultivos, ahorrindoles la carga de tener que instalar su propia infraestructura de andlisis de datos. También esta aumentando la presencia del BDAAS en las ventas y el marke- ting. Tal y como vimos en el capitulo 5, Acxiom es el vendedor mas grande del mundo de datos de marketing directo. Al aplicar analiticas al enorme conjunto de datos personales que recogen, pueden trazar perfiles de los clientes y ofre- cer a sus propios clientes posibles tendencias de hacia dande puede ir el mer- cado de forma més efectiva. Los servicios Amazon Web Services y AdSense y. AdWords de Google son mas conocidos, y también pueden incluirse dentro de los BDAAS. 422 | DATA sTRATECY ELBDAAS cs una opcidn fantistica si quiere conocer mejor sus clientes, merca- dos y tendencias, y tomar mejores decisiones basindose en esta informacién. Sin embargo, no lo cs tanto si quiere utilizar los datos para mejorar sus operaciones 0 si quiere transformar los datos en dinero. En estos casos, casi siempre resulta me- jor invertir en tecnologia para recopilar sus propios datos, que, a su vez, implica que necesitaré de tecnologia para almacenar y analizar dichos datos. Basicamente, silos datos van a ser una parte central de sus operaciones y procesos diarios, vale mas la penaser el propietario y controlarlos, en lugar de depender de proveedores externos. No obstante, esto no quiere decir que tenga que gastar una fortuna; tal ycomo veremos mds adelante, existen opciones de bajo coste como el software de cédigo abierto que puede ayudarle a reducir los costes de infraestructura. Aunque puede que no encaje en todas las empresas, el comcepto de BDAAS es sélido y estable; y sera més y mas popular y predominante. A medida que cada vez mis empresas descubren el valor de implementar estrategias de datos, tiene sentido que aparezcan mis servicios para sacar partido a este valor. Recoleccién de datos La capa de fuente de datos o recoleccién de datos tiene lugar cuando los datos (ya sean internos o externos, estructurados no estructurados) Uegan a su empre- sa. Aqui s¢ incluyen datos de sus registras de ventas, bases de datos de clientes, feedback de estos y de empleados, canales de redes saciales, listas de marketing, almacenamiento de correos electrénicos y cualquier dato obtenido de la monito- rizacién o medicién de aspectos de sus operaciones, Puede que usted ya tenga los datos que necesita para conseguir sus objetivos estratégicos, pero es mas probable que necesite conseguir parte o la totalidad de los datos requeridas (y conseguir nuevos datos puede conducir a nuevas inversiones en infracstructura). Hoy en dia existen herramientas més sofisticadas que nunca para recopilar datos, especial- mente gracias al Internet de las cosas. Por ejemplo, existen sensores mintisculos y relativamente baratos que se pueden incorporar pricticamente a lo que sea, y esto ha revolucionado los proyectos de datos para muchas empresas. En cl pasado, por ejemplo, si una empresa de transporte queria conseguir datos de sus camiones de reparto, tendrian que haber invertide en caros sistemas telematicos. Ahora, hay aplicaciones de los teléfones inteligentes que pueden realizar la misma funcién. El teléfono inteligente medio posee, en la actualidad, sensores de gran sensibilidad y precisin de serie, lo que ofrece una gran cantidad de datos, como datos de ubica- cién del GPS, velocidad de desplazamiento, etc. Las herramientas o sistemas exactos que necesite para recopilar datos depen- derin de los tipos de datos que haya seleccionado, pero las opciones principales incluyen las siguientes: sensores (podrian instalarse en aparatos, maquinas, edi- ficios, vehiculas, embalajes, o cualquier otra cosa de la que quiera obtener datos, incluso en las etiquetas con el nombre de sus empleados, sartenes (o esterillas de CREAR LA TECNOLOGIA YLA INFRAESTRUCTURA DE LOS DATOS | 123 yogal); aplicaciones que generen dates del usuario (por ejemplo, una aplicacidn que permita a los usuarios navegar por una pagina web y hacer pedidos més fi- cilmente); videos de CCTV; transmisores (come iBeacons de Apple, que permite recopilar y transmitir datos a y de maviles, y que es especialmente util si quiere monitorizar los pasos que da); las cookies de paginas web que registran cime uti- lizan su sitio web las personas que lo usan; cambios en su pigina web que generen. més informaci6n de los clientes; y perfiles de redes sociales. Para recopilar los datos, puede bien instalar sus propios sistemas de recopilacién de datos usted mismo o bien contratar a una empresa de datos para recopilar dicha informacién ensu nombre. Por supuesto, si clige acceder a fuentes externas de datos (ya sean datos dispo- nibles de forma gratuita, como datos de censos, o datos de pago como los de seg- mentos de clientes) puede no tener que realizar ningun cambio en su infraestruc- tura, ya que esta accediendo a los datos de otra persona. Una vez mas, depende de como quiera usar estos datos. Si busca mejorar sus operaciones o transformar los datos en dinero, tiene sentido que tenga sus propins sistemas, Ahora explicaré un ejemplo innovador respecto a la recopilacién de datos des- de una fuente inesperada: un swing de golf. Se trata de un estudio reciente encar- gado por GolfTEC con el objetivo de identificar, a través de Big Data, qué eslo que diferencia a golfistas profesionales de un golfista medio!, El estudio SwingTRU recapilé 225 terabytes de datos, utilizando sensores de movimiento de tiltima ge- neracién, cimaras y monitores, de nvis de 13000 swings de golf de golfistas de tados los niveles; desde profesionales de Ia PGA (Asociacidn de Golfistas Profe- sionales, en espanol) hasta golfistas de handicap 30. Buena parte de la formacién en golf depende del instinto o de la opinién més que de los hechos. Esto quiere decir que un entrenador es ms probable que realice juicios y tome decisiones en funcién de su propia experiencia y conocimiento en lugar de estadisticas sdlidas, generalmente porque estos datos no siempre estin disponibles. Por ello, si toma- semos 10 lecciones de golf diferentes con 10 entrenadores diferentes recibiriamos 10 lecciones distintas sobre cmo mejorar nuestro drive, Sin embargo, al medir el swing de cada golfista, estos jugadores pueden obtener un andlisis precisa y basa- do en hechos sobre su forma de jugar. Curiosamente, el estudio descubrié que existen seis diferencias clave entre gol- fistas excepcionales y mediocres, tales como el contoneo de la cadera al realizar el swing, la inclinacién de los hombros en el punto de impacto, y el giro de la ca- dera en el punto de impacto. Mis concretamente, el estudio afirmaba identificar la diferencia precisa de cada una de estas medidas entre jugadores de cualquier nivel de habilidad. Por tanto, al comparar las estadisticas propias de cada jugador con aquellas de los jugadores de referencia, cualquiera puede ver en qué nivel se encuentran, ademas de qué deberfan mejorar. Aunque Golf TEC recogié los datos de 13.000 swings para el estudio, la empresa dice haber recopilade dates dela impresionante cifra de 90 millones de swings dus rante sus 20 afios de historia. Sin duda, la tecnologia ha evolucionade durante este 124 | DATA STRATEGY tiempo: las primeras capturas de datos se realizaron a través de un sistema con giroscopios y barras metdlicas unidas alos jugadores, que costaba mucho tiempo poner (por no hablar de Jo invasive que resultaba para los pobres golfistas). El mé- todo actual sittia al jugador que se quiere medir dentro de un campo magnético, en el que se pueden medir los movimientos con una precisidn de centésimas de grado. GoliTEC afirma que ¢l estudio solo es la «primera versiém» y que existen muchos planes para aumentar el alcance de su recoleccién de datos en el futuro, ¥ esta es una buena leccién que cualquier empresa deberia tener en cuenta; con- forme la tecnologia de los datos evoluciona, también debe hacerlo la estrategia de datos de la empresa. ‘Vamos a repasar un par de ejemplos que hemos visto anteriormente para ver cémo otras empresas recopilan datos, Tal y como vimas en el capitulo 4, ShotSpo- ter ha integrado micréfonos en la iluminacién de las calles de la «Ciudad inteli- gente» de GE con bombillas LED inteligentes para identificar el sonido de dispa- ros en zonas urbanas. Curiosamente, gran parte de la tecnologia para localizar los disparos ya existia en la iluminacién de GE, incluyendo el GPS y conversores de seftal analégica a digital. Lo unico que ShotSpotter tenia que hacer era afiadir los micréfonos para identificar los sonidos. Este es un gran ejemplo de la mejora de las capacidades y sistemas existentes, en lugar de reinventar el sistema. Transport for London {tambien en el capitulo 4) nos muestra cémo recopilar datos de una amplia variedad de fuentes proporciona un panorama de informa- cidn rico. TIL recoge datos.a través desu sistema de billetes, de sensores instalados en los vehiculos y sefiales de trifico, encuestas de clientes y grupos de discusién y, por supuesto, redes sociales. Como me dijo Lauren Sager Weinstein: «Utilizamos informacién de los sistemas de soparte administrative para procesar pagos elec- tronicos, ademds de Oyster, de los datos dela ubicacién de los trenes y sefiales de trafico, del alquiler de bicicletas y de la tasa por congestién de trafica». Almacenamiento de datos Una vez que ha identificado los datos que necesita recopilar, debe pensar donde los guardara. Las opciones de almacenamiento principales incluyen soluciones tradicionales propias, como el servidor de la empresa 0 el disco duro del orde- nador, sistemas de almacenamiento de datos basados en la nube o distribuidos, almacenes de datos y lagos de datos. Los discos duros normales son abundantes y baratos a dia de hay y, de la mis- ma manera, los servidores propios pueden resultar rentables. Si usted tiene una pequeia empresa © no busca almacenar grandes conjuntos de datos complejos, puede que una solucidn tradicional como esta sea todo lo que necesita. En cam- bio, side verdad necesita almacenar {y analizar) grandes cantidades de datos, 0 si Jos datos van a constituir una parte esencial de sus operaciones empresariales, lo mis seguro es que necesile sistemas mas sofisticades. Afortunadamente, confor- CREAR LA TECMOLOGIA Y LA INFRAESTRUCTURADELOSDATOS | 125 me el volumen y la variedad de datos generados y almacenados por las empresas ha ido aumentando, también Jo ha hecho la variedad de sistemas y herramientas sofisticadas pero accesibles discfadas para ayudar alas empresas con esta tarea, Que algo sea sofisticado no implica una gran inversidn financiera. Se puede utilizar software de cédigo abierto gramito para la mayoria de las tareas relacio- nadas con el Big Data, entre las que se inchuye el almacenamiento. Y los sistemas de almacenamiento distribuidos estan disefiados para utilizar hardware estindar barato disponible de inmediato. En la actualidad, cualquier empresa puede uti- lizar hardware estindar y software de cédigo abierto para almacenar y analizar datos, siempre y cuando dediquen tiempo a desarrollar las habilidades y el cono- cimiento necesarios para instalar y manejar estos sistemas. Desgraciadamente, esa es la otra cara del software de cédiga abierto: se necesita tiempo y cierto nivel de conocimientos técnicos para tenerlo todo listo y funcionanda de la forma que usted quiere, Si mo ticne experiencia o su calendario estratégico no le deja tiempo libre para invertirlo en desarrollar estas herramientas, sera mas adecuada una so- lucién de pago para ponerse a trabajar de inmediato, Las versiones «Enterprises (copresa, en inglés) estia disponibles en muchas de Jas herramientas de cédiga abierto; se trata normalmente de versiones personalizadas de los paquetes gratui- tos, disetadas para facilitar su instalacién y-uso, o disefindas especificamente para ‘una industria. ‘Comprender los sistemas de almacenamiento basados en la nube/distribuidos El almacenamiento distribuido/en la nube se esta convirtiendo en la solucién a Ta que muchas empresas estan recurriendo, ya que es sumamente flexible (es facil crear un almacenamiento adicional cuando se necesita), y no necesita tener siste- mas de almacenamientos de datos fisicos. También resulta bastante mas barato y mas accesible que invertir en caros sistemas dedicados y almacenes de datos. Para simplificar, un «almacenamiento distribuides consiste en utilizar campo- nentes est:indar baratos para crear un almacenamiento de datos de alta capacidad, que esta controlado por un software que registra dénde esti todo y lo encuentra cuando usted lo necesita. El «almacenamiento en la nube» simplemente quiere decir que sus datos se almacenan (normalmente) de forma remota, pero conec- tados a Internet, de forma que se pueda acceder a ellos desde cualquier sitio con conexidn a Internet. La mayoria de los sistemas distribuidos utiliza tecnologia de la nube y los términos «almacenamiento distribuidos y «almacenamiento en la nube» a menudo se utilizan indiferentemente, Antes de la nube, los ordenadores podian estar conectados en una red de Ia empresa, pero la capacidad de almacenamiento y la potencia de procesamiento estaban limitadas por el harchvare de la empresa {y por el espacio fisico y el pre~ Supuesto). Cuando una empresa queria aumentar su almacenamiento, tenia que deshacerse de archivos viejos o comprar hardware nuevo. Por otro lado, la com- 126 | DATA STRATEGY putacién en la nube permite a cualquier empresa aumentar su capacidad de alma- cenamiento sin tener que comprar hardware nuevo. La nube consiste en utilizar la potencia de muchos ordenadores diferentes para llevar a cabo tareas. Esto implica que se puedan almacenar grandes voltimenes de datos utilizando muchos ordena- dores distintos, a menudo en ubicaciones completamente diferentes, conectados a través de Internet. Esto, sumado a la creciente conectividad de los dispositivos (oT), ha abierto el camino a la explosin de datos que hemos presenciado estos ultimos aftos. Al utilizar tecnologia de la nube, un almacenamiento distribuido permite al- macenar los datos en varios ordenadores distintos, de forma que los ordenadores individuales Ileven a cabo solo pequeiias partes de la tarea global. Esto distribuye la carga y abarata el almacenamiento de grandes cantidades de datas, lo facilita y hace que sea mis eficiente. Al utilizar sistemas distribuidos, usted puede alma- ccnar datos en cualquier parte y encontrar los dates que quiera de forma rapida y sencilla, Esto ha transformado la cantidad, ademas de la variedad, de los datos con los que pueden trabajar las empresas. Al haber aumentado Ia capacidad de almacenamiento, podemes guardar y analizar dates, como dates de video, que antes pesaban demasiado como para almacenarlas en grandes cantidades. ¥ dado que el principio subyacente de almacenamiento distribuido es repartir la carga de procesamiento entre varios ordenadores diferentes, esto en si mistno facilita el anilisis de datos, Sin embargo, ;qué hay de Ja seguridad? Muchas personas asumen que la nube es menos segura que él almacenamiento de datos en un servidor privado de una empresa, Yo les contestaria que, en muchos casos, el almacenamiento en la nube es mas seguro que guardarlo en sistemas propios. Con un servidor propio, los datos se almacenan en un solo lugar (como dice el dicho «poner todos los huevos en la misma cesta»), Si las operaciones clave de su negocio dependen de los da- tos, puede que se esté arriesgando. Cualquier alteracidn en la empresa (incendios, robos, catdstrofes naturales, por nombrar algunas) podrian conllevar la pérdida temporal de acceso a los datos, o en el peor de los cases, a la pérdida total de los mismos, Sin embargo, con el almaccnamiente en la nube, los datos s¢ encuentran en més de un lugar y puede accederse a ellos desde cualquier parte a través de Internet. Introducir Hadoop En la actualidad, Hadoop es el sistema mas utilizado para almacenar datos y procesarlos a través de hardware «bisico» (cuando unimos componentes estan- dar, frente a sistemas caros y hechos a medida para una empresa). Hadoop, cuyo lanzamiento tuvo lugar en 2005 por parte de la Apache Software Foundation, es un conjunto de programas y procesos de cédigo abierto que cualquiera puede utilizar como acorazén» de su infraestructura de datos. Tal y como espera de cualquier sistema distribuido, es sumamente flexible, lo que permite a las em- CREAR LA TECNOLOGIA Y LAINFRAESTRUCTURA DELOS DATOS | 127 presas aumentar y ajustar su almacenamiento y andlisis de datos segin proceda. Secalcula que mds de la mitad de las empresas de Fortune 500 utilizan Hadoop, entre las que se incluyen casi todas las empresas en linea importantes. Y, como s¢ trata de una solucién de cédigo abierto, cualquiera puede modificarlo para sus propios fines; los cambios realizados en el soffware por ingenieros expertos de, por ejemplo, Google, se reportan ala comunidad de desarrollo, donde sue- len mejorar el producto «oficial». Esta forma de desarrollo calaborativo entre voluntarios y usuarios comerciales es un elemento clave del software de cbdigo abierto. Hadoop est compuesto de «médulos», de los cuales, los dos mas importantes son su sistema de archivas distribuide y MapReduce. El sistema de archivos distri- buide permite almacenar los datos en tn formato de facil acceso. Hadoop utiliza su propio sistema de archivos que se sitéa «por encima» del propio sistema de archivas del servidor central, lo que significa que se puede acceder a él empleando casi cualquier ordenador, siempre y cuando tenga un sistema operativo compa- tible, MapReduce ofrece las herramientas bisicas para procesar y analizar datos. Recibe cl nombre de dos operaciones esenciales que realiza este médulo: «maps implica la localizacién de datos y su colocacién en un formato adecuado para el andlisis, y «reduce quicre decir que se lleva a cabo una operacién matemitica (come contar el ntimero de hombres entre los 30 y los 45 afios de edad en una base de datos de clientes). ‘Un sistema distribuido como Hadoop le permtitird almacenar enormes con- juntos de datos. Walmart, por ejemplo, tiene una base de datos transaccional en tiempo real formada por 40 petabytes de datos (y esos son sola los datos transac- cionales de las Gltimas semanas). Los datos de todas las tiendas de la cadena, de las paginas web y de las unidades empresariales se guardan en un almacén y sistema de gestion de datos distribuides de Hadoop. También Facebook posee un sistema dc almacenamiento distribuido basado en la plataforma HBase de Hadeop para almacenar sus montones de datos. En su estado natural, utilizando los médulos de codigo abierto bisicas pro- porcionados por Apache, Hadoop puede resultar muy complejo incluso para profesionales de la informiitica. Por ello, se han desarrollado muchas versiones comerciales (como Cloudera y Amazon Web Services) que simplifican la tarea de instalar y ejecutar un sistema Hadoop, ademvis de que ofrecen formacién para los empleados, asi como servicios de asistencia continua. A menos que tenga un gran conocimiento tecnico propio, puede que lo mas adecuado para usted sea una de las versiones comerciales; hablaré mas de ello en este capitulo. Spark: una alternativa a Hadoop Al igual que Hadoop, Spark ofrece varias plataformas y sistemas conectados para almacenar y trabajar con datos. Ademas, come Hadoop, Spark es un sistema de cduligo abierto desarvollade por la Apache Software Foundation. 128 | DATA STRATEGY Muchos conocedores del sector ven a Spark como un producto mas avanzada que Hadoop, en gran parte porque esta disefiado para procesar datos por partes. «en memoria». Este quiere decir que transtfiere datos desde las unidades de discos, duros fisicos hasta una memoria electronica mucho més rapida en la que se puede procesar de forma mas veloz (hasta 100 veces mis en algunas operaciones). De hecho, en 2014, Spark establecié un récord mundial en completar una prucha comparativa en la que se tenian que clasificar 100 terabytes de datos en 23 minu- tos; batié el récord mundial anterior de 71 minutos establecido por Hadoop. Su rapidez ba hecho que Spark sea una eleccin popular en empresas que necesitan un almacenamiento y andlisis de datos multipetabyte. También ¢s altamente reco- mendable para aplicaciones de aprendizaje automzitico. Otro elemento crucial de este marco de trabajo cs Spark Streaming, que ofrece las bases para llevar a cabo andlisis de datos en streaming en tiempo real, como por ejemplo analizar de forma automatica los videos de CCTV o datos de redes sociales al mismo tiempo. Esto hace que Spark sea una opeién muy atractiva para cualquier empresa que quiera analizar datos en tiempo real, Por ejemplo, en marketing, los anuncios pueden centrarse en ¢l comportamiento de un usuario en un momento preciso, en lugar de centrarse en el comportamiento histérico. Como con Hadoop, para que la tecnologia sea mis accesible para las empresas, muchos proveedores ofrecen sus propias versiones comerciales de Spark. Pueden estar centrados en sectores especificos, o personalizados en funcién de clientes individuales, y pueden incluir servicio técnico y de asesoria. Una breve mencién respecto a los lagos de datos frente a almacenes de datos En un almacén de datos tradicional, todo se archiva y clasifica segiin un pro- cedimiento definido: los productos estan dentro de contenedores, los conte- nedores en estanterias, las estanterias en hileras, etc. Asi se han organizado los almacenes durante afios, y ha demostrado ser un método exitoso. En un alma- cén de datos, estos se organizan de una forma jerirquica y légica que resulta ser estructurada, Sin embargo, ha habido muchas debates en los tltimos dos aftos sobre una alternativa al almacén de datos tradicional: los lagos de datos. En un lago de da- tos, estos se introducen en él de forma desestructurada, en su estado mas natural, puro, sin haberse contaminado de procesamientos o anilisis. Esto hace que los lagos de datos sean mus giles que los almacenes, ya que los datos pueden confi- gurarse 0 reconfigurarse seguin sea necesario, en funcién de lo que quiera hacer con cllos. En un lago de datos, cada porcidn individual de datos se trata como un objeto en si mismo, y ninguna esta por encima de otra. En lugar de ser un sistema dearchivamiento jerirquico, como un almacén, es bisicamente un gran barulla, Existen algunas ventajas evidentes de este enfoque del lago de datos. Los datos que se almacenan sin ninguna estructura predeterminada son mds ficiles de moldear CREAR LA TECNOLOGIA Y LAINFRAESTRUCTURADELOSDATOS | 129 en cualquier forma que se nécesite. Entonces, pueden analizarse a través de la me- jor herramienta para la tarea que ha de realizarse. Sin embargo, existen grandes problemas de seguridad que deben tenerse en cuenta si quiere guardar todos los datos de su empresa en un sitio. Ahora mismo, estamos cn una etapa inicial y pocas empresas han dado el salto a almacenar todos sus datos en un lago. Pero se espera que estos lagos de datos sean cada vee mds populares, ya que més empresas buscan conseguir una mayor agilidad y flexibilidad con sus datos. Por ello, vale la pena tener en mente los lagos de datos coma una posible y futura opcién. Analisis y procesamiento de datos Una vez haya establecido sus neccsidades respecto a la recoleccién y almacena- miento de datos, tendri que pensar cémo los va a procesar ylos va a analizar para extraer informaciGn, Por ello, esta capa trata sobre las herramientas necesarias para transformar los datos en informacién. Mas concretamente, versa sobre len- guajes de programacidn y software de anilisis. Como con el almacenamiiento de datos, existe gran cantidad de tecnologia de cédigo abierto disponible para realizar el procesamiento y ¢] andlisis, Al elegir una de las opciones de cédigo abierto, puede climinar la necesidad de realizar inver- siones importantes en infraestructuras de andlisis de datos hechas a medida. Pero. el cédigo abierto no es solo para aquellos con pooo presupuesto. Existe una ten- dencia creciente incluso de las grandes empresas a adoptar tecnologia de cédigo abierto. Com esto, uno no esta «encerrados en un proveedor o paquete particular, una consideracién importante en caso de que los datos sean un elemento clave del negocio, Cuando sus datos se encuentran en un sistema de codigo abierto, puede cambiar de proveedor ficilmente sin grandes molestias, El proceso de extraer informacion de los datos se reduce a tres pasos 1) prepa- rar los datos (identificarlos, limpiarlos y darles formate para analizarlos de forma mis sencilla); 2) construir el modelo analitico; y 3) extraer una conclusién de ja informacién obtenida, Un método comin para analizar los datos es emplear una herramienta MapReduce, de la que he hablado anteriormente, En esencia, se a para elegir los elementos de datos que quiere analizar y darles un formata del que se pueda obtener informaciGn. Existen softwares comerciales dé grandes proveedores como IBM, Oracle y Google para ayudarle a convertir los datos en informacién. Google tiene BigQuery, disefiado para que cualquiera con un cono- cimiento bisice de la ciencia de los datos realice consultas en amplios conjuntos de datos. También hay opciones, como Cloudera, Microsoft HDInsight y Ama- zon Web Services. Ademis, estan apareciendo muchas startups en el mercado que offecen scluciones sencillas, consistentes en que les envie todos sus datos y se siente mientras ellos obtienen Ia informacién més importante y le aconsefan qué hacer. La mayoria de ofertas comerciales utilizan Hadoop come base y construyen su andlisis a partir de este. 130 | DATA STRATEGY A continuacidn, voy a explicar algunos de los mejores servicios analiticos y mas usados en el mercado hoy en dia, Como con cualquier producto comercial en lun mercado competitive, cada uno tiene sus ventajas y desventajas, asi que usted tendra que pensar cuidadosamente cual satisface mejor sus necesidades. Una vez dicho esto, jtodas ellas son opciones bien valoradas y populares! Amazon Web Services Amazon empaguela la magia que hace que su negocio vaya tan bien y la vende a otras empresas. El modelo de negocio de Amazon se basé cn cl Big Data des- deel principio: utilizaban informacién personal para ofrecer una experiencia de compra personalizada. Amazon Web Services incluye sus servicios Elastic Cloud Compute y Elastic MapReduce para ofrecer un almacenamiento de datos y andli- sis en la nube a gran escala. Cloudera CDH Fue creado por antiguos empleados de Google, Yahoo, Facebook y Oracle, y pro- parciona soluciones de Big Data basadas en Hadoop y de cédigo abierto, Sus dis- tribuciones utilizan su motor de analitica Impala, que también ha sido incluido en paquetes ofrecidas por la competencia como Amazon y MapR. Hortonworks Data Platform A diferencia de cualquier otra gran plataforma de andlisis, HDP esta formada por entero de cédigo de fuente abierto, ya que todos sus elementos se han construide a través de la Apache Software Foundation. Ganan dinero brindando servi soporte al hacerla funcionar y al ofrecer los resultados que el cliente busca. Infobright Este sistema de gestién de bases de datos esta disponible tanto como versién de cédigo abierta y libre edicién como de page. El producto se centra concretamente en usuarios que trabajen con ToT: Ofrecen tres niveles de servicio para los usua- rios de pago; aquellos de un nivel superior tienen acceso al centro de asistencia técnica y a un servicio técnico por correo electrénico mis ripido. IBM Big Data Platform IBM ofrece una variedad de productos y servicios disenados para que los andlisis de Big Data complejos sean mas accesibles a las empresas. Ofrecen su propia dis- tribucién de Hadoop conocida como InfoSphere Biglnsights. IBM Watson. Watson, que empezé a hacerse famoso al ganar cl concurso de televisidn de EE. UU. Jeopardy! en 2011, es el aprendizaje antomatico y computacién cognitiva de IBM, que utiliza una tecnologia de procesamiento del lenguaje natural, Wat- son trabaja de manera probabilistica: haga una pregunta y le responderd con una CREAR LA TECNOLOGIA Y LA INFRAESTRUCTURADELOS DATOS | 134 serie de respuestas probables, clasificadas de acuerdo con la posibilidad de que sean correctas. Ya hay ms de 300 organizaciones asaciadas trabajando con [BM y ‘Watson en sectores tan diversos como Ia salud, el marketing. la venta al por menor y hs finanzas. En el capitulo 3 vimos cémo Watson ayudaba a los organizadores del torneo de Wimbledon a posicionar mejor su contenido de acuerdo con lo que los fans querian leer. Tras analizar cientos de miles de publicaciones de re- des sociales relacionadas con el torneo, Watson pudo identificar el contenido que gustaba mas entre los fans y ayudé al equipo de contenido a crear exactamente lo que estos querian ver, MapR Ofrece su propia distribucién de Hadoop, sustancialmente diferente de otras, ya que sustituye ¢] Hadoop Tile System tan utilizado por su alternativa MapR Data Platform que, segiin afirman, tiene un mejor desempelio y mas facilidad de USO, Microsoft HDInsight Lapropuesta de aniilisis principal de Microsoft, HDInsight, se basa en Hortonwor- ks Data Platform, pero ¢std adaptada para trabajar con sus propios servicios en la nube Azure y su sistema de gestion de bases de datos SQL Server. Una gran ventaja para las empresas es que incluye Excel, lo que quiere decir que empleados con conocimientos informaticos bisicos pueden probar los analisis de Big Data. Pivotal Big Data Suite El paquete de Big Data de Pivotal comprende su propia distribucién de Hadoop, Pivotal HD y su plataforma de anilisis, Pivotal Analytics, Este modelo de negocio. permite a los consumidores almacenar una cantidad ilimitada de datos y pagar una tasa de suscripcién que varia en funcién dela cantidad de datos que analicen. ‘La empresa ha realizado grandes inversiones en la filosofia de los lagos de datos, en un repositorio de almacenamiento unificado basado en objetos para todos las datos de un negocio. Splunk Enterprise Esta plataforma se ha creado especificamente para negocios que generan gran cantidad de datos propios a través de su maquinaria. Su objetivo son wos datos de maquinaria para la inteligencia operativar, y el IoT es clave en su estrategia. Sus andlisis manejan la campana de cupones de Domino's Pizza de Estados Unidos. La belleza del Big Data ahora mismo es la gama cada vez mas grande de op- ciones de andlisis que aparccen para las empresas. Incluso si se est iniciando en el mundo de los datos, posee poca formacién técnica o un presupuesto muy limi- tado, o trabaja en un drea muy especializada, Ia opcién de anilisis correcta esta a sualeance. 132 | DATASTRATEGY Ofrecer acceso a datos La capa final de cualquier infraestructura de datos trata sobre ofrecer acceso a datos para las personas (o incluso méquinas) que lo necesitan, y sobre las herra- mientas y sistemas que hacen esto posible. En definitiva, consiste en establecer sis- temas o procesos para asegurar que se puede acceder (y comprender) fiicilmente ala informacién, de forma que pucda haber mejoras en la empresa. Visualizar ¢ informar sobre los datos es un aspecto de esto, como también lo es decidir quien puede acceder a ellos, controlar este acceso y asegurar una buena administracion, de dichos datos. Come vimos en el capitulo 3, existe uma tendencia hacia el acceso genera- lizado a los datos en muchas empresas, lo que implica que los trabajadores de Jas mismas pueden acceder a los datos y utilizarlos como base para sus decisio- nes. Como tal, existe un gran énfasis en los reportes de IE que pueden realizar Jos usuarios, lo que confiere a las personas Ia habilidad de clegir como quieren. analizar los datos y obtener la informacién que necesitan por si mismios, frente a simplemente servirse de reportes de IE estandar, Empresas como Citibank y ‘Walmart estin creando micleos de datos corporatives para que sus trabajadores puedan acceder a miles de millones de puntos de datos. En Etsy, minorista en linea, la increible cantidad del 80% de los trabajadores ahora tienen acceso y emplean el gran volumen de dates transaccionales y de navegaciGn para tomar mejores decisiones y ofrece una experiencia de compra mas personalizada para los clientes. En funcidn de los detalles de su negocio, puede que también deba permitir el acceso a los datos a usuarios externos y clientes, y se hace necesario reflexionar sobre esto. Por ejemplo, Etsy comparte sus datos de seguimiento de laactividad de su tienda con sus vendedores a través de su sistema Shop Stats, lo que permite a estos vendedores llevar a cabo su propio anilisis y, con un poco de suerte, aumentar sus propios ingresos (y, a su vez, parte de la venta de Etsy). De la misma manera, el portal en linea MyJohnDeere.com de John Deere permite a los agricultores acceder a los datos recopilados de sensores instalados en sus maquinas, asi come a datos agregados de otros agricultores por todo el mundo. ¥ el trabajo de IBM con los organizadores de Wimbledon muestra cémo una amplia gama de usuarios puede acceder a los datos, desde equipos de marketing interno y personal propio que crea contenido hasta periodistas y fans externos. La interfaz de estadisticas [BM Slamtracker, que se solia utilizar como una apli- cacién independiente en el sitio web del torneo, se ha integrado ahora en el con- tenido de los medios de commnicacién del torneo. La informacién del sistema puede utilizarse, en cstos momentos, a través de todos los canales, entre los que se incluye compartirla en plataformas de redes sociales y adadirla a informes sobre los partidos. Este aumento en el acceso ha hecho que los datos sean mas tiles y valiosos para un rango mas amplio de usuarios. CREAR LA TECNOLOGIA Y LAINFRAESTAUCTURA DE LOS DATOS | 133 Reflexionar sobre la administracién de los datos Los datos han ido mds alld del terreno de «ser solo alae relacionado la informiti- car, Las empresas inteligentes hoy en dia implementan estrategias de datos para toda la empresa, y tienen por abjetive implicar a todos sus empleados en la toma de decisiones y realizaci6n de operaciones basadas en los datos. Pero cuando cada vez ms empleados se implican en trabajar con datos, y muchos de ellos inte- ractian con los datos de la empresa de forma regular, jquién es el responsable de Ia gesti6n de los datos? En estos casos, el modelo tradicional de un equipo de datos, cuyos trabajadores son los dinicos responsables de administrarlos, empieza aestar pasado de moda. La respuesta viene dada por la administracién de datos, © conferir a todos los empleados que trabajen con datos la responsabilidad de gestionarlos adecuadamente. Cuando el sitio web de genealogia Ancestry.com reestructuré sus operaciones relacionadas con los datos, el objetivo principal era dejar atris las tandas diarias de procesamiento de datos para realizar este procesamiento en tiempo real. Sin embargo, un subproducto inesperado supuso un mejor entendimiento de cémo se utilizaban los datos en el negocio. Cuando estos no se gestionan de la forma adecuada, carecen de sentido y de valor. O peor, si los datos no estin actualiza- dos, estan cesificados de forma incorrecta o empleadas fuera de contexto, pueden conducir a tomar decisiones desde la desinformacién que pueden dafiar el estado a largo plazo de la empresa. Los metadatas incompatibles o los que se han perdido pueden causar problemas graves para una empresa como para Ancestry, con una ‘base de datos que contiene mis de 13:mil millones de registros acumulades en mas de 10 petabytes de almacenamiento, Como Chris Sanders, director del almacén de datos y visualizacin de Ancestry.com explicé: «Teniamos problemas cuando habia datos que simplemente no existian o que no eran precisos, Para el almaccnamiento de datos, la inteligencia empresarial, las obligaciones legales, las de informar y las de pagar regalias, todo esto es una pesadillan. Pues bien, en Ancestry.com se anima a todos los empleados que trabajan con los datos a ser administradores, responsa- bles de mantener la precisidn de los datos mientras trabajan con ellos. Sin duda, creo que el enfoque de Ancestry serd cada vez mas popular, ya que das empresas tendran que lidiar con una cantidad creciente de datos, que reper- -cutird en la carga de trabajo de un buen niimero de empleados. La gestién de los datas, cuando se pone én marcha en una empresa, reduce los riesgos que presenta Ja informacion de mala calidad, desactualizada o imprecisa. Por ello, creo que se ‘convertird en un enfoque popular pars las empresas que se esfuercen en mantener una ventaja competitiva, Informar sobre los dates Existen varios mélodos para informar sobre los datos a las personas. o maquinaria que los necesita. En definitiva, necesita un método de comunicacién (ya sea com- 134 | paTasTRATEGT plejo o simple) que destaque In informacién que se puede extraer dé los datos y que muestre como las decisiones y acciones basadas en los datos pueden conducir a mejoras en la empresa. Si esta utilizando datos para tomar mejores decisiones empresariales, unos simples gréficos e informes son una manera efectiva de obtener informacién para los que la necesiten, y no se requeriria de ninguna inversién en infraestructura adicional. Si tiene un negocio pequefio, puede que esto sca todo lo que necesite. Hay algunos consejos que le pueden ayudar a informar sobre los datos a través de informes y grificas simples en el capitulo 3 pero, en esencia, la comunicacién simplemente tiene que ser dara y concisa, Esto quiere decir que no debe enterrar pedazos de informacién preciosos en informes de 50 paginas oen un grifico com- plicado que nadie entiende. Si la informacién clave no se presenta de forma clara, no se dard a conocer. Si tiene necesidades de comunicacién mas complejas, las plataformas de visua- lizacién de datos comerciales los hacen atractivos y Ficiles de comprender. El au- mento de los datos y los anilisis ha traide consigo una tendencia de nuevas herra- mientas de visualizacién capaces de hacer que el contenido de los andlisis parezea bonito, y de que se mejore su entendimiento y velocidad de comprensién. Muchas de las plataformas de andlisis mencionadas en este capitulo incluyen alguna fun- cién de visualizacién, por lo que no hay que invertir en sistemas adicionales. No obstante, si no satisfacen sus necesidades, existen herramientas de visualizacién basadas en la nube excelentes relativamente faciles de utilizar, como QHEView ¥ Tableau (que son herramientas de pago). Los reportes de IE que pueden realizar los usuarios de autoservicio y los dashboard de gestién son una gran opcién para cuando desee que sus empleados analicen los datos y obtengan su propia informacién. $i decide informar de los re- sultados a través de un informe tradicional que utiliza alguna técnica de visualiza- cién de datos o si clige emplear dashboards de gestién y/o infografias dependerd, enla mayoria de los casos, de la experiencia de los trabajadores de eu empresa. Sin embargo, tenga en cuenta que cualquier sistema de informes o de visualizacién, sin importar lo complejo que sea, deberia facilitar la comprensidn de la informa- cidn clave necesaria para mejorar el desemperio de la empresa. Muchas de estas reglas que se aplican a la comunicacién y visualizacién de los datos en informes y graficos simples son validas en este caso, tales como incluir encabezados y una mezcla entre texto ¢ imagenes. En el extremo opuesto, la comunicacién automatica de maquina a méquina (M2M) es un aspecto cada vez mas importante respecto a la comunicacién de los datos, y deberia tenerse en cuenta en cualquier estrategia de datos. De hecho, es un componente crucial de cualquier producto o servicio relacionado con el [oT, ya que la comunicacién M2M es lo que permite alos aparatos intercambiar in- formacién. Las herramientas y sistemas de comunicacién de M2M pueden variar desde algoritmos que hacen que su sitio web recomiende un producto X si un cliente compra un producto Y, hasta sistemas de gestién de existencias que piden ‘CREAR LA TECNOLOGIA Y LAINFRAESTRUCTURADELOS DATOS | 135 de forma automitica mds existencias cuando se alcanza cierto nivel, pasando por sistemas de seguridad que emiten una sejjal de alerta cuando se detectan ciertos comportamientos. Como la tecnologia evoluciona rapidamente, la gama de op- ciones y aplicaciones en este campo est creciendo a un ritmo sin precedentes, Construir una infraestructara de Big Data es una tarea compleja y existen muchas variables que considerar. Espero que este capitulo le haya ofrecido una mejor comprensién de los elementos clave de la infraestructura. Como con cualquier otro aspecto de Jos datos, si no esta seguro de por dénde empezar o sobre qué opcién puede ser la mejor para sus necesidades, le recomiendo. trabajar con una asesoria de Big Data o beneficiarse de los servicios de asesoria que vienen con muchos de los paquetes de Big Data comerciales. Anotaciones 1. Bernard Marr (2016) How big data unlocked the 6 secrets of the perfect golf swing, Far- bes, 15 de julio, disponible en: hitp.!/ www. forbes.com/sites/bernardmarr!2016/07/15/ how-big-data-unlocked-the.6-secrets-of-the-perfect-gelf-swing/#156d26£3539

You might also like