Entregable Final - Big Data y Machine Learning (Diaz Granados Alexander Angel)

SERVICIO NACIONAL DE ADIESTRAMIENTO EN TRABAJO INDUSTRIAL
PLAN DE TRABAJO
DEL ESTUDIANTE
TRABAJO FINAL DEL CURSO
1. INFORMACIÓN GENERAL
Apellidos y Nombres: Diaz Granados Alexander Angel ID: 001355890

Dirección Zonal/CFP: ETI / Sede Independencia
Carrera: Ingeniería de Software con Inteligencia Artificial Semestre: V
Curso/ Mód. Formativo Big Data y Machine Learning
Tema del Trabajo: Big Data y Machine Learning
2. PLANIFICACIÓN DEL TRABAJO
N° ACTIVIDADES/ ENTREGABLES CRONOGRAMA/ FECHA DE ENTREGA

Análisis de la situación
1 0 7 / 0 5 / 2 0 2 3
problemática
2 Desarrollo de las preguntas guía 0 7 / 0 5 / 2 0 2 3
Desarrollo de la hoja de procesos
3 0 7 / 0 5 / 2 0 2 3
y planificación
Desarrollo del modelo predictivo
4 0 7 / 0 5 / 2 0 2 3
en R Studio
Desarrollo de los gráficos
5 0 7 / 0 5 / 2 0 2 3
estadísticos y modelos
Acompañamiento de material
6 0 7 / 0 5 / 2 0 2 3
visual y revisión de ortografía
Link del proyecto en R Studio
7 0 7 / 0 5 / 2 0 2 3
(página 18)
Link del video del proyecto en
8 0 7 / 0 5 / 2 0 2 3
YouTube (página 18)
3. PREGUNTAS GUIA
Durante la investigación de estudio, debes obtener las respuestas a las siguientes interrogantes:
Nº PREGUNTAS
1 ¿Qué ventajas encontramos en el desarrollo e implementación de aplicaciones con Big Data y Machine
Learning?
2 ¿En qué sectores de las PYMES podemos aplicar Big Data y Machine Learning, sabiendo que no se
manejan grandes volúmenes de datos? Fundamente la respuesta
3
¿Cuáles son las herramientas para Big Data y Machine Learning?
4 ¿Cuáles son las diferencias entre el modelo descriptivo e inferencial y el modelo predictivo e
inteligente?
5
¿Qué algoritmos existen el Machine Learning?
2
HOJA DE RESPUESTAS A LAS PREGUNTAS GUÍA
1. ¿Qué ventajas encontramos en el desarrollo e implementación de aplicaciones con Big

Data y Machine Learning?
El desarrollo e implementación de aplicaciones con Big Data y Machine Learning brindan

numerosas ventajas en términos de la toma de decisiones y el valor agregado que se puede
obtener de los datos. En primer lugar, estas tecnologías permiten procesar grandes volúmenes
de datos de forma más eficiente y efectiva que las herramientas tradicionales. Con el aumento
de la cantidad de datos disponibles, es esencial que las empresas tengan acceso a soluciones
de Big Data y Machine Learning que les permitan procesar, analizar y obtener información útil
de grandes cantidades de información.
Además, estas tecnologías también permiten la identificación de patrones ocultos en los datos
que pueden no ser evidentes a simple vista. Los algoritmos de Machine Learning pueden
analizar grandes cantidades de datos y detectar patrones y tendencias que los humanos
pueden pasar por alto. Esto puede llevar a una mejor toma de decisiones en una variedad de
situaciones, desde el marketing hasta la investigación científica.
Otra ventaja de las aplicaciones de Big Data y Machine Learning es su capacidad para
personalizar y mejorar la experiencia del usuario. Al analizar datos de usuarios individuales,
se pueden hacer recomendaciones personalizadas y proporcionar una experiencia más
satisfactoria para el cliente. Además, estas aplicaciones también pueden mejorar la eficiencia
de las operaciones empresariales al proporcionar información en tiempo real que permita una
toma de decisiones más rápida.
Por último, estas tecnologías también permiten la creación de modelos predictivos que pueden
predecir resultados futuros con una alta precisión. Esto es especialmente valioso en
situaciones donde es importante tomar medidas proactivas para evitar problemas, como en la
industria de la salud o en la prevención del fraude financiero. En general, el uso de aplicaciones
de Big Data y Machine Learning ofrece una amplia variedad de beneficios para las empresas,
que van desde la mejora de la eficiencia operativa hasta la toma de decisiones más informada.
3
2. ¿En qué sectores de las PYMES podemos aplicar Big Data y Machine Learning,
sabiendo que no se manejan grandes volúmenes de datos? Fundamente la respuesta
Aunque convencionalmente
se piensa en la aplicación
de Big Data y Machine
Learning en organizaciones
con grandes volúmenes de
datos, también pueden ser
utilizados en PYMES con
cantidades menores de
datos. En el ámbito de
ventas y marketing, se
pueden examinar datos de
ventas, clientes y campañas
de marketing para identificar
patrones y preferencias de
los clientes, a fin de personalizar la oferta y optimizar la efectividad de las campañas. Además,
también se puede examinar el comportamiento del mercado y la competencia para tomar
decisiones más informadas mediante el análisis de datos.
Otra área en la que se

pueden emplear estas
tecnologías en PYMES es
en el departamento de
recursos humanos, en el que
se pueden investigar datos
de desempeño, asistencia y
rotación de los empleados
para identificar patrones y
factores que impactan la
productividad y retención de
talentos. También se pueden
aplicar técnicas de Machine
Learning para el análisis de
currículums y selección de candidatos, lo que disminuye el tiempo y costo de los procesos de
contratación.
Por último, la industria de la

salud es otra área donde se
pueden aplicar estas
tecnologías en PYMES,
incluso si no se dispone de
grandes cantidades de
datos. Por ejemplo, se
pueden estudiar datos de
pacientes y tratamientos
para identificar patrones y
factores que afectan la
efectividad de los
tratamientos, y así mejorar la
atención y reducir los costos.
Asimismo, se pueden emplear técnicas de Machine Learning para la detección temprana de
enfermedades y la personalización de tratamientos.
4
3. ¿Cuáles son las herramientas para Big Data y Machine Learning?
Existen varias herramientas disponibles para Big Data y Machine Learning. A continuación,
menciono algunas de ellas:
•Apache Hadoop: Es un framework de

procesamiento distribuido que permite
almacenar y procesar grandes volúmenes
de datos. Se compone de varios módulos,
como Hadoop Distributed File System
(HDFS) y MapReduce, y es ampliamente
utilizado en la industria.
•Apache Spark: Es un framework de

procesamiento de datos en memoria que
ofrece una alta velocidad de procesamiento y
es adecuado para tareas de procesamiento
de datos en tiempo real. Spark admite varios
lenguajes de programación, incluidos Python,
Scala y Java.
•Apache Kafka: Es una plataforma de

streaming distribuida que permite el
procesamiento en tiempo real de grandes
volúmenes de datos. Kafka es utilizado para
el procesamiento de flujos de datos en
tiempo real y para la integración de
sistemas.
•TensorFlow: Es una biblioteca de código

abierto para Machine Learning desarrollada
por Google. TensorFlow es utilizado para la
creación y entrenamiento de modelos de
Machine Learning, y es compatible con
varios lenguajes de programación, incluidos
Python, C++ y Java.
•scikit-learn: Es una biblioteca de Machine

Learning para Python que ofrece una
amplia gama de algoritmos de aprendizaje
supervisado y no supervisado. scikit-learn
es fácil de usar y es ampliamente utilizado
en la industria para la creación de modelos
de Machine Learning.
5
•R: Es un lenguaje de programación y

entorno de software para estadísticas y
análisis de datos. R es ampliamente
utilizado en la industria para el análisis de
datos y la creación de modelos de Machine
Learning.
•Tableau: Es una herramienta de

visualización de datos que permite a los
usuarios crear visualizaciones interactivas y
paneles de control a partir de datos. Tableau
es ampliamente utilizado en la industria para
la presentación de informes y la toma de
decisiones basadas en datos.
4. ¿Cuáles son las diferencias entre el modelo descriptivo e inferencial y el modelo predictivo e
inteligente?
En el ámbito de la estadística y el análisis de datos, existen dos tipos de modelos que se

utilizan con frecuencia: los modelos descriptivos e inferenciales, y los modelos predictivos e
inteligentes. Cada uno de estos modelos tiene un propósito específico y se utiliza para
diferentes objetivos.
El modelo descriptivo e inferencial se enfoca en describir y resumir los datos disponibles. El

objetivo principal de este modelo es comprender mejor los datos y las relaciones entre las
diferentes variables. Se utilizan técnicas estadísticas como la media, la mediana y la moda
para resumir los datos, y se realizan pruebas de hipótesis y análisis de regresión para inferir
las relaciones entre las variables. Este modelo se utiliza con frecuencia en la investigación y
la academia para analizar datos y establecer conclusiones.
Por otro lado, el modelo predictivo e inteligente se enfoca en predecir eventos futuros o
resultados. Este modelo se basa en técnicas de aprendizaje automático y utiliza algoritmos
para identificar patrones en los datos y predecir resultados futuros. Este modelo se utiliza
comúnmente en el ámbito empresarial para hacer predicciones de ventas, comportamiento del
cliente, riesgo crediticio y otros factores importantes para la toma de decisiones.
Modelos descriptivos e Modelos predictivos e inteligentes

inferenciales
Objetivo Describir y resumir datos Predecir eventos futuros o resultados

Principal
Técnicas Media, mediana, moda, Aprendizaje automático, algoritmos de

principales pruebas de hipótesis, predicción.
análisis de regresión.
Utilizado en Investigación y academia Ámbito empresarial.
Ejemplos de Análisis de encuestas, Predicción de ventas, comportamiento

aplicación estudios de caso, del cliente, riesgo crediticio.
investigación científica.
6
5. ¿Qué algoritmos existen el Machine Learning?
Los algoritmos son fundamentales en los procesos de aprendizaje de Machine Learning. Son
los responsables de proporcionar información para la toma de decisiones y la predicción del
comportamiento de los datos. Existen diferentes tipos de algoritmos y estos son aplicables
dependiendo del tipo de machine learning en el cual el algoritmo vaya a funcionar.
•Algoritmos de regresión: Se utilizan para predecir valores numéricos continuos a partir de

un conjunto de variables de entrada.
•Algoritmos Bayesianos: Se basan en la teoría de la probabilidad bayesiana para modelar la

incertidumbre y hacer predicciones.
•Algoritmos de agrupación: Se utilizan para dividir un conjunto de datos en grupos

homogéneos basados en su similitud.
•Algoritmos de árbol de decisión: Se utilizan para construir modelos de decisión que

permiten predecir una variable de salida en función de un conjunto de variables de entrada.
•Algoritmos de redes neuronales: Se basan en modelos matemáticos que imitan el

funcionamiento del cerebro humano para realizar tareas como la clasificación, regresión y
predicción.
•Algoritmos de reducción de dimensión: Se utilizan para reducir la complejidad de un

conjunto de datos al disminuir el número de variables de entrada.
•Algoritmos de Aprendizaje Profundo: Son un conjunto de algoritmos de redes neuronales

profundas que se utilizan para aprender representaciones complejas de datos y realizar tareas
como la clasificación, regresión y predicción.
7
HOJA DE PLANIFICACIÓN
PROCESO DE EJECUCIÓN
SEGURIDAD / MEDIO AMBIENTE /
OPERACIONES / PASOS /SUBPASOS NORMAS -ESTANDARES
S.H.I
•Instalamos y cargamos la biblioteca "ggplot2"
•Creamos el data frame "heladerías" con la

información de las heladerías, que incluya los
siguientes campos: S.H.I
a. id_heladería: identificador único de cada heladería
b. ubicación: ubicación geográfica de la heladería
•Creamos el data frame "ventas" con los datos de

ventas, que incluya los siguientes campos:
a. id_heladería: identificador único de la heladería S.H.I
b. fecha: fecha de la venta
c. ventas_soles: cantidad de ventas en soles
•Creamos el data frame "temperaturas" con los datos

de temperatura, que incluya los siguientes campos:
a. fecha: fecha de la medición de temperatura S.H.I
B. temperatura_min: temperatura mínima registrada
C. temperatura_max: temperatura máxima registrada
•Creamos el data frame "calendario_laboral" con los

datos del calendario laboral, que incluya los
siguientes campos: S.H.I
a. fecha: fecha del día
b. dia_laboral: indicador si el día es laboral o no
•Calculamos las ventas diarias totales de todas las

heladerías, para ello creamos un data frame
"ventas_diarias_totales" que incluya los siguientes
S.H.I
campos:
a. fecha: fecha de la venta
b. ventas_totales: cantidad de ventas totales en soles
•Unimos el data frame "ventas_diarias_totales" con el

data frame "temperaturas" para crear el data frame
"ventas_temperatura" que incluya los siguientes
campos: S.H.I
a. fecha: fecha de la venta
b. ventas_totales: cantidad de ventas totales en soles
C. temperatura_min: temperatura mínima registrada
D. temperatura_max: temperatura máxima registrada
8
•Creamos un diagrama de función de densidad de las

ventas totales diarias utilizando el data frame S.H.I
"ventas_temperatura"
•Agrupamos las ventas por heladería y sumamos las

ventas para crear el data frame
"ventas_por_heladeria" que incluya los siguientes
campos: S.H.I
a. id_heladería: identificador único de la heladería
b. ventas_soles: cantidad total de ventas en soles de
la heladería
•Creamos un gráfico de barras de las ventas de

helados por heladería utilizando el data frame S.H.I
"ventas_por_heladeria"
•Creamos la serie temporal a partir del data frame

S.H.I
"ventas" utilizando la biblioteca "xts"
•Creamos un gráfico de serie temporal de las ventas

de heladerías utilizando la serie temporal creada en S.H.I
el paso anterior
•Unimos el data frame "ventas" con el data frame

"temperaturas" para crear el data frame "datos" que
incluya los siguientes campos:
a. fecha: fecha de la venta S.H.I
B. ventas_soles: cantidad de ventas en soles
C. temperatura_min: temperatura mínima registrada
D. temperatura_max: temperatura máxima registrada
•Creamos un gráfico de dispersión de las ventas en

función de la temperatura máxima utilizando el data S.H.I
frame "datos"
•Creamos un gráfico de regresión lineal de las ventas

en función de las temperaturas utilizando el data S.H.I
frame "datos"
INSTRUCCIONES: debes ser lo más explícito posible. Los gráficos ayudan a transmitir
mejor las ideas. No olvides los aspectos de calidad, medio ambiente y SHI.
9
DIBUJO / ESQUEMA/ DIAGRAMA
10
11
12
13
14
15
16
Big Data y Machine Learning – Diagramas y Gráficos Estadísticos
Diaz Granados Alexander Angel ID: 001355890
17
LISTA DE RECURSOS
INSTRUCCIONES: completa la lista de recursos necesarios para la ejecución del trabajo.
1. MÁQUINAS Y EQUIPOS
Pc de Escritorio
3. HERRAMIENTAS E INSTRUMENTOS
R Studio
R 4.3.0
Notebook Jupyter
Microsoft Word
Bloc de Notas
Herramienta de Recortes
5. MATERIALES E INSUMOS
Cuaderno de Apuntes
Libros de cálculo y estadística
Lápiz
Borrador
Resaltador
LINK DEL PROYECTO – R STUDIO (HELADERÍA):

https://drive.google.com/file/d/1d0trowxDRm1uIph3UxZutaoaa238O8UY/view?usp=shar
e_link
LINK DEL VIDEO EN YOUTUBE (EJECUCIÓN DEL PROYECTO):

https://www.youtube.com/watch?v=owe88EuiHxU
18

Entregable Final - Big Data y Machine Learning (Diaz Granados Alexander Angel)

Uploaded by

Document Information

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Entregable Final - Big Data y Machine Learning (Diaz Granados Alexander Angel)

Uploaded by

Copyright:

Available Formats

SERVICIO NACIONAL DE ADIESTRAMIENTO EN TRABAJO INDUSTRIAL

Apellidos y Nombres: Diaz Granados Alexander Angel ID: 001355890

2. PLANIFICACIÓN DEL TRABAJO

N° ACTIVIDADES/ ENTREGABLES CRONOGRAMA/ FECHA DE ENTREGA

HOJA DE RESPUESTAS A LAS PREGUNTAS GUÍA

1. ¿Qué ventajas encontramos en el desarrollo e implementación de aplicaciones con Big

El desarrollo e implementación de aplicaciones con Big Data y Machine Learning brindan

Otra área en la que se

Por último, la industria de la

3. ¿Cuáles son las herramientas para Big Data y Machine Learning?

•Apache Hadoop: Es un framework de

•Apache Spark: Es un framework de

•Apache Kafka: Es una plataforma de

•TensorFlow: Es una biblioteca de código

•scikit-learn: Es una biblioteca de Machine

•R: Es un lenguaje de programación y

•Tableau: Es una herramienta de

En el ámbito de la estadística y el análisis de datos, existen dos tipos de modelos que se

El modelo descriptivo e inferencial se enfoca en describir y resumir los datos disponibles. El

Modelos descriptivos e Modelos predictivos e inteligentes

Objetivo Describir y resumir datos Predecir eventos futuros o resultados

Técnicas Media, mediana, moda, Aprendizaje automático, algoritmos de

Utilizado en Investigación y academia Ámbito empresarial.

Ejemplos de Análisis de encuestas, Predicción de ventas, comportamiento

5. ¿Qué algoritmos existen el Machine Learning?

•Algoritmos de regresión: Se utilizan para predecir valores numéricos continuos a partir de

•Algoritmos Bayesianos: Se basan en la teoría de la probabilidad bayesiana para modelar la

•Algoritmos de agrupación: Se utilizan para dividir un conjunto de datos en grupos

•Algoritmos de árbol de decisión: Se utilizan para construir modelos de decisión que

•Algoritmos de redes neuronales: Se basan en modelos matemáticos que imitan el

•Algoritmos de reducción de dimensión: Se utilizan para reducir la complejidad de un

•Algoritmos de Aprendizaje Profundo: Son un conjunto de algoritmos de redes neuronales

•Creamos el data frame "heladerías" con la

•Creamos el data frame "ventas" con los datos de

•Creamos el data frame "temperaturas" con los datos

•Creamos el data frame "calendario_laboral" con los

•Calculamos las ventas diarias totales de todas las

•Unimos el data frame "ventas_diarias_totales" con el

•Creamos un diagrama de función de densidad de las

•Agrupamos las ventas por heladería y sumamos las

•Creamos un gráfico de barras de las ventas de

•Creamos la serie temporal a partir del data frame

•Creamos un gráfico de serie temporal de las ventas

•Unimos el data frame "ventas" con el data frame

•Creamos un gráfico de dispersión de las ventas en

•Creamos un gráfico de regresión lineal de las ventas

DIBUJO / ESQUEMA/ DIAGRAMA

Big Data y Machine Learning – Diagramas y Gráficos Estadísticos

Diaz Granados Alexander Angel ID: 001355890

INSTRUCCIONES: completa la lista de recursos necesarios para la ejecución del trabajo.

LINK DEL PROYECTO – R STUDIO (HELADERÍA):

LINK DEL VIDEO EN YOUTUBE (EJECUCIÓN DEL PROYECTO):

You might also like