Download as pdf or txt
Download as pdf or txt
You are on page 1of 18

SERVICIO NACIONAL DE ADIESTRAMIENTO EN TRABAJO INDUSTRIAL

PLAN DE TRABAJO
DEL ESTUDIANTE
TRABAJO FINAL DEL CURSO

1. INFORMACIÓN GENERAL

Apellidos y Nombres: Diaz Granados Alexander Angel ID: 001355890


Dirección Zonal/CFP: ETI / Sede Independencia
Carrera: Ingeniería de Software con Inteligencia Artificial Semestre: V
Curso/ Mód. Formativo Big Data y Machine Learning
Tema del Trabajo: Big Data y Machine Learning

2. PLANIFICACIÓN DEL TRABAJO

N° ACTIVIDADES/ ENTREGABLES CRONOGRAMA/ FECHA DE ENTREGA


Análisis de la situación
1 0 7 / 0 5 / 2 0 2 3
problemática
2 Desarrollo de las preguntas guía 0 7 / 0 5 / 2 0 2 3
Desarrollo de la hoja de procesos
3 0 7 / 0 5 / 2 0 2 3
y planificación
Desarrollo del modelo predictivo
4 0 7 / 0 5 / 2 0 2 3
en R Studio
Desarrollo de los gráficos
5 0 7 / 0 5 / 2 0 2 3
estadísticos y modelos
Acompañamiento de material
6 0 7 / 0 5 / 2 0 2 3
visual y revisión de ortografía
Link del proyecto en R Studio
7 0 7 / 0 5 / 2 0 2 3
(página 18)
Link del video del proyecto en
8 0 7 / 0 5 / 2 0 2 3
YouTube (página 18)

3. PREGUNTAS GUIA
Durante la investigación de estudio, debes obtener las respuestas a las siguientes interrogantes:

Nº PREGUNTAS

1 ¿Qué ventajas encontramos en el desarrollo e implementación de aplicaciones con Big Data y Machine
Learning?

2 ¿En qué sectores de las PYMES podemos aplicar Big Data y Machine Learning, sabiendo que no se
manejan grandes volúmenes de datos? Fundamente la respuesta
3
¿Cuáles son las herramientas para Big Data y Machine Learning?

4 ¿Cuáles son las diferencias entre el modelo descriptivo e inferencial y el modelo predictivo e
inteligente?
5
¿Qué algoritmos existen el Machine Learning?

2
TRABAJO FINAL DEL CURSO

HOJA DE RESPUESTAS A LAS PREGUNTAS GUÍA

1. ¿Qué ventajas encontramos en el desarrollo e implementación de aplicaciones con Big


Data y Machine Learning?

El desarrollo e implementación de aplicaciones con Big Data y Machine Learning brindan


numerosas ventajas en términos de la toma de decisiones y el valor agregado que se puede
obtener de los datos. En primer lugar, estas tecnologías permiten procesar grandes volúmenes
de datos de forma más eficiente y efectiva que las herramientas tradicionales. Con el aumento
de la cantidad de datos disponibles, es esencial que las empresas tengan acceso a soluciones
de Big Data y Machine Learning que les permitan procesar, analizar y obtener información útil
de grandes cantidades de información.

Además, estas tecnologías también permiten la identificación de patrones ocultos en los datos
que pueden no ser evidentes a simple vista. Los algoritmos de Machine Learning pueden
analizar grandes cantidades de datos y detectar patrones y tendencias que los humanos
pueden pasar por alto. Esto puede llevar a una mejor toma de decisiones en una variedad de
situaciones, desde el marketing hasta la investigación científica.

Otra ventaja de las aplicaciones de Big Data y Machine Learning es su capacidad para
personalizar y mejorar la experiencia del usuario. Al analizar datos de usuarios individuales,
se pueden hacer recomendaciones personalizadas y proporcionar una experiencia más
satisfactoria para el cliente. Además, estas aplicaciones también pueden mejorar la eficiencia
de las operaciones empresariales al proporcionar información en tiempo real que permita una
toma de decisiones más rápida.

Por último, estas tecnologías también permiten la creación de modelos predictivos que pueden
predecir resultados futuros con una alta precisión. Esto es especialmente valioso en
situaciones donde es importante tomar medidas proactivas para evitar problemas, como en la
industria de la salud o en la prevención del fraude financiero. En general, el uso de aplicaciones
de Big Data y Machine Learning ofrece una amplia variedad de beneficios para las empresas,
que van desde la mejora de la eficiencia operativa hasta la toma de decisiones más informada.

3
TRABAJO FINAL DEL CURSO

2. ¿En qué sectores de las PYMES podemos aplicar Big Data y Machine Learning,
sabiendo que no se manejan grandes volúmenes de datos? Fundamente la respuesta

Aunque convencionalmente
se piensa en la aplicación
de Big Data y Machine
Learning en organizaciones
con grandes volúmenes de
datos, también pueden ser
utilizados en PYMES con
cantidades menores de
datos. En el ámbito de
ventas y marketing, se
pueden examinar datos de
ventas, clientes y campañas
de marketing para identificar
patrones y preferencias de
los clientes, a fin de personalizar la oferta y optimizar la efectividad de las campañas. Además,
también se puede examinar el comportamiento del mercado y la competencia para tomar
decisiones más informadas mediante el análisis de datos.

Otra área en la que se


pueden emplear estas
tecnologías en PYMES es
en el departamento de
recursos humanos, en el que
se pueden investigar datos
de desempeño, asistencia y
rotación de los empleados
para identificar patrones y
factores que impactan la
productividad y retención de
talentos. También se pueden
aplicar técnicas de Machine
Learning para el análisis de
currículums y selección de candidatos, lo que disminuye el tiempo y costo de los procesos de
contratación.

Por último, la industria de la


salud es otra área donde se
pueden aplicar estas
tecnologías en PYMES,
incluso si no se dispone de
grandes cantidades de
datos. Por ejemplo, se
pueden estudiar datos de
pacientes y tratamientos
para identificar patrones y
factores que afectan la
efectividad de los
tratamientos, y así mejorar la
atención y reducir los costos.
Asimismo, se pueden emplear técnicas de Machine Learning para la detección temprana de
enfermedades y la personalización de tratamientos.

4
TRABAJO FINAL DEL CURSO

3. ¿Cuáles son las herramientas para Big Data y Machine Learning?

Existen varias herramientas disponibles para Big Data y Machine Learning. A continuación,
menciono algunas de ellas:

•Apache Hadoop: Es un framework de


procesamiento distribuido que permite
almacenar y procesar grandes volúmenes
de datos. Se compone de varios módulos,
como Hadoop Distributed File System
(HDFS) y MapReduce, y es ampliamente
utilizado en la industria.

•Apache Spark: Es un framework de


procesamiento de datos en memoria que
ofrece una alta velocidad de procesamiento y
es adecuado para tareas de procesamiento
de datos en tiempo real. Spark admite varios
lenguajes de programación, incluidos Python,
Scala y Java.

•Apache Kafka: Es una plataforma de


streaming distribuida que permite el
procesamiento en tiempo real de grandes
volúmenes de datos. Kafka es utilizado para
el procesamiento de flujos de datos en
tiempo real y para la integración de
sistemas.

•TensorFlow: Es una biblioteca de código


abierto para Machine Learning desarrollada
por Google. TensorFlow es utilizado para la
creación y entrenamiento de modelos de
Machine Learning, y es compatible con
varios lenguajes de programación, incluidos
Python, C++ y Java.

•scikit-learn: Es una biblioteca de Machine


Learning para Python que ofrece una
amplia gama de algoritmos de aprendizaje
supervisado y no supervisado. scikit-learn
es fácil de usar y es ampliamente utilizado
en la industria para la creación de modelos
de Machine Learning.

5
TRABAJO FINAL DEL CURSO

•R: Es un lenguaje de programación y


entorno de software para estadísticas y
análisis de datos. R es ampliamente
utilizado en la industria para el análisis de
datos y la creación de modelos de Machine
Learning.

•Tableau: Es una herramienta de


visualización de datos que permite a los
usuarios crear visualizaciones interactivas y
paneles de control a partir de datos. Tableau
es ampliamente utilizado en la industria para
la presentación de informes y la toma de
decisiones basadas en datos.

4. ¿Cuáles son las diferencias entre el modelo descriptivo e inferencial y el modelo predictivo e
inteligente?

En el ámbito de la estadística y el análisis de datos, existen dos tipos de modelos que se


utilizan con frecuencia: los modelos descriptivos e inferenciales, y los modelos predictivos e
inteligentes. Cada uno de estos modelos tiene un propósito específico y se utiliza para
diferentes objetivos.

El modelo descriptivo e inferencial se enfoca en describir y resumir los datos disponibles. El


objetivo principal de este modelo es comprender mejor los datos y las relaciones entre las
diferentes variables. Se utilizan técnicas estadísticas como la media, la mediana y la moda
para resumir los datos, y se realizan pruebas de hipótesis y análisis de regresión para inferir
las relaciones entre las variables. Este modelo se utiliza con frecuencia en la investigación y
la academia para analizar datos y establecer conclusiones.

Por otro lado, el modelo predictivo e inteligente se enfoca en predecir eventos futuros o
resultados. Este modelo se basa en técnicas de aprendizaje automático y utiliza algoritmos
para identificar patrones en los datos y predecir resultados futuros. Este modelo se utiliza
comúnmente en el ámbito empresarial para hacer predicciones de ventas, comportamiento del
cliente, riesgo crediticio y otros factores importantes para la toma de decisiones.

Modelos descriptivos e Modelos predictivos e inteligentes


inferenciales

Objetivo Describir y resumir datos Predecir eventos futuros o resultados


Principal

Técnicas Media, mediana, moda, Aprendizaje automático, algoritmos de


principales pruebas de hipótesis, predicción.
análisis de regresión.

Utilizado en Investigación y academia Ámbito empresarial.

Ejemplos de Análisis de encuestas, Predicción de ventas, comportamiento


aplicación estudios de caso, del cliente, riesgo crediticio.
investigación científica.

6
TRABAJO FINAL DEL CURSO

5. ¿Qué algoritmos existen el Machine Learning?

Los algoritmos son fundamentales en los procesos de aprendizaje de Machine Learning. Son
los responsables de proporcionar información para la toma de decisiones y la predicción del
comportamiento de los datos. Existen diferentes tipos de algoritmos y estos son aplicables
dependiendo del tipo de machine learning en el cual el algoritmo vaya a funcionar.

•Algoritmos de regresión: Se utilizan para predecir valores numéricos continuos a partir de


un conjunto de variables de entrada.

•Algoritmos Bayesianos: Se basan en la teoría de la probabilidad bayesiana para modelar la


incertidumbre y hacer predicciones.

•Algoritmos de agrupación: Se utilizan para dividir un conjunto de datos en grupos


homogéneos basados en su similitud.

•Algoritmos de árbol de decisión: Se utilizan para construir modelos de decisión que


permiten predecir una variable de salida en función de un conjunto de variables de entrada.

•Algoritmos de redes neuronales: Se basan en modelos matemáticos que imitan el


funcionamiento del cerebro humano para realizar tareas como la clasificación, regresión y
predicción.

•Algoritmos de reducción de dimensión: Se utilizan para reducir la complejidad de un


conjunto de datos al disminuir el número de variables de entrada.

•Algoritmos de Aprendizaje Profundo: Son un conjunto de algoritmos de redes neuronales


profundas que se utilizan para aprender representaciones complejas de datos y realizar tareas
como la clasificación, regresión y predicción.

7
TRABAJO FINAL DEL CURSO

HOJA DE PLANIFICACIÓN

PROCESO DE EJECUCIÓN
SEGURIDAD / MEDIO AMBIENTE /
OPERACIONES / PASOS /SUBPASOS NORMAS -ESTANDARES

S.H.I
•Instalamos y cargamos la biblioteca "ggplot2"

•Creamos el data frame "heladerías" con la


información de las heladerías, que incluya los
siguientes campos: S.H.I
a. id_heladería: identificador único de cada heladería
b. ubicación: ubicación geográfica de la heladería

•Creamos el data frame "ventas" con los datos de


ventas, que incluya los siguientes campos:
a. id_heladería: identificador único de la heladería S.H.I
b. fecha: fecha de la venta
c. ventas_soles: cantidad de ventas en soles

•Creamos el data frame "temperaturas" con los datos


de temperatura, que incluya los siguientes campos:
a. fecha: fecha de la medición de temperatura S.H.I
B. temperatura_min: temperatura mínima registrada
C. temperatura_max: temperatura máxima registrada

•Creamos el data frame "calendario_laboral" con los


datos del calendario laboral, que incluya los
siguientes campos: S.H.I
a. fecha: fecha del día
b. dia_laboral: indicador si el día es laboral o no

•Calculamos las ventas diarias totales de todas las


heladerías, para ello creamos un data frame
"ventas_diarias_totales" que incluya los siguientes
S.H.I
campos:
a. fecha: fecha de la venta
b. ventas_totales: cantidad de ventas totales en soles

•Unimos el data frame "ventas_diarias_totales" con el


data frame "temperaturas" para crear el data frame
"ventas_temperatura" que incluya los siguientes
campos: S.H.I
a. fecha: fecha de la venta
b. ventas_totales: cantidad de ventas totales en soles
C. temperatura_min: temperatura mínima registrada
D. temperatura_max: temperatura máxima registrada
8
TRABAJO FINAL DEL CURSO

•Creamos un diagrama de función de densidad de las


ventas totales diarias utilizando el data frame S.H.I
"ventas_temperatura"

•Agrupamos las ventas por heladería y sumamos las


ventas para crear el data frame
"ventas_por_heladeria" que incluya los siguientes
campos: S.H.I
a. id_heladería: identificador único de la heladería
b. ventas_soles: cantidad total de ventas en soles de
la heladería

•Creamos un gráfico de barras de las ventas de


helados por heladería utilizando el data frame S.H.I
"ventas_por_heladeria"

•Creamos la serie temporal a partir del data frame


S.H.I
"ventas" utilizando la biblioteca "xts"

•Creamos un gráfico de serie temporal de las ventas


de heladerías utilizando la serie temporal creada en S.H.I
el paso anterior

•Unimos el data frame "ventas" con el data frame


"temperaturas" para crear el data frame "datos" que
incluya los siguientes campos:
a. fecha: fecha de la venta S.H.I
B. ventas_soles: cantidad de ventas en soles
C. temperatura_min: temperatura mínima registrada
D. temperatura_max: temperatura máxima registrada

•Creamos un gráfico de dispersión de las ventas en


función de la temperatura máxima utilizando el data S.H.I
frame "datos"

•Creamos un gráfico de regresión lineal de las ventas


en función de las temperaturas utilizando el data S.H.I
frame "datos"

INSTRUCCIONES: debes ser lo más explícito posible. Los gráficos ayudan a transmitir
mejor las ideas. No olvides los aspectos de calidad, medio ambiente y SHI.

9
TRABAJO FINAL DEL CURSO

DIBUJO / ESQUEMA/ DIAGRAMA

10
TRABAJO FINAL DEL CURSO

11
TRABAJO FINAL DEL CURSO

12
TRABAJO FINAL DEL CURSO

13
TRABAJO FINAL DEL CURSO

14
TRABAJO FINAL DEL CURSO

15
TRABAJO FINAL DEL CURSO

16
TRABAJO FINAL DEL CURSO

Big Data y Machine Learning – Diagramas y Gráficos Estadísticos

Diaz Granados Alexander Angel ID: 001355890

17
TRABAJO FINAL DEL CURSO

LISTA DE RECURSOS

INSTRUCCIONES: completa la lista de recursos necesarios para la ejecución del trabajo.

1. MÁQUINAS Y EQUIPOS
Pc de Escritorio

3. HERRAMIENTAS E INSTRUMENTOS
R Studio
R 4.3.0
Notebook Jupyter
Microsoft Word
Bloc de Notas
Herramienta de Recortes

5. MATERIALES E INSUMOS
Cuaderno de Apuntes
Libros de cálculo y estadística
Lápiz
Borrador
Resaltador

LINK DEL PROYECTO – R STUDIO (HELADERÍA):


https://drive.google.com/file/d/1d0trowxDRm1uIph3UxZutaoaa238O8UY/view?usp=shar
e_link

LINK DEL VIDEO EN YOUTUBE (EJECUCIÓN DEL PROYECTO):


https://www.youtube.com/watch?v=owe88EuiHxU

18

You might also like