Download as pdf or txt
Download as pdf or txt
You are on page 1of 27

25/08/2023

Organización de Datos
MBA Luigi Lizza Mendoza

Agenda

• Definiciones Básicas
• Organización de los datos mediante tablas de distribución de
frecuencias, según el tipo de variables.
• Representación gráfica de los datos
• Gráfica de barras
• Histograma de frecuencias
• Tablas de Frecuencias y Gráficos en R

MBA Luigi Lizza Mendoza 2

2
25/08/2023

Definiciones Básicas

MBA Luigi Lizza Mendoza 3

Población y Muestra

• Población: es el conjunto sobre el que estamos interesados en


obtener conclusiones (hacer inferencia).
• Normalmente es demasiado grande para poder abarcarlo.
• Muestra: es un subconjunto de la población al que tenemos
acceso y sobre el que realmente hacemos las observaciones
(mediciones)
• Debería ser “representativo”
• Esta formado por miembros “seleccionados” de la población
(individuos, unidades experimentales).

MBA Luigi Lizza Mendoza 4

4
25/08/2023

Población y Muestra

MBA Luigi Lizza Mendoza 5

Diferencias entre Muestra y Población

MBA Luigi Lizza Mendoza 6

6
25/08/2023

Parámetro y Estadígrafo

Parámetro Estadígrafo

• Es un número o una medida de resumen • Es un número o medida de resumen,


que describe alguna característica de que describe alguna característica de la
toda la población y para determinar su muestra y para determinar su valor
valor numérico es necesario utilizar la numérico se utiliza solo la información de
información de toda la población, y por lo la muestra, y la toma de decisiones
tanto las decisiones se toman con contiene un grado de incertidumbre.
certidumbre total. • Los principales estadígrafos son:
• Los principales parámetros son: • Media muestral (notación: 𝐗 )
• Media Poblacional (Notación: µ ) • Varianza muestral (notación: s2 )
• Varianza Poblacional (Notación: σ2 ) • Proporción muestral (notación: p )
• Proporción Poblacional (Notación: π )

MBA Luigi Lizza Mendoza 7

Población

• Ejemplos:
• Todas las personas residentes en la Provincia de Arequipa.
• Los Colegios estatales de nivel primaria ubicados en el cono norte de
la ciudad de Lima.
• Los artículos fabricados por cierta línea de producción de una
determinada empresa.
• Censo: Cuando se realiza un estudio de toda la población o
una enumeración completa de esta se dice que se ha realizado
un Censo

MBA Luigi Lizza Mendoza 8

8
25/08/2023

Unidad de Análisis
(Unidad Elemental o Unidad Estadística)
• Es el elemento indivisible de la población el cual será
analizado y del cual se obtendrán los datos.
• Ejemplos:
• Una persona residente en la Provincia de Arequipa.
• Un colegio estatal de nivel primaria, ubicado en el cono norte de
Lima.
• Un artículo fabricado por dicha empresa

MBA Luigi Lizza Mendoza 9

Muestra

• Subconjunto finito de unidades de análisis (de tamaño “n”)


seleccionados de la población en estudio. La muestra debe
ser representativa, es decir debe tener, en lo posible,
características similares a las de su población.
• Ejemplos:
• 50 personas seleccionadas, de entre las personas que residen en la
Ciudad de Arequipa.
• Se seleccionan 35 colegios de nivel primaria, de entre los colegios
ubicados en el cono norte de Lima.
• 80 artículos elegidos de la producción de un mes.

MBA Luigi Lizza Mendoza 10

10
25/08/2023

Tipos de Muestra
Muestras no
Muestras Aleatorias
Aleatorias
• Son aquellas en las • Son aquellas cuyos
que sus elementos elementos resultan
han sido elegidos de de un muestreo
modo fortuito, es dirigido (interviene
decir al azar, con un un experto en la
criterio designación de los
probabilístico. elementos de la
muestra).

MBA Luigi Lizza Mendoza 11

11

División de la Estadística
• Métodos que incluyen la
recolección, presentación y
caracterización de un conjunto
de datos con el fin de describir
apropiadamente las diversas
Estadística características de ese conjunto
Descriptiva de datos.
• Un estudio estadístico es
descriptivo cuando solamente
se pretende describir, resumir
y analizar los datos.

• Se encarga de analizar la
información presentada por la
estadística descriptiva
Estadística mediante técnicas que nos
ayuden a conocer, con
Inferencial determinado grado de
confianza, a la población. Lo
que nos permite tomar
decisiones.

MBA Luigi Lizza Mendoza 12

12
25/08/2023

Introducción a la Estadística Descriptiva

MBA Luigi Lizza Mendoza 13

13

Estadística Descriptiva

Recolectar datos
• Instrumentos
• Encuestas

Presentar datos
• Tablas
• Gráficos

Resumir datos
• Media Muestral

MBA Luigi Lizza Mendoza 14

14
25/08/2023

Estadística Inferencial

• Estimación
• Estimar el peso promedio de la
población usando el peso
promedio de la muestra
• Prueba de Hipótesis
• Probar que el peso promedio
de la población es de 65 Kg.

Extraer conclusiones y/o tomar decisiones concernientes a


una población basándose en los resultados de una muestra

MBA Luigi Lizza Mendoza 15

15

Variables Estadísticas y su
Clasificación

MBA Luigi Lizza Mendoza 16

16
25/08/2023

Variable Estadística

• Es una característica de los datos que interesa al investigador


y que puede tomar diferentes valores.
• Generalmente se les representa mediante una letra mayúscula
(X, Y ,Z, etc.)
• Dato (Observación): Es el resultado obtenido al realizar la
medición o la observación de la(s) variable(s) de interés, en
cada una de las unidades elementales.

MBA Luigi Lizza Mendoza 17

17

Variable Estadística

• Ejemplo:
• En un grupo de estudiantes que asisten a la universidad nos interesan
las siguientes características: Talla, peso, edad, el tipo de movilidad
que utiliza para trasladarse a la Universidad y el número de curso en el
cual se ha matriculado el presente período académico.

Talla Peso Edad Tipo de Número


Variables
Movilidad de cursos
1.68 54 18 AUTO PROPIO 5
Datos 1.70 55 20 AUTOBUS 5
1.75 58 21 AMIGOS 6
1.62 60 19 AUTOBUS 4

MBA Luigi Lizza Mendoza 18

18
25/08/2023

Clasificación de las Variables Estadísticas


VARIABLES CUALITATIVAS
Son variables cuyos valores consisten en categorías de clasificación, es
decir se refieren a la cualidad que presenta o la categoría a la que
pertenece. Estas variables se clasifican en Nominales y Ordinales.

Variable Cualitativa Nominal Variable Cualitativa Ordinal

• Son aquella que surgen • Son aquellas que surgen


cuando se definen cuando se definen
categorías que no son categorías que pueden ser
susceptibles de un ordenadas de acuerdo a
ordenamiento. (Color de una jerarquía o prioridad.
los ojos, género, (Nivel de instrucción
profesión, marca de alcanzado, jerarquía en
gaseosa que prefiere) las instituciones armadas
o policiales, Nivel
Socioeconómico)

MBA Luigi Lizza Mendoza 19

19

Clasificación de las Variables Estadísticas


VARIABLES CUANTITATIVAS
Son aquellas variables que toman valores numéricos y se obtienen como el
resultado de un proceso de conteo o un proceso de medición. Se clasifican
en Discretas y Continuas.

Variable Cuantitativa Variable Cuantitativa


Discreta Continua
• Son aquellas que solo • Son aquellas variables
pueden asumir valores cuyas magnitudes
enteros. Estas variables pueden asumir cualquier
están asociada a un valor dentro de un
proceso de conteo. recorrido o intervalo
(Número de hijos por dado. Estas variables
familia, número de cursos están asociadas a
matriculados) procesos de medición.
(tiempo, peso, ingreso,
utilidad)

MBA Luigi Lizza Mendoza 20

20
25/08/2023

Niveles de Medición

MBA Luigi Lizza Mendoza 21

21

Escala de Medición

• La Escala de Medición determina la cantidad de información


contenida en el dato y nos indica la manera más apropiada de
resumir y analizar estadísticamente los datos.
• Consideraremos las siguiente Escalas de Medición:
1. Escala Nominal
2. Escala Ordinal
3. Escala de Intervalo
4. Escala de Razón

MBA Luigi Lizza Mendoza 22

22
25/08/2023

Escalas de Medición
Escala Nominal

• está asociada a variables cualitativitas y es denominada de este


modo si no se pueden hacer operaciones aritméticas entre sus
valores, pues éstos son únicamente ETIQUETAS.
• Ejemplo: sexo, código postal, estado civil, número telefónico,
número al correr en un maratón, deporte favorito, carrera a estudiar,
etc.

Escala Ordinal

• Los valores de la variable que tienen un ORDEN con un nivel


específico, pero no se pueden hacer operaciones aritméticas entre
ellas.
• Ejemplo:
• Pésimo – Malo – Regular – Bueno – Excelente
• Primaria – Secundaria – Preparatoria - Licenciatura

MBA Luigi Lizza Mendoza 23

23

Escalas de Medición
Escala de Intervalo
• En ella existe un orden entre los valores de la variable y además una
NOCIÓN DE DISTANCIA aunque no se puedan realizar operaciones.
• El cero o punto de inicio no es único, es más bien un punto de
referencia.
• Ejemplo: Escalas de temperatura, la edad de la Tierra, la línea del
tiempo de la humanidad.

Escala de Razón
• La magnitud tiene SENTIDO FÍSICO, existe el cero absoluto, existe orden,
se puede determinar cuántas veces es mayor uno que otro.
• Ejemplo: peso, estatura, edad, distancia, dinero, etc.

MBA Luigi Lizza Mendoza 24

24
25/08/2023

Organización de los Datos

MBA Luigi Lizza Mendoza 25

25

Tabulación de los Datos

• Una buena tabla debe tener:


• Títulos y encabezamientos claros y completamente definidos
• Incluir las unidades en que se expresa la medición
• Incluir la suficiente información que permita establecer la validez de los
cálculos o argumentos
• Incluir fuente de datos cuando corresponda

MBA Luigi Lizza Mendoza 26

26
25/08/2023

Tabla de Distribución de Frecuencias para


Variables Cualitativas
Ci : Representa las categorías o
Unidades vendidas al mes por niveles de la variable en estudio.
Categoría de Producto fi : Es llamada frecuencia absoluta
Frecuencia Porcentaje simple, y representa el número de
Categoría
(fi) (hi) datos que tienen la característica Ci.
Válido Accesorios 53,833 40.55 Se obtienen mediante un conteo
Bicicleta Estacionaria 1,864 1.40 directo de los datos. Siempre se debe
Bicicleta Montañera 27,331 20.59 cumplir que ∑ 𝑓 = 𝑛
Bicicleta de Carrera 23,728 17.87
Bicicleta de Paseo 25,011 18.84
hi : frecuencia relativa simple.
Bicicleta de Tendencia 992 0.75 Representa el porcentaje de datos que
Total 132,759 100.00 tienen la categoría Ci f
hi  i

n
Interpretación:
• En el mes se han vendido 27,331 bicicletas montañeras.
• El 17.87% del total de bicicletas vendidas en el mes son del modelo bicicleta de carrera
MBA Luigi Lizza Mendoza 27

27

Tabla de Distribución de Frecuencias para


Variables Cuantitativas DiscretasXi : Cada uno de los
posibles valores que
Días de ausencia al trabajo en un mes
puede tomar la
Frecuencia Porcentaje variable.
Frecuencia Porcentaje
Xi acumulada acumulado
(fi) (hi) fi : Frecuencia absoluta
(Fi) (Hi)
simple del valor Xi
Válido 0 1 5.0 1 5.0 hi : Frecuencia relativa
1 4 20.0 5 25.0 simple del valor de Xi
2 7 35.0 12 60.0 Fi : frecuencia absoluta
3 6 30.0 18 90.0 acumulada, hasta el
4 2 10.0 20 100.0 valor Xi
Total 20 100.0 Hi : Frecuencia relativa
Interpretación: acumulada, hasta el
• El 35% de los empleados falta 2 días al trabajo en un periodo de 30 días valor Xi
• Un máximo de 12 empleados falta 2 días o menos al trabajo en un período de 30 días
• El 60% como máximo de los empleados falta 2 días o menos al trabajo en un período de 30 días
• El 40% de los empleados falta más de 2 días al trabajo en un período de 30 días

MBA Luigi Lizza Mendoza 28

28
25/08/2023

Tabla de Distribución de Frecuencias para


Variables Cuantitativas Continuas

Rango = Max - Min Regla de Sturges


En este caso se utiliza el redondeo matemático
K=1+3.322 log(n) usual (primer decimal mayor ó igual a 5, se agrega
una unidad más a la parte entera).

El resultado se redondea al valor inmediato


superior, teniendo en cuenta el número de
C= Rango/k decimales que se está utilizando.

29

Tabla de Distribución de Frecuencias para


Variables Cuantitativas Continuas
Ventas Mensuales en Soles (S/)
Frecuencia Porcentaje
Frecuencia Porcentaje
Li - Ls Acumulada acumulado
(fi) (hi)
(Fi) (Hi)
Válido 14.04 - 20,313.46 115,952 87.34 115,952 87.34
20,313.47 - 40,612.89 14,519 10.94 130,471 98.28
40,612.90 - 60,912.33 2,089 1.57 132,560 99.85
60,912.34 - 81,211.76 177 0.13 132,737 99.98
81,211.77+ 22 0.02 132,759 100.00
Total 132,759 100.00

Interpretación:
• 14,519 boletas de venta registran un monto entre S/ 20,313.47 a S/. 40,612.89
• El 10.94% de las boletas de venta registran un monto entre S/ 20,313.47 a S/. 40,612.89
• 132,560 boletas de venta registran ventas entre S/. 14.04 y S/. 60,912.33
• El 98.28% de las boletas de venta registran montos entre S/. 14.04 y S/. 40,612.89
• El 1.72% de las boletas de venta registran montos superiores a los S/.40, 612.90

MBA Luigi Lizza Mendoza 30

30
25/08/2023

Crear Tabla de Frecuencias agrupadas

Nota: Abrir el archivo “C02-Ventas Retail.sav”

MBA Luigi Lizza Mendoza 31

31

Crear Tabla de Frecuencias agrupadas

• 4,396 tickets de venta registran un ingreso entre $13.00 y $ 843.99, lo que representa el
41% de las ventas totales
• El 9.6% de los tickets de venta registran un ingreso entre $2,506.00 y $3,396.99.00
• El 86.8% de los tickets de venta registran un ingreso entre $13.00 y $3,336.99

MBA Luigi Lizza Mendoza 32

32
25/08/2023

Crear Tabla de Frecuencias

Tabla de Frecuencias
para la variable categórica
“Líneas de Producto”

MBA Luigi Lizza Mendoza 33

33

Tablas de Contingencia

Abrir archivo
“C03-Servicios de
Comunicación.sav”

MBA Luigi Lizza Mendoza 34

34
25/08/2023

Tablas de Contingencia
Distribución de Clientes según Empresa y Tipo de Servicio
¿Cuál será el título de esta tabla de
doble entrada de frecuencias
absolutas? Todo título debe empezar
con el término Distribución seguido
de las unidades elementales que
estamos analizando, en este caso
clientes, luego por el enlace según
para finalmente terminar con las
¿Cómo interpretar el valor absoluto 59? variables, variable 1 «y» variable 2
- Respecto al total general: que en nuestro caso son las
- Del total de clientes, 59 son clientes Movistar de Telefónia Celular variables, empresa y tipo de servicio.
- Respecto al total de fila: La letra clave «y» indica que la suma
- De un total de 168 clientes de telefonía celular, 59 son de Movistar de todas las frecuencias absolutas
- Respecto al total de columna: corresponde al tamaño de muestra.
- De un total de 164 clientes de Movistar, 59 son de telefonía celular.

35

Tablas de Contingencia

MBA Luigi Lizza Mendoza 36

36
25/08/2023

Tablas de Contingencia
Distribución Porcentual de Clientes según Empresa
¿Cómo interpretar el valor 10.8%?
y Tipo de Servicio recibido

Respecto al total general:


Del total de clientes, el 10.8% son de la Empresa Movistar y reciben el servicio de internet.
Respecto al total de fila:
Del 35.8% de clientes que reciben el servicio de internet, el 10.8% son de la Empresa Movistar.
Respecto al total de columna:
Del 32.8% de clientes de la Empresa Movistar, el 10.8% reciben el servicio de internet.

37

Tablas de Contingencia

MBA Luigi Lizza Mendoza 38

38
25/08/2023

Tablas de Contingencia
Distribución Porcentual de Clientes según Empresa por
La palabra clave «por»
Tipo de Servicio recibido indica la suma de todas
las frecuencias
porcentuales

Ahora, ¿cómo interpretamos un


valor de esta tabla? Por ejemplo,
si queremos interpretar el valor
35.3% diremos:

Respecto al total de fila:


Del total de clientes que reciben el servicio de TV Cable, el 35.3% son de la
Empresa Vodafone.
En esta interpretación, decir total se refiere al 100% de clientes de TV Cable y que
de ellos solo el 35.3% son de la Empresa Vodafone

39

Tablas de Contingencia

MBA Luigi Lizza Mendoza 40

40
25/08/2023

Tablas de Contingencia
Distribución Porcentual de Clientes según
Tipo de Servicio por Empresa

Ahora, ¿cómo
interpretamos un valor
de esta tabla? Por
ejemplo, si queremos
interpretar el valor
34.5% diremos:

Respecto al total de columna:


Del total de clientes de la Empresa Claro, el 34.5% reciben el servicio de Telefonía Celular

41

Representación Gráfica de
los Datos

MBA Luigi Lizza Mendoza 42

42
25/08/2023

Representación Gráfica de Variables


Cualitativas
• Para representar gráficamente la distribución de frecuencias de
una variable cualitativa se utilizan las barras y los sectores
circulares.
• Nota: Si trabajamos con variables cualitativas nominales las
categorías pueden ser colocadas en cualquier orden. En el caso de las
variables ordinales, las categorías deberán ser colocadas respetando
el orden pre-establecido (respetando las jerarquías).

MBA Luigi Lizza Mendoza 43

43

Gráfica de Barras
Accidentes ocurridos en la Planta
Un diagrama de barras se utiliza para de presentar
datos cualitativos o datos cuantitativos de tipo
22 discreto.
Se representan sobre unos ejes de coordenadas.
Nro de Accidentes

En el eje de abscisas se colocan los valores de la


variable, y sobre el eje de ordenadas las frecuencias
14
absolutas o relativas o acumuladas.
11 Los datos se representan mediante barras de una
altura proporcional a la frecuencia, en forma vertical u
7
horizontal.

BRAZOS DEDOS OJO PIERNA


Parte del cuerpo lesionada

MBA Luigi Lizza Mendoza 44

44
25/08/2023

Gráfico de Barras

MBA Luigi Lizza Mendoza 45

45

Gráfico de Barras

MBA Luigi Lizza Mendoza 46

46
25/08/2023

Histogramas

• Un histograma es una representación gráfica de una variable


en forma de barras.
• Se utilizan para variables continuas o para variables discretas,
con un gran número de datos, y que se han agrupado en
clases.
• En el eje abscisas se construyen unos rectángulos que tienen
por base la amplitud del intervalo, y por altura, la frecuencia
absoluta de cada intervalo.
• La superficie de cada barra es proporcional a la frecuencia de
los valores representados.
MBA Luigi Lizza Mendoza 47

47

Histogramas

MBA Luigi Lizza Mendoza 48

48
25/08/2023

Histogramas

MBA Luigi Lizza Mendoza 49

49

Diferencia entre Gráfica de Barras e


Histograma
• El Diagrama de Barras se usa para representar de forma
gráfica datos cuantitativos discretos o datos cualitativos, en
cambio el Histograma es exclusivo para representa datos
cuantitativos continuos.
• Otra diferencia entre ellos, es que el Histograma no tiene
barras “separadas”, y la gráfica de barras si.

MBA Luigi Lizza Mendoza 50

50
25/08/2023

Tablas de Frecuencias y
Gráficos en R

MBA Luigi Lizza Mendoza 51

51

Scripts para creación Tablas de


Frecuencias con R
• 09-TF y gráficos variable cualitativa.R
• 10-TF y gráficos variable continua.R
• 11-TF de doble entrada y gráficos.R

MBA Luigi Lizza Mendoza 52

52
25/08/2023

¿Preguntas?

MBA Luigi Lizza Mendoza 53

53

You might also like