Informe de Un Seminario Basado en Proyectos Sobre El Sistema de Predicción de Clasificación de Películas

You might also like

Download as docx, pdf, or txt
Download as docx, pdf, or txt
You are on page 1of 22

Un informe de seminario basado en proyectos

En

“Sistema de recomendación y predicción de clasificación


de películas ”
Presentado a
Universidad Savitribai Phule Pune, Pune
En cumplimiento parcial para la obtención del Título de
Bachillerato de Ingeniería
en
Tecnologías de la información
por

Kunal Bhatt (T150368571 / T20242 y División II)

Bajo la guía de
Prof. SM Kamble

Departamento de Tecnología de la Información


STES, Smt. Facultad de Ingeniería Kashibai Navale,
Vadgaon (BK), Pune, 411 041.
2020-2021 (SEM-II)
CERTIFICADO
Este documento certifica que el informe del seminario basado en un proyecto titulado
“Sistema de recomendación y predicción de clasificación de películas” presentado por
Kunal Bhatt (T150368591 / T20242 (Div-II)) es un registro del trabajo genuino realizado
por él bajo la supervisión y orientación. del Prof. SM Kamble en cumplimiento parcial del
requisito para el curso TE (Tecnología de la información) 2015 de la Universidad
Savitribai Phule Pune, Pune en el año académico 2020-2021

Fecha: / / 2021

Lugar: Pune

Guía del Prof. SM Kamble Dr. AV Deshpande


Prof. RH Borhade Director, SKNCOE, Pune
Jefe del Departamento, TI

Hemos examinado este informe del seminario basado en proyectos según los
requisitos de la Universidad Savitribai Phule Pune, Pune en Smt. Facultad de
Ingeniería Kashibai Navale, Pune-41 en _____________

Examinador Examinador externo


interno
RECONOCIMIENTO

Estoy muy agradecido a todos los profesores que me han brindado una valiosa
orientación para completar este trabajo de seminario sobre el Sistema de recomendación
y predicción de clasificación de películas . Expreso mi más sincero agradecimiento al
departamento cooperativo que me brindó una valiosa ayuda y requisitos para el trabajo del
seminario.
Estoy muy agradecido y quiero expresar mi agradecimiento a la Prof. SM Kamble por
guiarme de la manera correcta, corregir mis dudas brindándole su tiempo cuando lo
necesitaba y brindando su conocimiento y experiencia para que este seminario funcionara.
También agradezco al Jefe de Defensa de nuestro departamento de Tecnología de la
Información , Prof. RHBorhade, por su apoyo moral y motivación que nos ha animado a
hacer que este seminario funcione.
El reconocimiento estará incompleto si no agradezco a nuestro director Prof. Dr. AV
Deshpande, quien brindó su constante apoyo y motivación, lo que ha sido de gran
importancia para que este seminario funcione.
(Nombre y firma del estudiante)
TABLA DE CONTENIDO
Abstracto 5

Lista de Figuras 6

Abreviaturas 7

1. INTRODUCCIÓN 8

1.1 Introducción al tema del proyecto 8

1.2 Motivación detrás del tema del Proyecto. 9

1.3 Propósito y objetivo(s) del trabajo del proyecto 9

1.4 Título del proyecto 10

2. ESTUDIO DE ANTECEDENTES DE LA Predicción de 11

clasificación de películas

2.1 Introducción al tema del seminario. 11

2.2 Motivación detrás del tema del Seminario. 12

2.3 Propósito y Objetivo(s) del trabajo del Seminario 12

2.4 Encuesta de literatura 13

3. OTROS CAPÍTULOS RELACIONADOS CON EL 14


SEMINARIO
3.1 Metodología propuesta 14

3.2 Algoritmos 14

3.2.1 Bosque aleatorio 14

3.2.2 Aumento de gradiente 15

3.2.3 K-vecinos más cercanos 15

3.3 Trabajo futuro 15

4. Conclusión 16

5. Referencias 17

ABSTRACTO

La clasificación de películas es un elemento importante para decidir la calidad de la


película. Es como un resumen para reflejar la calidad de todos los elementos dentro de una
película. La gente prefiere utilizar la calificación como referencia para decidir antes de
decidir si ver una película o no. Es importante predecir la clasificación de la película antes
de su lanzamiento para mantener la objetividad de la clasificación de la película. Muchos
tipos de investigación existentes no lograron abordar este problema porque utilizaron
elementos posteriores al estreno, como comentarios en las redes sociales, para predecir las
calificaciones de las películas. El otro problema es que la calificación prevista no está
destinada a la gente en general. Varios tipos de investigación utilizaron filtrado
colaborativo; sin embargo, la calificación encontrada estaba destinada a personas
específicas. Para abordar las limitaciones de investigaciones anteriores, este estudio utilizó
valores históricos de la película como características. Los valores históricos podrían
generarse a partir de elementos preestrenados de la película, se crearon a partir de la
relación entre la película que se basa en atributos similares de la película, como actor,
director, géneros, clasificación de contenido y compañías productoras. Al utilizar valores
históricos, se pueden hacer predicciones objetivas incluso antes del estreno de la película.
El método propuesto tenía como objetivo hacer predicciones más precisas y generales para
las calificaciones de películas. En este estudio, el uso de características históricas y redes
neuronales convolucionales (CNN) como modelos mostró resultados prometedores.

Palabras clave: clasificación de películas, predicción de clasificación, valores históricos,


red neuronal convolucional, CNN
LISTA DE FIGURAS
ACRÓNIMOS

RF Bosque aleatorio
IMDB Base de datos de
películas de Internet
DS Conjunto de datos
knn K-vecino más cercano
Chapter 1
INTRODUCCIÓN

1.1 Introducción al proyecto

La forma de entretenimiento favorita de la gente son las películas, que se han convertido
en una parte esencial de nuestras vidas como fuente de ocio y diversión. El cine ha
evolucionado hasta convertirse en una herramienta para conocer diferentes culturas de
todo el mundo, además de ser una fuente de diversión. Incluso una película puede
considerarse una obra de arte que vuelve loca a la gente. Se ha convertido en la fuente de
entretenimiento más importante para personas de todo el mundo, independientemente de
sus diversos orígenes. Cada año se estrenan una gran cantidad de películas con una amplia
gama de géneros, historias e intérpretes. En los últimos cinco años, Estados Unidos y
Canadá han estrenado una media de 765 películas al año. Solo en el año 2019, en
comparación con 2018, este número aumentó en 70 películas. La gente necesitaría una
pauta o métrica para determinar si una película es buena o no, dada la gran cantidad de
películas estrenadas, para no gastar su dinero en películas malas. A menudo la gente no
está segura de qué película ver para entretenerse en su tiempo libre. Además, ver películas
terribles puede alterar el estado de ánimo del público.

El estudio puede utilizarse como prueba de concepto para aplicaciones futuras y debería
resaltar algunos de los obstáculos que deben resolverse para construir un modelo de
predicción exitoso. En teoría, este concepto podría aplicarse a las calificaciones crediticias,
el mercado de valores o el mercado inmobiliario.

Un sistema de recomendación es una solución al problema de encontrar artículos


adecuados para un consumidor a pesar de buscar una gran cantidad de opciones. Aunque
las preferencias de las personas difieren de unas a otras, sí siguen un patrón. Los sistemas
de recomendación son herramientas y técnicas de software que brindan recomendaciones
basadas en las preferencias de una persona para encontrar contenido nuevo que necesite.
Al evaluar el historial de navegación anterior, los comentarios asignados a productos y el
comportamiento diverso de los usuarios, el sistema de recomendación genera ideas para
los clientes. Hay dos tipos de algoritmos recomendados: algoritmos basados en usuarios y
algoritmos basados en elementos.

1.2 Motivación detrás del tema del proyecto

Es cierto que una buena película puede cambiarte, pero también es cierto que una mala
puede hacerte sentir triste o triste, hoy en día la película se ha convertido en uno de los
entretenimientos más populares para las personas y se ha convertido en una parte integral
de nuestras vidas. como medio de relajación y entretenimiento. Muchas personas
simplemente buscan en Google la reseña de una película, leen la primera reseña y
comienzan a verla, y cuando después de ver más de la mitad o la película completa se dan
cuenta de que no es algo que querían ver, a veces encontrar una buena película para ver
puede ser difícil porque Todos sabemos que no todas las películas son como la serie Los
Vengadores de Marvels Production o las dirigidas por Zack Snyder, y de ahí viene nuestro
sistema de Recomendación de Películas, se enfoca en tus elecciones anteriores, la estudias
a fondo y luego te sugiere una película que será similar a sus elecciones anteriores que le
parecieron divertidas y que se pueden volver a ver, y eso es lo que le proporcionamos, que
es un sistema que le recomendará la película según el tipo de papel que el actor y la actriz
han desempeñado en ella, el género de la película y varios factores que se consideran. ser
elección del usuario

1.3 Finalidad y objetivos del trabajo

Nuestro objetivo es crear un sistema que ahorre tiempo a los usuarios, que dedican a
buscar una buena película que les guste, pasan tiempo en varios sitios y canales de
YouTube para obtener una reseña de una película que les guste, dedican el tiempo que
tuvieron para relajarse, el tiempo que tuvieron para aumentar su energía, muchas personas
después de un día agitado les gusta ver una película al final del día, pero a veces terminan
viendo películas que están muy fuera de los géneros que algo que les guste, o algo de lo
que hayan oído hablar, de alguien, en lo que estamos trabajando es en un sistema que
utilizará el aprendizaje automático para comprender qué tipo de película le gusta ver. Si
digo específicamente, le recomendará películas en función de sus preferencias previas.
Miró películas según la elección del género que más le guste, su actor, actriz, director
favorito y considerando muchos otros factores. No sólo le ahorrará tiempo sino que
también le refrescará porque una vez Tom Hanks (actor y cineasta estadounidense) dijo:
"Al final del día, tiene que ser una película que haga que la gente piense: 'Oye, no podría
haber pasado mi tiempo sea mejor.' ”.
Los objetivos de esta tarea son construir un sistema que realizará varias tareas tales como:
-

1. Recomendar películas a través de los conjuntos de datos anteriores.


2. Al cine, te puede gustar o no.
3. Para ahorrar tiempo y dinero a los usuarios.
4. Para mejorar la precisión de la recomendación cada vez que el usuario usa esto
para una película.
recomendación.
5. Recomendar películas utilizando datos de diferentes usuarios con opciones de
películas similares

Figura 1.3: Sistema de recomendación de


películas.

1.4 Título del Proyecto

Títul Sistema de recomendación y predicción de clasificación de películas


o:
Chapter 2
Trabajo de fondo de clasificación de películas
Sistema de predicción

2.1 Introducción al tema del seminario

Cada año se producen y distribuyen cientos de películas. Entre ellas hay películas
excelentes y malas. Entonces, ¿cómo sabemos sus méritos si no hemos visto la
película? ¿O cómo elegimos una buena película para ver los fines de semana para
relajarnos y disfrutar? La mayoría de las veces basaremos nuestra decisión en la
puntuación de la película o en una reseña. El sitio web de IMDb es un lugar maravilloso
para comenzar ahora mismo. Debido a su popularidad, el sitio web de IMDb ofrece una
gran cantidad de información sobre películas, así como comentarios de los fanáticos. Las
calificaciones de IMDb son bien conocidas por el público y reflejan tanto la calidad del
contenido como, hasta cierto punto, la aprobación de la audiencia. Como resultado,
intentaremos descubrir los aspectos clave que afectan la puntuación de IMDb y
sugeriremos un método eficaz para predecirla en este estudio. Los datos de nuestro
artículo provienen del conjunto de datos de películas IMDb 5000 de Kaggle. Comprende
28 variables para 5042 películas y 4906 carteles de 66 países, a lo largo de 100 años.
Hay 2399 nombres de directores diferentes y miles de actores y actrices para elegir.

En este estudio, nuestro objetivo es anticipar que el cine tiene un gran impacto en nuestra
cultura utilizando el conjunto de datos de IMDb. El cine es una de las formas de
comunicación de masas más efectivas del planeta. El cine tiene el poder de impactar la
sociedad a escala local y global. Cada año se produce una amplia gama de películas.
Algunas películas representan eventos históricos, mientras que otras producen cultura,
otras brindan fantasía y otras hacen una variedad de otras cosas.

Los valores cronológicos son una de las características distintivas del estudio. Estas
características se desarrollaron como resultado del vínculo entre una película y películas
estrenadas anteriormente. Se anticipó que la calificación prevista basada en estos valores
históricos sería mucho más objetiva que la reacción del público cuando se estrenó la
película por primera vez. Ning et al. se refieren a este método como predicción de
calificación de cohorte. El enfoque de calificación de cohorte busca películas que sean
comparables en términos de cualidades y valores históricos, y luego predice una
calificación basada en esas similitudes. Por ejemplo, una película protagonizada por David

Leitch (director) y Vin Diesel. (actor) tendría una castración comparable de las películas.

Hacemos un examen exploratorio de los datos y descubrimos algunos fenómenos


intrigantes que nos ayudan a mejorar nuestra técnica de predicción, así como a conocer los
factores que influyen en la puntuación de IMDb de una película.

Finalmente, nuestros hallazgos revelan que en este conjunto de datos, alcanzamos un alto
nivel de precisión en la predicción de puntajes de IMDb.

2.2 Motivación detrás del tema del proyecto

Es cierto que una buena película puede cambiarte, pero también es cierto que una mala
puede hacerte sentir triste o triste, hoy en día la película se ha convertido en uno de los
entretenimientos más populares para las personas y se ha convertido en una parte integral
de nuestras vidas. como medio de relajación y entretenimiento. Mucha gente no quiere
esperar a que se estrene la película y sea revisada por las personas que la han visto, y no
todas las películas son como la serie Marvel's Avenger o la de Zack Snyder, por eso lo que
necesitamos es un sistema que prediga la calificación de la película en función de las
películas anteriores del director, el tipo de papel que el actor y la actriz han desempeñado,
el género en el que mejor se adaptan y varios factores, y eso es lo que hemos propuesto
aquí, una forma que le permitirá conocer las posibilidades. del éxito de una película en
particular que no sólo ahorrará dinero sino que también ahorrará tiempo a muchas
personas.

2.3 Finalidad y objetivos del trabajo

El objetivo de este trabajo es crear un sistema de predicción de clasificación de películas


que predecirá una clasificación de la película que determinará si el usuario dedica su
tiempo a una película en particular o si opta por cualquier otra película. En lugar de recibir
una reseña de una persona en particular, la proporcionaremos de ninguna persona
utilizando varios algoritmos y conjuntos de datos de su experiencia previa.

Los objetivos de esta tarea son construir un sistema que realizará varias tareas tales como:
-

1. Predecir la calificación de películas a través de los conjuntos de datos anteriores.


2. Predecir la tasa de éxito de la película a través de la reseña.
3. Para ahorrar tiempo y dinero a los usuarios.
4. Para aumentar la eficiencia del.

2.4 Encuesta literaria

En esta sección, he analizado varias metodologías propuestas por profesores


para la predicción de la clasificación de películas.

Antes de su estreno en cines, se empleó una red neuronal para pronosticar el


rendimiento financiero de una película de taquilla. Esta predicción se había
transformado en una cuestión de clasificación de nueve clases. El modelo fue
representado con sólo unos pocos detalles. A. Sivasantoshreddy, P. Kasat y A.
Jain utilizaron el análisis del hype para tratar de anticipar el estreno en taquilla de
una película. Se intentó mejorar el pronóstico bruto de las películas mediante el
análisis de noticias, utilizando los datos cuantitativos de noticias de Lydia. Había
dos modelos diferentes (modelos de regresión y k-vecino más cercano). Sin
embargo, sólo consideraron películas con un gran presupuesto. Cuando se utilizó
un término popular como nombre, el modelo falló y no pudo predecir si no habría
noticias sobre una película.

MH Latif y H. Afzal utilizaron la base de datos IMDB como única fuente de


información y sus datos no eran exactos. Como dijeron anteriormente, sus datos
eran inconsistentes y extremadamente ruidosos. Como resultado, utilizaron
Central Tendency como punto de referencia para llenar espacios en blanco para
otras cualidades.

K. Jonas, N. Stefan, S. Daniel y F. Kai utilizaron el análisis de sentimiento y de


redes sociales para anticipar su hipótesis, que se basó en un análisis de la
intensidad y positividad del subforo Oscar Buzz de IMDb. Han tenido en cuenta a
la crítica de cine como influencer y su pronóstico. Emplearon una maraña de
palabras que arrojaron resultados erróneos.
Chapter 3
SEMINARIO OTROS TEMAS RELACIONADOS

3.1 Metodología propuesta

El primer paso es encontrar una muestra y un conjunto de datos adecuado de datos de


películas para su análisis. La información general de preproducción de proyectos
cinematográficos, como el género, el idioma y la información sobre los actores y directores
involucrados, deben ser características relevantes de dichos datos. De manera similar, se
deben incluir en los datos algunas métricas de éxito, como las calificaciones de películas
generadas por los usuarios. En segundo lugar, el conjunto de datos apropiado debe
producirse y organizarse de tal manera que los datos utilizados sean indicativos del escenario
general de la película y adecuados para el análisis utilizando técnicas y algoritmos de
aprendizaje automático. Por último, se debe evaluar el rendimiento de los algoritmos de
aprendizaje automático necesarios en términos de predicción utilizando el conjunto de datos
suministrado. Esto requiere la adquisición y configuración de un conjunto de herramientas
capaces de evaluar ambos algoritmos en comparación entre sí en función de los datos
manteniendo la equivalencia de medición. También se deben identificar las métricas
apropiadas de este parámetro para comparar los algoritmos en función de su rendimiento de
predicción.
Figura 3.1: Flujo de trabajo de nuestro sistema

3.2 Algoritmos

Para obtener la precisión requerida, utilizaremos algunos de los mejores algoritmos que
pueden brindar resultados más precisos cuando se les proporcionan ciertos conjuntos de
datos.

Se utilizarán los siguientes algoritmos para las predicciones: -

1. Bosque aleatorio
2. Aumento de gradiente
3. K-vecinos más cercanos

3.2.1 Bosque aleatorio

Los algoritmos de conjunto combinan varios métodos, ya sean del mismo tipo o de distintos
tipos, para clasificar objetos. Ejecutar predicciones utilizando Naive Bayes, SVM y Decision
Tree, por ejemplo, y luego votar sobre la clase final para el objeto de prueba. A partir de una
porción del conjunto de entrenamiento seleccionada aleatoriamente, el clasificador de bosque
aleatorio genera un conjunto de árboles de decisión. Luego combina los votos de varios
árboles de decisión para determinar la clase final del objeto de prueba. Timberlands que no
están del todo bien Una técnica de aprendizaje de recopilación para caracterización, recaída y
diligencias varias, RF o bosques de elección arbitraria, funciona creando una gran cantidad
de árboles de elección en el momento de la preparación y dando a la clase, el método de las
clases. (en arreglo) o la previsión media (en recaída) de los árboles que son únicos RF es un
paso adelante respecto a la opción anterior. El algoritmo de árbol corrige la propensión a
sobreadaptarse en la toma de decisiones a su conjunto de árboles de entrenamiento.

3.2.2 Aumento de gradiente

Extreme Gradient Boosting (XG Boosting) es una de las implementaciones de Gradient


Boosting, pero se diferencia de Gradient Boosting en que controla el sobreajuste mediante el
empleo de un modelo más regularizado, lo que ayuda a realizar predicciones más precisas. El
nombre XG Boost, por otro lado, se refiere al objetivo de ingeniería de llevar al límite los
recursos computacionales para el método del árbol impulsado. Esta es una de las razones por
las que tanta gente utiliza el algoritmo XG Boost. Podría ser más apropiado referirse al
modelo como aumento de gradiente regularizado.

3.2.3 K-vecinos más cercanos

K-Nearest Neighbors es uno de los algoritmos de categorización más básicos pero cruciales
del aprendizaje automático. El reconocimiento de patrones, la extracción de datos y la
detección de intrusiones son sólo algunas de las aplicaciones que encuentra en el dominio del
aprendizaje supervisado. Se usa comúnmente en contextos del mundo real porque no es
paramétrico, lo que significa que no hace suposiciones subyacentes con respecto a la
distribución de datos.

3.3 Trabajo futuro

Nos gustaría ampliar tanto la cantidad de películas como la cantidad de funciones en el


conjunto de datos en el futuro. También se están considerando otras fuentes de redes
sociales para la recopilación de datos de películas, como Twitter y YouTube. Los modelos
de aprendizaje supervisado MLP y Bagging son otros dos modelos de aprendizaje que
queremos aplicar a los datos de la película. Nos gustaría comparar los hallazgos de estos
modelos con los presentados aquí.
Capítulo 4
CONCLUSIÓN

El conjunto de datos de IMDb es fascinante de estudiar. Después de construir los


cinco modelos, descubrimos que Random Forest representa con precisión las
características de la película. En comparación con estudios anteriores, la tasa de
éxito de todos los modelos es mayor. Los resultados son superiores a los producidos
por ciertas bibliotecas convencionales e investigaciones relacionadas. El éxito de
una película no está determinado únicamente por factores relacionados con la
película. Para que una película tenga éxito, el número de personas que la ven es
fundamental. Como el objetivo es atraer gente, toda la industria carecerá de sentido
si no hay nadie que vea una película.

Limitaciones:

Se vuelve difícil predecir cuándo el conjunto de datos que se proporciona al sistema


es nuevo o se puede decir cuál no puede estar relacionado con ningún otro dato
proporcionado previamente, por ejemplo: - Si el elenco es nuevo o el director es
nuevo, a veces es difícil predecir el resultados con precisión
REFERENCIAS

estándar IEEE

Diario

Papel:

1. P. Chaovalit y L. Zhou, “Minería de reseñas de películas: una


comparación entre enfoques de clasificación supervisados y no
supervisados”, en Actas de la Conferencia Internacional de
Hawaii sobre Ciencias de Sistemas (HICSS), 2005.

https://ieeexplore.ieee.org/document/1385466

2. R. Sharda y D. Delen, “Predicción del éxito de taquilla de las


películas con redes neuronales”, Sistemas expertos con
aplicaciones, vol. 30, núm. 2, págs. 243–254, 2006.

https://www.researchgate.net/publication/222530390

Nombres de sitios web referidos

https://developer.android.com/guide/topics/media/mediaplayer

https://builtin.com/data-science/random-forest-algorithm

https://towardsdatascience.com/machine-learning-basics-with-the-k-
nearest-neighbors-algorithm-6a6e71d01

https://machinelearningmastery.com/gentle-introduction-gradiente-
boosting-algorithm-machine-learning/

https://www.imdb.com/

You might also like