Scopus 001 Ok

You might also like

Download as pdf or txt
Download as pdf or txt
You are on page 1of 37

22/09/2023, 16:32 A multi‐dimensional crime spatial pattern analysis and prediction model based on classification - Hajela - 2021 - ETRI

21 - ETRI Journal - Wiley …

Revista ETRI / Volume 43, Issue 2 / p. 272-287

ARTIGO ORIGINAL Acesso Livre

Um modelo multidimensional de análise e previsão de padrões espaciais do


crime baseado na classificação Resumir

Gaurav Hajela , Meenu Chawla, Akhtar Rasool

Publicado pela primeira vez:26 de novembro de 2020


https://doi.org/10.4218/etrij.2019-0306
Citações: 3

Abstrato
This article presents a multi-dimensional spatial pattern analysis of crime events in San
Francisco. Our analysis includes the impact of spatial resolution on hotspot
identification, temporal effects in crime spatial patterns, and relationships between
various crime categories. In this work, crime prediction is viewed as a classification
problem. When predictions for a particular category are made, a binary classification-
based model is framed, and when all categories are considered for analysis, a multiclass
model is formulated. The proposed crime-prediction model (HotBlock) utilizes
spatiotemporal analysis for predicting crime in a fixed spatial region over a period of
time. It is robust under variation of model parameters. HotBlock's results are compared
with baseline real-world crime datasets. It is found that the proposed model
outperforms the standard DeepCrime model in most cases.

1 INTRODUCTION
Decades of study have firmly established that crime shows geographical (ie, spatial)
patterns [1]. Analysis of spatial patterns is a standard research approach in criminology,
just as it is in ecology, epidemiology, and other fields. Spatial patterns may have different
dimensionalities, as they can involve points, lines, or areas; they may also vary with
resolution. Crime-pattern analysis may be conducted at the level of census tracts, zip-code
units, street segments, counties, states, or countries. In this work, after considering a
number of possible resolutions, we find and utilize one that seems optimal for crime
prediction.

https://onlinelibrary.wiley.com/doi/10.4218/etrij.2019-0306 1/37
22/09/2023, 16:32 A multi‐dimensional crime spatial pattern analysis and prediction model based on classification - Hajela - 2021 - ETRI Journal - Wiley …

Spatial pattern analysis can be density-based (area-based) or distance-based. However,


Euclidean distance is not always useful in identifying urban crime patterns: Places that are
close together on a map (in terms of Euclidean distance) may in fact be very isolated from
each other if they are not joined by streets, are on opposite sides of a river with few
bridges, or are in neighborhoods separated by some invisible economic or social barrier
that keeps residents apart. On the other hand, density- or area-based spatial pattern
analysis seems to fit naturally with the intuitive concept that cities are built up of
neighborhoods. Density-based analysis can be further categorized as global or local. The
first considers the ratio of observed crime events to the area of the region under study; the
latter measures crime incidence for different units within that region.

The spatial pattern is only one aspect of the distribution of crime; there are also temporal
patterns. Many researchers have studied variation in crime rates between day and night,
weekday and weekend, or among different seasons of the year [2, 3]. Crime spatial patterns
are sometimes governed by their temporal aspect. For example, in countries with cold
winters, pickpockets will go to the beach only during the summer when there are large
crowds and not in winter when the beach is empty. Spatiotemporal patterns thus depend
on many factors: weather, census parameters, the environment, the points of interest in an
area, and more.

The goal of spatiotemporal analysis of crime patterns [4] is to find hotspots [5], that is,
areas on the map where the concentration of crime is higher than elsewhere. Hotspots can
have various dimensionalities. They can be zero-dimensional if the crime occurs at very
specific places. For example, a map showing the location of bank robberies will typically
show the locations of various banks as dots. A discrete location (example: bank) at which
crimes are frequent is called a hotplace, and in analysis is typically shown on a map with a
dot, the size of which is proportional to the number of crime events at that place. Thus, a
frequently robbed bank would be shown by a large dot, while a never-robbed bank would
be shown by a tiny one. In one-dimensional hotspot analysis, a street (linear structure) is
identified as the hotspot. In two-dimensional hotspot analysis, by contrast, hotspots may
have any shape: circular, elliptical, rectangular, polygonal, etc. They are often chosen to
coincide with zip-code units, census tracts, or political districts.

We have undertaken spatiotemporal analysis of crime patterns in New York and San
Francisco; however, only spatial analysis for San Francisco is discussed in the present
paper. The spatial analysis is done at four levels: census tract, zip-code unit, district, and
grid block (HotBlock Approach). The hotspot units at each level of analysis are identified.
We also study daily, weekly, and seasonal variations in the crime rates of these hotspot
units. A crime-prediction model based on spatiotemporal analysis is proposed, and its
performance is evaluated for datasets from New York and San Francisco.

2 LITERATURE REVIEW

https://onlinelibrary.wiley.com/doi/10.4218/etrij.2019-0306 2/37
22/09/2023, 16:32 A multi‐dimensional crime spatial pattern analysis and prediction model based on classification - Hajela - 2021 - ETRI Journal - Wiley …

Andresen [6] performed a spatial analysis of crime events that occurred in Vancouver,
Canada. Crime rates in different spatial regions were calculated and interpreted from a
standpoint integrating two of the most popular theoretical frameworks in criminology:
social disorganization theory and routine-activity theory. Instead of utilizing the residential
population of the spatial region to calculate the crime rate, the author suggested
employing the ambient population, a better measure of the expected number of people in
any region at any given time. The crime rates for three categories (auto theft, breaking and
entering, and violent crime) were calculated using both the residential and the ambient
populations; it was found that the ambient population represented the population at risk
better than the residential.

Later, Andresen [7] investigated the importance of immediate spatial neighbors in local
crime-pattern analysis. Some of the standard methods used for spatial pattern testing,
such as Moran's I, are global in nature, that is, they give a single statistic for the whole
study area, even though the study area is a collection of many small regions. This can be
problematic when a statistically insignificant area adjoins an area of high importance. For
this reason, Andresen used Local Indicators of Spatial Association (LISA) [8] to classify
regions as local clusters.

Cowen e outros [ 9 ] realizaram uma análise espaço-temporal de eventos criminais nos


bairros do condado de Miami-Dade. O modelo previu padrões de criminalidade no espaço
e no tempo com base no uso do solo e na facilidade de locomoção. A regressão dos
mínimos quadrados ordinários e a análise espacial incorporando a teoria da
desorganização social e a teoria das atividades rotineiras foram usadas para investigar a
relação entre o uso da terra e as taxas de criminalidade violenta. Um índice de
caminhabilidade foi calculado com base em quatro fatores: distância do transporte
público, distância das ciclovias, densidade de interseções de ruas e acesso a comodidades.
Verificou-se que uma maior capacidade de caminhar estava correlacionada com um maior
número de agressões agravadas, enquanto o aumento na diversidade do uso da terra
estava correlacionado com aumentos tanto em agressões agravadas como em furtos.

Vildosola e outros [ 10 ] aplicaram modelagem de terreno de risco às taxas de roubo de


residências e veículos em Coral Gables, Flórida. O foco do seu trabalho foi verificar se os
locais de risco identificados pelo modelo sociológico eram de fato áreas de alta
criminalidade. Esta informação poderia ser usada para prever futuros pontos críticos para
uma implantação mais eficiente de recursos. Para identificar locais de risco na área de
estudo, foram considerados diversos fatores de risco (número de vendedores de bebidas
alcoólicas, concessionárias de automóveis, postos de gasolina, bares, escolas, mercearias
e restaurantes). A regressão foi utilizada para fornecer um peso correspondente a cada
fator de risco. Verificou-se que locais de risco identificados pelo estudo apresentavam
altos índices de criminalidade de acordo com registros policiais.

https://onlinelibrary.wiley.com/doi/10.4218/etrij.2019-0306 3/37
22/09/2023, 16:32 A multi‐dimensional crime spatial pattern analysis and prediction model based on classification - Hajela - 2021 - ETRI Journal - Wiley …

Zheng e outros [ 11 ] propuseram uma nova estrutura para previsão de crimes baseada
em redes neurais. O seu modelo, denominado DeepCrime, considera toda a dinâmica do
crime e foi considerado consideravelmente mais eficiente do que as linhas de base do
estado da arte. O modelo DeepCrime enquadra uma matriz criminal que representa todas
(no estudo, quatro) categorias de sequências criminais em intervalos de tempo específicos
em uma região. DeepCrime foi testado em um conjunto de dados de Nova York. A
sensibilidade do modelo foi testada variando cada parâmetro mantendo os demais fixos.
Verificou-se que o DeepCrime era robusto e que não houve grande degradação de
desempenho com pequenas alterações nos parâmetros.

3 METODOLOGIA PROPOSTA
Esta investigação aborda as seguintes questões: (a) Existe alguma correlação entre crimes
em diferentes categorias de crimes ou os eventos criminais são completamente
independentes? (Secção 3.2 ) (b) Existe alguma relação entre as características da
comunidade numa área e a categoria proeminente de crime nessa área? (Secção 3.2 ) (c) O
nível de resolução da análise espacial tem algum impacto nos resultados dos hotspots?
(Secção 3.3 ) (d) Existe uma influência temporal nos padrões espaciais do crime? (Seção
3.4 ) (e) A análise espaço-temporal pode ser usada para criar um modelo de previsão de
crime? (Seção 3.5 ) (f) Em caso afirmativo, o modelo de previsão é sensível aos parâmetros
espaço-temporais usados ​para análise? (Seção 4.3 ).

3.1 Descrição do conjunto de dados


Conforme discutido na Secção 1 , existem muitos indicadores que podem ser
considerados em relação à taxa de criminalidade, entre eles indicadores meteorológicos,
indicadores de redes sociais [ 12 - 14 ], indicadores baseados em censos e indicadores de
histórico de criminalidade. Neste trabalho, os dois últimos são considerados para análise.
Os modelos propostos e outras linhas de base são avaliados nos seguintes conjuntos de
dados:

1. Conjunto de dados criminais de São Francisco : este conjunto de dados contém eventos
criminais coletados de janeiro de 2014 a dezembro de 2014 com 37 categorias
diferentes de crimes. Destes, 13 contêm número suficiente de instâncias para
avaliação e análise dos modelos propostos.
2. Conjunto de dados criminais da cidade de Nova York (NYC) : Este conjunto de dados
contém eventos criminais coletados de janeiro de 2014 a dezembro de 2014 com 68
categorias diferentes de crimes. Destes, apenas quatro foram selecionados. O
mesmo conjunto de quatro categorias de crimes é considerado na linha de base
(DeepCrime [ 11 ]) com a qual comparamos nosso modelo proposto.
3. Conjunto de dados do censo de São Francisco : O conjunto de dados criminais de São
Francisco contém distritos de departamentos de polícia, enquanto os dados do censo
são organizados por código postal. Estes dados devem ser devidamente agregados

https://onlinelibrary.wiley.com/doi/10.4218/etrij.2019-0306 4/37
22/09/2023, 16:32 A multi‐dimensional crime spatial pattern analysis and prediction model based on classification - Hajela - 2021 - ETRI Journal - Wiley …

de acordo com os distritos a serem utilizados para análise. A partir dos dados do
censo, extraímos informações sobre quantas pessoas nos distritos de São Francisco
têm um rendimento anual elevado (mais de 50 000 dólares), estão abaixo do limiar da
pobreza, têm um nível educacional baixo (menos de 12º ano) (apenas homens ) ou
viver em moradias de alto preço (que custam mais de US$ 500 mil).

3.2 Taxas de criminalidade para cada categoria e análise de


correlação para São Francisco
São Francisco está dividida em distritos para policiamento. A população de cada distrito
pode ser encontrada no conjunto de dados do censo. As estatísticas do censo são
relatadas de acordo com os códigos postais; ao considerar os códigos postais
pertencentes a um distrito como uma unidade, um conjunto de dados pode ser preparado
a partir de estatísticas do censo que contém a população distrital. Este conjunto de dados,
juntamente com o conjunto de dados criminais, é utilizado para calcular as taxas de
criminalidade para cada categoria em estudo, conforme mostrado na Tabela 1 .

Tabela 1. Taxas de criminalidade (por 100.000 habitantes) para categorias de criminalidade


nos distritos de São Francisco

Categoria de Norte Parque Inglaterra Vista Richmond Central Taraval Lomb


Invasão 147.03 84,84 29,52 42.02 26,94 127,23 36,78 212
a
crime (2) (4) (9) para a (1) (3) (8) (5)
Roubo de 865,84 786,52 676,64 432.03
baía 371,60 371,90 350,83 301
veículos (10)

Roubo 145,40 68,79 85,59 57,78 37.05 106,68 39,61 255

Assalto 1354,31 754,41 577,77 574,51 282,91 763,38 337,39 261

Droga/narcótico 633,86 509.06 144,63 187,78 119,00 233,91 71,44 240

Sequestro 55,54 20,64 32,47 22,98 15,72 28.38 14h15 66

Pessoa 379.01 793,40 259,00 254,10 194,22 209,44 178,24 391


desaparecida

https://onlinelibrary.wiley.com/doi/10.4218/etrij.2019-0306 5/37
22/09/2023, 16:32 A multi‐dimensional crime spatial pattern analysis and prediction model based on classification - Hajela - 2021 - ETRI Journal - Wiley …

Categoria de Norte Parque Inglaterra Vista Richmond Central Taraval Lomb

a Os
números dos distritos mencionados entre parênteses são usados ​no eixo X das Figuras 2 e 3 .

Pode-se inferir da Tabela 1 que os distritos de Mission e Southern têm as taxas de


criminalidade mais elevadas, enquanto Taraval, Bayview, Ingleside e Richmond estão no
lado mais baixo. O roubo é menos comum no distrito de Bayview, que tem a menor
percentagem da população com rendimentos elevados. Tenderloin tem uma grande
percentagem da população com baixa escolaridade e abaixo da linha da pobreza; também
tem grandes problemas com drogas, assaltos, roubos e transgressões. Esses resultados
verificam a teoria da desorganização social que relaciona as características da comunidade
que vive em uma área com a categoria de crime e a taxa de criminalidade [ 15]. Observa-se
que a percentagem da população abaixo da linha da pobreza e a percentagem da
população masculina com baixa escolaridade tendem a ser semelhantes em todos os
distritos (ou seja, um distrito que tem uma baixa percentagem da população masculina
com pouca escolaridade normalmente tem uma baixa percentagem da população abaixo
da linha da pobreza, como mostra a Figura 1 ). O elevado preço da habitação (mais de 500
000 dólares) e o elevado rendimento anual (mais de 50 000 dólares) também estão
distribuídos de forma semelhante entre os distritos, como mostra a Figura 2 . (Os limites
para rendimentos elevados e preços de habitação são simplesmente os valores médios
retirados dos dados do censo de São Francisco). No entanto, os distritos do Norte (#2) e
Ingleside (#9) são anómalos em ambos os gráficos.

https://onlinelibrary.wiley.com/doi/10.4218/etrij.2019-0306 6/37
22/09/2023, 16:32 A multi‐dimensional crime spatial pattern analysis and prediction model based on classification - Hajela - 2021 - ETRI Journal - Wiley …

figura 1

Abrir no visualizador de figuras Power Point


Correspondência entre porcentagens da população com baixa escolaridade (somente homens) e vivendo abaixo da

linha da pobreza nos distritos de São Francisco

Figura 2

Abrir no visualizador de figuras Power Point


Correspondência entre as porcentagens da população com renda superior a 50.000 e que vivem em casas que custam

mais de 500.000 nos distritos de São Francisco

Apenas 13 das 37 categorias de crimes têm um número suficiente de ocorrências para


análise de correlação. O coeficiente de correlação de Pearson é calculado entre todos os
pares destas 13 categorias; o total de casos de crime também é tratado como uma
categoria separada. Fica claro na Tabela 2 que cada categoria de crime está positivamente
correlacionada com todas as outras nos distritos. O coeficiente de correlação é alto
especialmente para certos pares: Lei de Roubo e Armas, Roubo e Invasão, Lei de Agressões
e Armas, Embriaguez e Delitos Sexuais (Forçosos). Por outro lado, as correlações entre
Drogas e Roubo de Veículos, Prostituição e Roubo, Prostituição e Drogas e Embriaguez e
Roubo, embora positivas, foram muito baixas.

Tabela 2. Coeficiente de correlação de Pearson entre taxas de criminalidade por categoria


nos distritos de São Francisco

https://onlinelibrary.wiley.com/doi/10.4218/etrij.2019-0306 7/37
22/09/2023, 16:32 A multi‐dimensional crime spatial pattern analysis and prediction model based on classification - Hajela - 2021 - ETRI Journal - Wiley …

Transgressão C 0,9224
C1 0,6636
C2 0,9379
C3 C4 C5 C6 C7 C8 C9
_ _ _ _ _ _ _ _ _
4

Roubo de 0,6139 0,3282 0,7189 0,7391


veículos C 5

Roubo C 6 0,8847 0,5848 0,973 0,9719 0,6931

Assalto C 7 0,8945 0,5946 0,9812 0,9667 0,6712 0,9932

Droga/narcótico 0,7301 0,453 0,8387 0,7664 0,3137 0,8492 0,8824

C8

Seqüestro C 9 0,8747 0,5844 0,9533 0,9478 0,7514 0,9816 0,9699 0,7931

Pessoa 0,7617 0,4984 0,8021 0,8258 0,8873 0,758 0,7717 0,5041 0,7453

desaparecida C

10

Ofensas sexuais 0,8281 0,5028 0,9411 0,9648 0,8603 0,9404 0,9319 0,6839 0,9299

(forçadas) C 11

Prostituição C 12 0,6506 0,3437 0,7885 0,8589 0,8788 0,8045 0,765 0,4278 0,8116

Incêndio 0,8395 0,6223 0,847 0,9054 0,8695 0,8577 0,8398 0,5021 0,9003

criminoso C 13

Embriaguez C 14 0,8376 0,5168 0,9436 0,9696 0,8215 0,9433 0,9384 0,7103 0,9148

3.3 Análise do padrão espacial do crime em São Francisco


Conforme discutido na Seção 1 , a análise de padrões espaciais pode ser feita em
diferentes resoluções. Este estudo tem como objetivo identificar o impacto da resolução
espacial na detecção de hotspots. A análise do padrão espacial é feita em três resoluções,
nomeadamente em nível de setor censitário, código postal e distrito. (Na Seção 3.5 , será
introduzida uma abordagem baseada em grade (a abordagem HotBlock), que opera em
ainda outra resolução espacial.) A melhor resolução da análise espacial é o nível do setor
censitário, conforme mostrado na Figura 3 .. Neste trabalho, realizamos análise de
densidade poligonal, um método estatístico baseado em vizinhança que fornece uma
densidade de eventos criminais dentro de cada polígono (célula raster). Uma célula raster
pode ser um setor censitário, uma área de CEP, um distrito ou até mesmo a área de
estudo completa. Os intervalos mostrados à esquerda de todos os mapas de padrões
espaciais representam a densidade do crime. Em todas as análises realizadas neste
trabalho, apenas crimes devidamente geocodificados foram incluídos no estudo e os
eventos criminais são geocodificados com taxa de acerto mais do que aceitável [ 16 ].

https://onlinelibrary.wiley.com/doi/10.4218/etrij.2019-0306 8/37
22/09/2023, 16:32 A multi‐dimensional crime spatial pattern analysis and prediction model based on classification - Hajela - 2021 - ETRI Journal - Wiley …

Figura 3

Abrir no visualizador de figuras Power Point


Análise espacial de densidade poligonal de eventos criminais em nível de setor censitário

Na secção anterior, as taxas de criminalidade por distrito foram calculadas e discutidas.


Embora as taxas de criminalidade levem em consideração a população do distrito, os
mapas de densidade poligonal consideram a área. Pode-se inferir a partir da análise
espacial no nível do setor censitário, no nível do código postal (Figura 4 ) e no nível distrital
(Figura 5 ) que as áreas identificadas como pontos críticos na análise em uma resolução
podem não ser identificadas em outra, por exemplo , quando uma pequena área com alta
taxa de criminalidade é cercada por uma grande área com uma taxa de criminalidade
muito baixa. É por isso que a seleção do nível de análise (resolução) é vital na análise de
padrões espaciais.

https://onlinelibrary.wiley.com/doi/10.4218/etrij.2019-0306 9/37
22/09/2023, 16:32 A multi‐dimensional crime spatial pattern analysis and prediction model based on classification - Hajela - 2021 - ETRI Journal - Wiley …

Figura 4

Abrir no visualizador de figuras Power Point


Análise espacial de densidade poligonal de eventos criminais em nível de código postal

Figura 5

Abrir no visualizador de figuras Power Point


Análise espacial de densidade poligonal de eventos criminais em nível distrital

Outro aspecto vital da análise espacial é investigar a correlação espacial entre padrões
espaciais. Para identificar unidades de hotspot em padrões espaciais, todas as unidades
espaciais devem ser comparadas entre si para determinar qual tem uma maior

https://onlinelibrary.wiley.com/doi/10.4218/etrij.2019-0306 10/37
22/09/2023, 16:32 A multi‐dimensional crime spatial pattern analysis and prediction model based on classification - Hajela - 2021 - ETRI Journal - Wiley …

concentração relativa de crime. A correlação espacial [ 17 ] visa identificar o número de


vizinhos em torno de um ponto dentro de uma distância especificada [ 18 ]. Essa distância
desempenha um papel vital na avaliação [ 19]: Se for tomada de forma inadequada, toda a
análise estará longe da realidade. Por esse motivo, antes de realizar a análise de hotspots
utilizando a conhecida abordagem Getis-Ord, a distância é identificada utilizando o modelo
de autocorrelação espacial incremental. A abordagem Getis-Ord identifica aglomerados
intensos de eventos criminais na área de estudo. A intensidade do agrupamento é
representada por escores Z , escores Z grandes correspondendo a agrupamentos mais
intensos de eventos criminais. Antes de aplicar a abordagem Getis-Ord, deve-se identificar
uma distância crítica, dentro da qual se pode dizer um ponto na vizinhança do centróide.
Os picos dos escores Z são encontrados em 2.080 m e 3.360 m, conforme mostrado na
Figura 6 ; estes são usados ​para identificar os pontos de acesso mostrados na Figura 7 .

Figura 6

Abrir no visualizador de figuras Power Point


Variação do Z -Score para autocorrelação espacial incremental

https://onlinelibrary.wiley.com/doi/10.4218/etrij.2019-0306 11/37
22/09/2023, 16:32 A multi‐dimensional crime spatial pattern analysis and prediction model based on classification - Hajela - 2021 - ETRI Journal - Wiley …

Figura 7

Abrir no visualizador de figuras Power Point


Análise Getis-Ord Hotspot de eventos criminais em São Francisco

3.4 Efeito temporal no padrão espacial do crime


Outro aspecto vital que deve ser mantido em mente durante a análise do hotspot é a
duração do tempo. Os pontos críticos de longo e curto prazo têm suas vantagens e
desvantagens [ 20 ].

Conforme discutido anteriormente na Seção 1 , pesquisas anteriores provaram que existe


um efeito temporal nos padrões espaciais do crime [ 21 ]. Para investigar isso, um
parâmetro temporal apropriado deve ser escolhido. Dividir os eventos criminais de acordo
com a época em que ocorrem é uma dessas abordagens. Embora isto possa ser eficaz em
regiões com diferenças pronunciadas entre as estações, não o utilizámos neste estudo:
São Francisco não sofre mudanças climáticas sazonais acentuadas, com a temperatura e a
precipitação variando apenas ligeiramente de estação para estação.

Outra abordagem investigativa analisa as mudanças no padrão espacial do dia da semana


para o fim de semana. Nos fins de semana, as rotinas das pessoas muitas vezes mudam
drasticamente e as pessoas que costumam ficar em casa tarde da noite podem ser
encontradas do lado de fora. De acordo com a teoria da actividade rotineira, esta mudança
na rotina pode ter um impacto nos padrões espaciais do crime, mas isto não é muito
acentuado em São Francisco e Nova Iorque. O efeito temporal nos padrões espaciais do
crime em São Francisco é mostrado na Figura 8A–8D . A Figura 8D , mostrando o crime no
fim de semana em São Francisco, apresenta uma mancha azul adicional na parte superior
direita do mapa, não vista no mapa dos dias da semana (Figura 8C); portanto, há alguma
mudança nos padrões espaciais. Curiosamente, esta mudança no fim de semana ocorre
principalmente à noite (22h00-5h00), como pode ser visto comparando as Figuras 8B e 8D .

https://onlinelibrary.wiley.com/doi/10.4218/etrij.2019-0306 12/37
22/09/2023, 16:32 A multi‐dimensional crime spatial pattern analysis and prediction model based on classification - Hajela - 2021 - ETRI Journal - Wiley …

Tendências semelhantes são visíveis nos mapas de Nova Iorque mostrados na Figura 9A–
9D . Todos os eventos criminais ocorridos entre 5h00 e 22h00 estão contidos nos mapas
de densidade diurnos, enquanto aqueles ocorridos entre 22h00 e 5h00 estão contidos nos
mapas de densidade noturnos. (Uma análise semelhante é feita em [ 22 ].) As luzes da rua
também podem desempenhar um papel em eventos criminais ao ar livre que ocorrem das
19h00 às 5h00. A influência da iluminação pública é investigada em [ 23 ] e [ 24 ], mas não é
considerada no presente trabalho.

Figura 8

Abrir no visualizador de figuras Power Point


Mapa de densidade de crimes de São Francisco: (A) Dia, (B) Noite, (C) Dia da semana e (D) Fim de semana

https://onlinelibrary.wiley.com/doi/10.4218/etrij.2019-0306 13/37
22/09/2023, 16:32 A multi‐dimensional crime spatial pattern analysis and prediction model based on classification - Hajela - 2021 - ETRI Journal - Wiley …

Figura 9

Abrir no visualizador de figuras Power Point


Mapa de densidade de crimes da cidade de Nova York: (A) Dia, (B) Noite, (C) Dia da semana e (D) Fim de semana

3.5 Modelo para previsão de crimes


Considere um conjunto de dados espaço-temporais D de eventos históricos de crimes
para uma determinada cidade/país, com conjunto de características e rótulos
de classe C representando categorias de crimes. O objetivo é conseguir uma previsão de
crimes mais precisa para cada categoria em C , minimizando erros de classificação e
indicando claramente a confiança de cada previsão. Em nosso modelo de previsão de
crime baseado em classificação, nos referimos ao conjunto de regiões (potencialmente
incluindo setores censitários, distritos ou, no caso da abordagem GridIntersect, blocos de
grade) na área em estudo como R e o intervalo de tempo ( o período de tempo durante o
qual todos os eventos criminais são coletados em uma instância na matriz criminal) como
T. Os conjuntos de dados criminais de São Francisco e Nova York são pré-processados ​para
terem os mesmos atributos: mês, dia, dia da semana, hora, minuto, região (distrito no caso
de São Francisco e BORO_NM (nome do bairro em que ocorreu o incidente) no caso de

https://onlinelibrary.wiley.com/doi/10.4218/etrij.2019-0306 14/37
22/09/2023, 16:32 A multi‐dimensional crime spatial pattern analysis and prediction model based on classification - Hajela - 2021 - ETRI Journal - Wiley …

Nova York), Categoria de Crime, X (latitude) e Y (longitude). Todas as instâncias em ambos


os conjuntos de dados são organizadas cronologicamente.

O modelo de previsão de crime proposto usando análise espaço-temporal consiste em


duas fases principais: identificação de locais de crime e previsão de crime.

3.5.1 FASE I: Identificação de focos de crime


Dado um conjunto de dados espaço-temporais D contendo a localização ( X , Y ), hora e
data de cada evento (e possivelmente outras características), procuramos identificar as
regiões do mapa de estudo onde a concentração de crime é maior. Para realizar esta
tarefa, é realizada uma análise bidimensional de hotspots. A abordagem baseada em grade
proposta, denominada abordagem HotBlock, consiste em dividir o mapa em quadrantes
de acordo com a grade que melhor se ajusta ao mapa. A grade utilizada neste estudo é
uma grade quadrada G nxn , conforme mostrado na Figura 10 .

Figura 10

Abrir no visualizador de figuras Power Point


Mapa de interseção de grade para São Francisco

No Algoritmo 1 , I é o conjunto de instâncias no conjunto de dados D. Cada instância


contém um conjunto de recursos F , incluindo latitude e longitude. Bloco é o conjunto de
blocos de grade identificados pela abordagem GridIntersect (descrita no próximo

https://onlinelibrary.wiley.com/doi/10.4218/etrij.2019-0306 15/37
22/09/2023, 16:32 A multi‐dimensional crime spatial pattern analysis and prediction model based on classification - Hajela - 2021 - ETRI Journal - Wiley …

parágrafo) e é a contagem do número de incidências de crimes da categoria C j


que pertencem ao bloco de grade . Contagem é o conjunto de todas as contagens
para todos os blocos de grade e categorias de crime.

Algoritmo 1. Algoritmo BlockInstanceCount

A abordagem GridIntersect primeiro simplesmente ajusta uma grade na área em estudo. As


coordenadas extremas, ou seja, os valores máximos de X e Y na área de estudo, são
calculadas e um polígono é formado. Este polígono pode ser dividido em blocos de grade
de acordo com um número predefinido de linhas e colunas ou com base em um tamanho
de bloco fornecido na formação da grade. Neste trabalho é utilizada uma grade quadrada,
com blocos de grade de tamanhos variáveis. O objetivo do Algoritmo 1 é calcular o número
de ocorrências de uma determinada categoria de crime que pertencem a cada bloco da
grade. No entanto, a abordagem GridIntersect nem sempre produzirá blocos de grade do
mesmo tamanho, como fica claro na Figura 10 .. Alguns blocos de grelha que estão
próximos do limite da área de estudo podem ter menos área do que aqueles que estão
completamente dentro da área de estudo.

Algoritmo 2. Estimativa de AvgCount (o número médio de ocorrências de crimes


por bloco por categoria) para o algoritmo HotBlock

https://onlinelibrary.wiley.com/doi/10.4218/etrij.2019-0306 16/37
22/09/2023, 16:32 A multi‐dimensional crime spatial pattern analysis and prediction model based on classification - Hajela - 2021 - ETRI Journal - Wiley …

O Algoritmo 2 encontra o número médio de instâncias que pertencem a cada


bloco da grade para uma determinada categoria de crime C j . Este algoritmo é usado para
descobrir um limite local para a existência de uma categoria específica de crime C j ao
longo de um determinado intervalo de tempo T na região/bloco de grade Bloco b . Assim,
haverá um limite local separado para cada categoria de crime. Em vez de considerar o
valor médio exato como o limite, alguma fração dele é considerada. Esta fração é regida
pela margem variável. Neste trabalho, após realizar diversos experimentos, atribuímos à
margem o valor 0,9. Um atributo adicional no conjunto de dados fornece informações
sobre se um bloco de grade é um HotBlock, ou seja, se contém um número excepcional de
eventos criminais em todas as categorias. HotCount, o limite para declarar um bloco de
grade como HotBlock, é calculado no Algoritmo 3 . O Algoritmo 4 é utilizado para
identificação real dos HotBlocks na área de estudo. Neste algoritmo, a variável Threshold é
simplesmente a razão entre HotCount e Max(Area).

P ( C j ), a probabilidade de ocorrência de uma determinada categoria C j de crime, é dada


por,

(1)

onde | eu | é o número de instâncias em todas as categorias. , a expectativa do bloco


Bloco b , é dada por,

(2)

Então,

https://onlinelibrary.wiley.com/doi/10.4218/etrij.2019-0306 17/37
22/09/2023, 16:32 A multi‐dimensional crime spatial pattern analysis and prediction model based on classification - Hajela - 2021 - ETRI Journal - Wiley …

(3)

(4)

De forma similar,

(5)

Então, o desvio padrão, a variância e o HotCount são como no Algoritmo 3 .

Algoritmo 3. Algoritmo para estimativa de HotCount, o limite para declarar um


bloco como HotBlock

Algoritmo 4. Algoritmo de identificação HotBlock

3.5.2 FASE II: Abordagem de previsão do crime

https://onlinelibrary.wiley.com/doi/10.4218/etrij.2019-0306 18/37
22/09/2023, 16:32 A multi‐dimensional crime spatial pattern analysis and prediction model based on classification - Hajela - 2021 - ETRI Journal - Wiley …

Na fase final do modelo proposto, um conjunto de dados de treinamento é preparado a


partir dos resultados da fase I e utilizado para fornecer previsões de crimes. Neste
trabalho, o modelo de previsão de crimes utiliza classificadores de última geração como
aprendizes básicos. Abordagens de classificação foram usadas anteriormente para prever
crimes em um local específico [ 25 ]. Aqui, os modelos propostos são baseados em
classificação binária e multiclasse com base no tipo de avaliação. Por exemplo, as Tabelas 3
a 9 contêm resultados para modelos baseados na classificação multiclasse, enquanto na
Tabela 10modelos de classificação binária para as categorias mencionadas são treinados e
testados. O restante dos resultados são para modelos de classificação multiclasse. Várias
técnicas de previsão de crimes de última geração – Naive Bayes, Decision Tree (REPTree) e
abordagens de aprendizagem em conjunto, como ensacamento, votação e empilhamento
– são testadas, com e sem análise de pontos críticos.

Tabela 3. Precisão das abordagens de classificação do conjunto de dados de São Francisco


com vários tamanhos de grade

Abordagem 3×3 4×4 5×5 6×6

Observação 79.06 74,57 75,71 67,79

NB-k 72.09 76,27 77,14 62,71

REPTree 72.09 69,49 65,71 59,32

Ensacamento (NB) 76,74 74,57 72,85 64,40

Ensacamento (NB-k) 72.09 77,96 77,14 62,71

Ensacamento (REPTree) 76,74 79,66 72,85 54,23

Votação (NB) 79.06 74,57 75,71 67,79

Votação (NB-k) 72.09 76,27 77,14 62,71

Votação (NB + REPTree) 76,74 71,18 70,00 62,71

Votação (REPTree) 72.09 69,49 65,71 59,32

Empilhamento (NB) 79.06 76,27 75,71 50,84

Empilhamento (REPTree) 60,46 69,49 65,71 62,71

Empilhamento (NB + REPTree, meta = NB) 81,39 67,79 68,57 47,45

Empilhamento (NB + REPTree, meta = REPTree) 69,76 71,18 67,14 62,71

https://onlinelibrary.wiley.com/doi/10.4218/etrij.2019-0306 19/37
22/09/2023, 16:32 A multi‐dimensional crime spatial pattern analysis and prediction model based on classification - Hajela - 2021 - ETRI Journal - Wiley …

Os valores em negrito nas tabelas representam o melhor valor da métrica de desempenho para o classificador

correspondente.

Tabela 4. Precisão das abordagens de classificação do conjunto de dados da cidade de


Nova York com vários tamanhos de grade

Abordagem 3×3 4×4 5×5 6×6

Observação 81,25 70,49 65,55 62,29

NB-k 78,12 67,21 62,22 61,47

REPTree 62,50 67,21 62,22 63,93

Ensacamento (NB) 81,25 70,49 67,77 60,65

Ensacamento (NB-k) 75,00 67,21 63,33 61,47

Ensacamento (REPTree) 75,00 59.01 57,77 59,83

Votação (NB) 81,25 70,49 65,55 62,29

Votação (NB-k) 78,12 67,21 62,22 61,47

Votação (NB + REPTree) 68,75 70,49 62,22 62,29

Votação (REPTree) 62,50 67,21 62,22 63,93

Empilhamento (NB) 81,25 70,49 64,44 61,47

Empilhamento (REPTree) 53.12 45,90 62,22 54,91

Empilhamento (NB + REPTree, meta = NB) 71,87 59.01 62,22 65,57

Empilhamento (NB + REPTree, meta = REPTree) 78,12 59.01 60,00 59.01

Os valores em negrito nas tabelas representam o melhor valor da métrica de desempenho para o classificador

correspondente.

Tabela 5. Métricas de avaliação para abordagens de classificação no conjunto de dados de


São Francisco sem análise de hotspot

https://onlinelibrary.wiley.com/doi/10.4218/etrij.2019-0306 20/37
22/09/2023, 16:32 A multi‐dimensional crime spatial pattern analysis and prediction model based on classification - Hajela - 2021 - ETRI Journal - Wiley …

S. Abordagem Precisão Taxa Taxa de Precisão ROC RPC


Não. TP PF

1. Observação 48,90 0,489 0,348 0,374 0,672 0,417

2. NB-k 51,70 0,517 0,332 0,418 0,722 0,463

3. REPTree 51,84 0,518 0,343 0,432 0,687 0,433

4. Ensacamento (NB) 48,86 0,489 0,346 0,374 0,672 0,417

5. Ensacamento (NB-k) 51,66 0,517 0,331 0,420 0,722 0,463

6. Ensacamento (REPTree) 54,56 0,546 0,322 0,476 0,731 0,496

7. Votação (NB) 48,90 0,489 0,348 0,374 0,672 0,417

8. Votação (NB-k) 51,70 0,517 0,332 0,418 0,722 0,463

9. Votação (NB + REPTree) 51,77 0,518 0,342 0,440 0,706 0,451

10. Votação (REPTree) 51,84 0,518 0,343 0,432 0,687 0,433

11. Empilhamento (NB) 44,51 0,445 0,281 0,393 0,657 0,408

12. Empilhamento (REPTree) 50,90 0,509 0,389 0,410 0,666 0,422

13. Empilhamento (NB + REPTree, 45,53 0,455 0,242 0,439 0,684 0,436
meta = NB)

14. Empilhamento (NB + REPTree, 50,90 0,509 0,362 0,414 0,666 0,415

Tabela 6. Métricas de avaliação para abordagens de classificação no conjunto de dados de


São Francisco com análise de hotspot para tamanho de grade ideal

Abordagem Precisão Taxa Taxa de Precisão ROC RPC


TP PF

Observação 79.06 0,791 0,259 0,790 0,842 0,848

NB-k 72.09 0,721 0,345 0,717 0,862 0,866

REPTree 72.09 0,721 0,264 0,739 0,745 0,724

Ensacamento (NB) 76,74 0,767 0,295 0,768 0,814 0,824

Ensacamento (NB-k) 72.09 0,721 0,345 0,717 0,851 0,854

Ensacamento (REPTree) 76,74 0,767 0,213 0,786 0,835 0,851

https://onlinelibrary.wiley.com/doi/10.4218/etrij.2019-0306 21/37
22/09/2023, 16:32 A multi‐dimensional crime spatial pattern analysis and prediction model based on classification - Hajela - 2021 - ETRI Journal - Wiley …

Abordagem Precisão Taxa Taxa de Precisão ROC RPC


TP PF

Votação (NB) 79.06 0,791 0,259 0,790 0,842 0,848

Votação (NB-k) 72.09 0,721 0,345 0,717 0,862 0,866

Votação (NB + REPTree) 76,74 0,767 0,274 0,765 0,835 0,844

Votação (REPTree) 72.09 0,721 0,264 0,739 0,745 0,723

Empilhamento (NB) 79.06 0,791 0,279 0,798 0,844 0,782

Empilhamento (REPTree) 60,46 0,605 0,405 0,466 0,500 0,522

Tabela 7. Métricas de avaliação para abordagens de classificação no conjunto de dados da


cidade de Nova York sem análise de hotspot

S. Abordagem Precisão Taxa Taxa de Precisão ROC RPC


Não.
1. Observação 45,15 TP
0,452 PF0,354 0,388 0,647 0,424

2. Nota -k 47,46 0,475 0,301 0,430 0,692 0,469

3. REPTree 47,34 0,473 0,284 0,429 0,675 0,448

4. Ensacamento (NB) 45,18 0,452 0,354 0,387 0,647 0,425

5. Ensacamento (NB -k) 47,49 0,475 0,301 0,430 0,693 0,469

6. Ensacamento (REPTree) 48h30 0,483 0,275 0,444 0,702 0,484

7. Votação (NB) 45,15 0,452 0,354 0,388 0,647 0,424

8. Votação (NB -k) 47,46 0,475 0,301 0,430 0,692 0,469

9. Votação (NB + REPTree) 47,31 0,473 0,312 0,420 0,687 0,463

10. Votação (REPTree) 47,34 0,473 0,284 0,429 0,675 0,448

11. Empilhamento (NB) 44,61 0,446 0,310 0,342 0,646 0,424

12. Empilhamento (REPTree) 45,88 0,459 0,316 0,396 0,661 0,433

13. Empilhamento (NB + REPTree, 46,39 0,464 0,260 0,434 0,683 0,460
meta = NB)

14. Empilhamento (NB + REPTree, 45,29 0,453 0,308 0,396 0,646 0,420

meta = REPTree)

https://onlinelibrary.wiley.com/doi/10.4218/etrij.2019-0306 22/37
22/09/2023, 16:32 A multi‐dimensional crime spatial pattern analysis and prediction model based on classification - Hajela - 2021 - ETRI Journal - Wiley …

Tabela 8. Métricas de avaliação para abordagens de classificação no conjunto de dados da


cidade de Nova York usando análise de hotspot

S. Abordagem Precisão Taxa Taxa de Precisão ROC RPC


Não.
1. Observação 81,25 TP
0,813 PF0,225 0,813 0,850 0,880

2. NB-k 78,12 0,781 0,271 0,784 0,858 0,878

3. REPTree 62,50 0,625 0,402 0,625 0,591 0,615

4. Ensacamento (NB) 81,25 0,813 0,225 0,813 0,838 0,872

5. Ensacamento (NB-k) 75,00 0,750 0,293 0,748 0,866 0,886

6. Ensacamento (REPTree) 75,00 0,750 0,268 0,750 0,723 0,717

7. Votação (NB) 81,25 0,813 0,225 0,813 0,850 0,880

8. Votação (NB-k) 78,12 0,781 0,271 0,784 0,858 0,878

9. Votação (NB + REPTree) 68,75 0,688 0,360 0,683 0,725 0,750

10. Votação (REPTree) 62,50 0,625 0,402 0,625 0,591 0,615

11. Empilhamento (NB) 81,25 0,813 0,225 0,813 0,850 0,880

12. Empilhamento (REPTree) 53.12 0,531 0,637 0,336 0,557 0,569

13. Empilhamento (NB + REPTree, 71,87 0,719 0,290 0,723 0,810 0,827
meta = NB)

14. Empilhamento (NB + REPTree, 78,12 0,781 0,271 0,784 0,779 0,773
meta = REPTree)

Tabela 9. Resultados de previsão de criminalidade para o conjunto de dados da cidade de


Nova Iorque em diferentes categorias em termos de Macro-F1 e Micro-F1

Mês Agosto Setembro Outubro novembro dezembr

Algoritmo Macro- Micro- Macro- Micro- Macro- Micro- Macro- Micro- Macro-
F1 F1 F1 F1 F1 F1 F1 F1 F1

Observação 0,654 0,664 0,666 0,674 0,695 0,702 0,708 0,715 0,701

Nota -k 0,655 0,661 0,671 0,677 0,688 0,693 0,707 0,712 0,694

REPTree 0,633 0,653 0,655 0,665 0,613 0,646 0,626 0,666 0,587

https://onlinelibrary.wiley.com/doi/10.4218/etrij.2019-0306 23/37
22/09/2023, 16:32 A multi‐dimensional crime spatial pattern analysis and prediction model based on classification - Hajela - 2021 - ETRI Journal - Wiley …

Mês Agosto Setembro Outubro novembro dezembr

Algoritmo Macro- Micro- Macro- Micro- Macro- Micro- Macro- Micro- Macro-
F1 F1 F1 F1 F1 F1 F1 F1 F1

Ensacamento 0,656 0,664 0,647 0,664 0,691 0,700 0,707 0,715 0,702
(NB)

Ensacamento 0,652 0,658 0,668 0,678 0,688 0,693 0,704 0,708 0,697
(NB -k)

Ensacamento 0,643 0,655 0,628 0,644 0,621 0,644 0,629 0,646 0,646
(REPTree)

Votação (NB + 0,653 0,665 0,658 0,672 0,652 0,669 0,635 0,666 0,616

REPTree)

Os valores em negrito nas tabelas representam o melhor valor da métrica de desempenho para o classificador

correspondente.

Tabela 10. Resultados de previsão de crime para categorias individuais de crime no


conjunto de dados da cidade de Nova York em termos de pontuação F1

Algoritmo Roubo Roubo

Agosto Setembro Outubro novembro dezembro Agosto Setembro Ou

Observação 0,668 0,657 0,615 0,675 0,711 0,598 0,605 0

Nota -k 0,684 0,670 0,637 0,697 0,686 0,640 0,672 0

REPTree 0,668 0,626 0,606 0,519 0,729 0,656 0,574 0

Ensacamento 0,668 0,650 0,606 0,675 0,711 0,621 0,594 0


(NB)

Ensacamento 0,698 0,662 0,637 0,682 0,686 0,640 0,696 0


(NB -k)

Ensacamento 0,637 0,643 0,622 0,606 0,686 0,641 0,722 0


(REPTree)

Votação (NB + 0,668 0,657 0,606 0,625 0,729 0,678 0,588 0

REPTree)

https://onlinelibrary.wiley.com/doi/10.4218/etrij.2019-0306 24/37
22/09/2023, 16:32 A multi‐dimensional crime spatial pattern analysis and prediction model based on classification - Hajela - 2021 - ETRI Journal - Wiley …

Algoritmo Roubo Roubo

Agosto Setembro Outubro novembro dezembro Agosto Setembro Ou

Algoritmo Agressão criminosa Grande Furto

Agosto Setembro Outubro novembro dezembro Agosto Setembro Ou

Observação 0,646 0,600 0,572 0,577 0,566 0,844 0,833 0

NB-k 0,692 0,656 0,675 0,687 0,596 0,852 0,849 0

REPTree 0,603 0,644 0,620 0,548 0,566 0,741 0,761 0

Ensacamento 0,654 0,605 0,585 0,577 0,563 0,833 0,843 0


(NB)

Ensacamento 0,648 0,643 0,632 0,642 0,555 0,846 0,849 0

(NB-k)

Ensacamento 0,638 0,643 0,608 0,592 0,688 0,767 0,805 0

(REPTree)

Votação (NB + 0,616 0,644 0,652 0,582 0,566 0,741 0,761 0


REPTree)

Empilhamento 0,635 0,628 0,615 0,550 0,528 0,862 0,852 0


(NB)

Empilhamento 0,551 0,603 0,616 0,548 0,646 0,741 0,761 0

(REPTree)

Empilhamento 0,628 0,604 0,675 0,598 0,528 0,847 0,849 0

Os valores em negrito nas tabelas representam o melhor valor da métrica de desempenho para o classificador

correspondente.

4. RESULTADOS E DISCUSSÃO
4.1 Parâmetros de desempenho
4.1.1 Métricas de avaliação padrão
Neste trabalho, métricas padrão são utilizadas para avaliar o modelo proposto: precisão,
taxa de verdadeiros positivos ( taxa TP ), taxa de falsos positivos ( taxa FP ), precisão,

https://onlinelibrary.wiley.com/doi/10.4218/etrij.2019-0306 25/37
22/09/2023, 16:32 A multi‐dimensional crime spatial pattern analysis and prediction model based on classification - Hajela - 2021 - ETRI Journal - Wiley …

característica de operação do receptor (ROC), curva de recuperação de precisão (PRC) e


pontuação F1.

Para previsões melhores e mais confiáveis, um modelo deve ter alta precisão, alta taxa de TP,
FP , alta precisão e uma alta pontuação F1. A curva ROC é um gráfico da taxa TP
baixa taxa de
em função da taxa FP . Neste trabalho, a área sob esta curva é chamada de valor ROC; um
valor ROC grande indica que o modelo é capaz de distinguir entre classes. O PRC mostra a
compensação entre precisão e recall para diferentes limites; uma grande área sob esta
curva indica alta recuperação e alta precisão, onde alta precisão está relacionada a uma
baixa taxa de falsos positivos, e alta recuperação está relacionada a uma baixa taxa de
falsos negativos.

4.1.2 Pontuação de confiança


A pontuação de confiança é um indicador da força das previsões feitas pelo modelo. Esta
pontuação é derivada da fase de identificação do hotspot. Se uma instância de teste estiver
localizada na região do hotspot, a pontuação de confiança será alta; caso contrário, será
baixo. É calculado da seguinte forma:

Aqui está o número de ocorrências criminais da categoria C j que pertencem ao


bloco Bloco b e é obtido a partir do Algoritmo 2 . A pontuação de confiança será positiva
para todos os blocos da grade que apresentam mais eventos criminais do que o HotCount
e negativa para o restante. Quando CS < 0, um valor absoluto grande indica que o bloco da
grade tem poucos eventos criminais.

4.2 Previsão de crimes usando técnicas de última geração


A última fase do modelo de previsão do crime é a previsão utilizando técnicas de última
geração. Nesta fase, cada classificador é treinado com 60% dos dados e o restante é
utilizado para teste. O conjunto de dados fornecido como entrada é obtido na fase I. As
previsões são feitas com e sem análise de hotspot. Verifica-se que há uma melhoria
considerável na precisão quando a análise de pontos críticos é utilizada. Após a fase de
testes, é calculada uma pontuação de confiança para cada uma das instâncias utilizando a
fórmula definida na Seção 4 . Claramente, se a localização prevista for um hotspot, a
confiança na previsão será maior.

O presente modelo é inteiramente baseado na abordagem HotBlock. Conforme discutido


nas secções anteriores, existem muitas abordagens para encontrar padrões espaciais
densos de criminalidade numa área de estudo. O nível de resolução da análise espacial
desempenha um papel muito importante na identificação destes padrões densos, porque,
numa resolução mais fina, uma unidade espacial pode ser identificada como um hotspot,

https://onlinelibrary.wiley.com/doi/10.4218/etrij.2019-0306 26/37
22/09/2023, 16:32 A multi‐dimensional crime spatial pattern analysis and prediction model based on classification - Hajela - 2021 - ETRI Journal - Wiley …

mas, numa resolução mais grosseira, a área que a contém pode não o ser. A variação nos
hotspots com resolução espacial é ilustrada pela comparação dos resultados em nível de
CEP (Figura 5 ) com os de nível distrital (Figura 6). Por esta razão, a abordagem HotBlock
de dividir o mapa em blocos de tamanhos iguais (exceto aqueles que ficam ao redor dos
limites) foi selecionada. O tamanho da grade é variado para encontrar um tamanho ideal
que produza os melhores resultados de classificação. Finalmente, esta grade de tamanho
ideal é sobreposta à área de estudo usando GridIntersect, conforme discutido na seção
anterior. HotBlocks são identificados usando o Algoritmo 4 . Fica claro nas Tabelas 3 e 4
que o tamanho da grade 3 × 3 produz os melhores resultados de classificação para ambos
os conjuntos de dados. As previsões do modelo com e sem análise de hotspot utilizando a
grade ótima foram comparadas; o modelo produz melhor desempenho com a abordagem
HotBlock do que apenas com abordagens de última geração.

Os resultados obtidos para São Francisco sem realizar análise de hotspot são mostrados
na Tabela 5 . O conjunto de dados foi pré-processado simplesmente empregando os
Algoritmos 1 e 2 e usado para treinar e testar o modelo de previsão de crime com
diferentes abordagens de base que podem incluir um único classificador de base ou um
conjunto de classificadores. Para avaliar o desempenho, 60% dos dados são considerados
conjunto de treinamento e o restante é usado para testar o modelo. A precisão varia de
44,51 (classificador base: Stacking com Naive Bayes) a 54,56 (classificador base: Bagging
com REPTree).

O desempenho também foi avaliado utilizando todos os parâmetros para o tamanho de


grade ideal para o mapa de São Francisco, conforme discutido anteriormente nesta seção.
Pode-se observar na Tabela 6 que há uma melhoria considerável em termos de precisão e
outros parâmetros de desempenho. O melhor desempenho é observado com Stacking
com Naive Bayes e REPTree como classificadores base e Naive Bayes como
metaclassificador.

Uma abordagem semelhante foi testada para o conjunto de dados de Nova Iorque. A
Tabela 7 contém os resultados do modelo de previsão de criminalidade sem utilizar a
análise de hotspots. A precisão máxima é alcançada pelo modelo Bagging com Naive Bayes
(usando um estimador de kernel) como classificador base. No entanto, quando os mesmos
modelos são aplicados ao conjunto de dados pré-processado usando análise de hotspot e
experimentos de tamanho de grade ideal, há uma melhoria considerável na precisão.
Pode-se observar na Tabela 8 que, incluindo a análise de hotspots, a precisão máxima
alcançada aumenta para 81,25%.

O modelo de previsão de crime proposto baseado na análise de hotspots é comparado


com o modelo DeepCrime para o conjunto de dados de Nova Iorque. Para facilitar a
comparação, são usados ​os mesmos parâmetros de desempenho e divisão do conjunto de
dados. O conjunto de dados de treinamento contém eventos criminais até o k mês; o
modelo tenta prever os eventos criminais do ( k + 1)-ésimo mês.

https://onlinelibrary.wiley.com/doi/10.4218/etrij.2019-0306 27/37
22/09/2023, 16:32 A multi‐dimensional crime spatial pattern analysis and prediction model based on classification - Hajela - 2021 - ETRI Journal - Wiley …

O conjunto de dados criminais de Nova York é pré-processado para que cada categoria
possa ser tratada separadamente. O modelo proposto para todos os classificadores de
última geração é comparado com a linha de base (DeepCrime). Uma pontuação F1 é
registrada para todos os experimentos realizados para as categorias individuais de crime.
Cada modelo é testado para conjuntos de dados mensais de agosto a dezembro. Pode-se
observar nas Tabelas 9 e 10 que o modelo proposto supera o modelo de referência na
maioria dos casos.

4.3 Análise de sensibilidade dos parâmetros


O modelo de previsão de crime proposto envolve dois parâmetros importantes: GridSize (o
tamanho da grade) e # T (o intervalo de tempo, ou seja, o número de intervalos de tempo
[em dias]). O desempenho do modelo proposto é avaliado variando cada um desses
parâmetros mantendo os demais fixos. É importante analisar a robustez do modelo sobre
estes parâmetros. Todos os gráficos na seção de análise de sensibilidade de parâmetros a
seguir representam experimentos realizados variando um parâmetro (espacial ou
temporal) enquanto mantém o outro fixo. Assim, a sensibilidade das previsões do modelo
à resolução temporal e espacial é estudada nesta seção.

A Figura 11 mostra a variação da precisão com o número de intervalos de tempo para


todas as quatro categorias em estudo para o conjunto de dados de Nova Iorque para
agosto; A Figura 12 mostra a variação com o tamanho da grade. Observe que o valor da
precisão é a média de todas as precisões para as categorias de crime correspondentes.
Pode ser visto nas Figuras 11 e 12que a precisão é consideravelmente melhor com um
menor número de passos de tempo e menos blocos na grade (ou seja, menor resolução
espacial). A razão por detrás destes resultados é que é relativamente fácil prever eventos
criminais numa grande região num futuro próximo, mas tentar prevê-los com uma semana
de antecedência obviamente diminui a precisão. Da mesma forma, é um desafio prever
eventos criminais numa região muito pequena (um bloco que ocupa apenas uma pequena
fração da rede).

https://onlinelibrary.wiley.com/doi/10.4218/etrij.2019-0306 28/37
22/09/2023, 16:32 A multi‐dimensional crime spatial pattern analysis and prediction model based on classification - Hajela - 2021 - ETRI Journal - Wiley …

Figura 11

Abrir no visualizador de figuras Power Point


Análise de sensibilidade de parâmetros temporais em termos de precisão para o conjunto de dados de agosto da

cidade de Nova York

https://onlinelibrary.wiley.com/doi/10.4218/etrij.2019-0306 29/37
22/09/2023, 16:32 A multi‐dimensional crime spatial pattern analysis and prediction model based on classification - Hajela - 2021 - ETRI Journal - Wiley …

Figura 12

Abrir no visualizador de figuras Power Point


Análise de sensibilidade de parâmetros espaciais em termos de precisão para o conjunto de dados de agosto da cidade

de Nova York

As Figuras 13 e 14 mostram os resultados de experimentos realizados com dados de São


Francisco. A tendência discutida em relação ao conjunto de dados de Nova Iorque também
é observada no conjunto de dados de São Francisco.

Figura 13

Abrir no visualizador de figuras Power Point


Análise de sensibilidade de parâmetros espaciais em termos de precisão para o conjunto de dados de agosto de São

Francisco

https://onlinelibrary.wiley.com/doi/10.4218/etrij.2019-0306 30/37
22/09/2023, 16:32 A multi‐dimensional crime spatial pattern analysis and prediction model based on classification - Hajela - 2021 - ETRI Journal - Wiley …

Figura 14

Abrir no visualizador de figuras Power Point


Análise de sensibilidade de parâmetros temporais em termos de precisão para o conjunto de dados de agosto de São

Francisco

4.4 Análise da complexidade espaçotemporal


Conforme discutido neste trabalho, o conjunto de dados inicial D contém um conjunto I de
instâncias e um conjunto F de atributos. A abordagem HotBlock realiza análise espaço-
temporal em D e o transforma em um novo conjunto de dados D ′. Nesta transformação, o
conjunto completo de instâncias I deve ser percorrido exatamente uma vez. Cada instância
é um evento criminal. O conjunto de dados D ′ é na verdade uma matriz tridimensional I ′ ×
C × R . Aqui, eu′ é o conjunto reduzido de instâncias dependendo do intervalo de tempo:
por exemplo, se o intervalo de tempo for um dia e o tempo de estudo for um ano, haverá
365 instâncias em I ′. Assim, uma determinada célula da matriz tridimensional D ′ contém o
número de eventos criminais de uma determinada categoria que aconteceram em um
determinado bloco em um determinado período de tempo. A agregação dos eventos
criminais pode ser feita em D ′ dependendo do tipo de análise necessária. Por exemplo, se
for previsto o número de eventos criminais de um determinado tipo que podem acontecer
num determinado intervalo de tempo para toda a área de estudo, então os eventos
criminais dessa categoria em todas as regiões serão agregados.

https://onlinelibrary.wiley.com/doi/10.4218/etrij.2019-0306 31/37
22/09/2023, 16:32 A multi‐dimensional crime spatial pattern analysis and prediction model based on classification - Hajela - 2021 - ETRI Journal - Wiley …

5. CONCLUSÕES
Neste trabalho, é proposta uma nova abordagem baseada em classificação para a previsão
do crime. Nosso modelo, HotBlock, utiliza modelos de classificação de última geração, mas
também inclui algumas abordagens de aprendizagem em conjunto. O modelo HotBlock
realiza análises espaço-temporais do conjunto de dados antes de fornecer previsões de
crimes. Assim, toda a dinâmica do crime no cenário do mundo real é levada em conta pelo
modelo proposto. Neste trabalho, também buscamos correlações entre taxas de
criminalidade em diferentes categorias de crimes e estudamos o impacto da resolução
espaço-temporal na análise de focos de criminalidade. Além disso, o desempenho do
modelo proposto é testado quanto à sensibilidade à variação dos parâmetros espaço-
temporais. É considerado robusto e qualquer variação no desempenho do modelo pode
ser explicada adequadamente.

CONFLITO DE INTERESSES
Os autores declaram não haver conflito potencial de interesses.

Biografias

Gaurav Hajela recebeu seu diploma de Bacharel em Engenharia em Tecnologia da


Informação por Rajiv Gandhi Proudyogiki Vishwavidyalaya, Bhopal, Índia em 2012, e seu
diploma MTech em Ciência da Computação e Engenharia do Instituto Nacional de
Tecnologia Maulana Azad (MANIT), Bhopal, Índia em 2014. Desde Em 2015, ele trabalhou no
Departamento de Ciência da Computação e Engenharia, MANIT, Bhopal, Índia, onde está
cursando seu doutorado. Seus principais interesses de pesquisa são análise de Big Data,
aprendizado de máquina e previsão de séries temporais.

https://onlinelibrary.wiley.com/doi/10.4218/etrij.2019-0306 32/37
22/09/2023, 16:32 A multi‐dimensional crime spatial pattern analysis and prediction model based on classification - Hajela - 2021 - ETRI Journal - Wiley …

Meenu Chawla recebeu seu diploma de Bacharel em Engenharia em Tecnologia da


Computação pela MANIT, Bhopal, Índia em 1990, e seu diploma de MTech em Ciência da
Computação e Engenharia pelo Instituto Indiano de Tecnologia, Kanpur, Índia em 1995. Ela
recebeu seu PhD na área de Mobile e Ad Hoc Networks (Ciência da Computação) da MANIT
em 2012. Ela tem mais de 25 anos de experiência em ensino e pesquisa. Atualmente é
professora no Departamento de Ciência da Computação e Engenharia da MANIT, Bhopal,
Índia. Ela publicou mais de 50 artigos de pesquisa em importantes periódicos e
conferências técnicas. Seus interesses de pesquisa e ensino incluem estrutura de dados e
algoritmos, comunicação sem fio e computação móvel, redes móveis ad hoc e de sensores,
redes de rádio cognitivas e Big Data.

Akhtar Rasool received his Bachelor of Engineering degree in Computer Science from Rajiv
Gandhi Proudyogiki Vishwavidyalaya, Bhopal, India in 2003, and his MTech degree in
Computer Science and Engineering from MANIT, Bhopal, India in 2007. He received his PhD
in Computer Science and Engineering from MANIT in 2014 and is presently an Assistant
Professor there. He has published more than 35 research papers in international/national
journals and conferences. His research areas include string-matching algorithms, parallel
computing, artificial intelligence, data science, Big Data analysis, software engineering,
analysis and design of algorithms, cluster and grid computing, and quantum computing.

REFERENCES 

1 W. Bernasco and C. Vandeviver, The geography of crime and crime control, Appl. Geogr. 86
(2017), 220–225.

2 X. Hu et al., Impact of climate variability and change on crime rates in Tangshan, China, Sci.
Total Environ. 609 (2017), 1041–1048.

3 D. J. Lemon and R. Partridge, Is weather related to the number of assaults seen at emergency
departments?, Injury 48 (2017), 2438–2442.

https://onlinelibrary.wiley.com/doi/10.4218/etrij.2019-0306 33/37
22/09/2023, 16:32 A multi‐dimensional crime spatial pattern analysis and prediction model based on classification - Hajela - 2021 - ETRI Journal - Wiley …

4 X. Zhao and J. Tang, Crime in urban areas: A data mining perspective, available at CoRR
http://arxiv.org/abs/1804.08159, preprint, 2018.

5 M. R. D'Orsogna and M. Perc, Statistical physics of crime: A review, Phys. Life Rev. 12 (2015), 1–
21.

6 M. A. Andresen, Crime measures and the spatial analysis of criminal activity, Br. J. Criminol. 46
(2005), 258–285.

7 M. A. Andresen, Estimating the probability of local crime clusters: The impact of immediate
spatial neighbors, J. Crim. Justice 39 (2011), 394–404.

8 L. Anselin, Local Indicators of Spatial Association—LISA, Geogr. Anal. 27 (1995), 93–115.

9 C. Cowen, E. Louderback, and S. Roy, The role of land use and walkability in predicting crime
patterns: A spatiotemporal analysis of Miami-Dade County neighborhoods, 2007–2015, Secur. J.
32 (2019), 264–286.

10 D. Vildosola et al., Crime in an affluent city: Applications of risk terrain modeling for
residential and vehicle burglary in Coral Gables, Florida, 2004–2016, Appl. Spat. Anal. Policy 13
(2019), 441–459.

11 C. Huang et al., Deep-Crime: Attentive hierarchical recurrent networks for crime prediction,
in Proc. ACM Int. Conf. Inf. Knowledge Manag. (Torino, Italiy), Oct. 2018, pp. 1423–1432.

12 M. S. Gerber, Predicting crime using Twitter and kernel density estimation, Decis. Support
Syst. 61 (2014), 115–125.

https://onlinelibrary.wiley.com/doi/10.4218/etrij.2019-0306 34/37
22/09/2023, 16:32 A multi‐dimensional crime spatial pattern analysis and prediction model based on classification - Hajela - 2021 - ETRI Journal - Wiley …

13 L. Vomfell, W. K. Härdle, and S. Lessmann, Improving crime count forecasts using Twitter and
taxi data, Decis. Support Syst. 113 (2018), 73–85.

14 M. L. Williams, P. Burnap, and L. Sloan, Crime sensing with Big Data: The affordances and
limitations of using open-source communications to estimate crime patterns, Br. J. Criminol. 57
(2016), 320–340.

15 L. G. A. Alves, H. V. Ribeiro, and F. A. Rodrigues, Crime prediction through urban metrics and
statistical learning, Phys. A 505 (2018), 435–443.

16 J. H. Ratcliffe, Geocoding crime and a first estimate of a minimum acceptable hit rate, Int. J.
Geogr. Inf. Sci. 18 (2004), 61–72.

17 J. K. Ord and A. Getis, Local spatial autocorrelation statistics: Distributional issues and an
application, Geogr. Anal. 27 (1995), 286–306.

18 G. N. Kouziokas, The application of artificial intelligence in public administration for


forecasting high crime risk transportation areas in urban environment, Transp. Res. Procedia 24
(2017), 467–473.

19 A. Getis and J. K. Ord, The analysis of spatial association by use of distance statistics, Geogr.
Anal. 24 (1992), 189–206.

20 G. Mohler, Marked point process hotspot maps for homicide and gun crime prediction in
Chicago, Int. J. Forecast. 30 (2014), 491–497.

21 K. Leong and A. Sung, A review of spatio-temporal pattern analysis approaches on crime


analysis, Int. e-J. Crim. Sci. 9 (2015), 1–33.

https://onlinelibrary.wiley.com/doi/10.4218/etrij.2019-0306 35/37
22/09/2023, 16:32 A multi‐dimensional crime spatial pattern analysis and prediction model based on classification - Hajela - 2021 - ETRI Journal - Wiley …

22 A. Rummens, W. Hardyns, and L. Pauwels, The use of predictive analysis in spatiotemporal


crime forecasting: Building and testing a model in an urban context, Appl. Geogr. 86 (2017), 255–
261.

23 T. Lawson, R. Rogerson, and M. Barnacle, A comparison between the cost effectiveness of


CCTV and improved street lighting as a means of crime reduction, Comput. Environ. Urban Syst. 68
(2018), 17–25.

24 Y. Xu et al., The impact of street lights on spatial-temporal patterns of crime in Detroit,


Michigan, Cities 79 (2018), 45–52.

25 R. Iqbal et al., An experimental study of classification algorithms for crime prediction, Indian,
J. Sci. Technol. 6 (2013), 4219–4225.

Citing Literature 

baixar PDF

SOBRE A BIBLIOTECA ONLINE WILEY

política de Privacidade
Termos de uso
Sobre Cookies
Gerenciar cookies
Acessibilidade
Declaração de DE&I e políticas de publicação da Wiley Research
Acesso ao mundo em desenvolvimento

AJUDA E SUPORTE

Contate-nos
Treinamento e Suporte
DMCA e denúncias de pirataria

OPORTUNIDADES

https://onlinelibrary.wiley.com/doi/10.4218/etrij.2019-0306 36/37
22/09/2023, 16:32 A multi‐dimensional crime spatial pattern analysis and prediction model based on classification - Hajela - 2021 - ETRI Journal - Wiley …

Agentes de assinatura
Anunciantes e parceiros corporativos
CONECTE-SE COM WILEY

A Rede Wiley
Sala de Imprensa Wiley

Direitos autorais © 1999-2023 John Wiley & Sons, Inc. Todos os direitos reservados

https://onlinelibrary.wiley.com/doi/10.4218/etrij.2019-0306 37/37

You might also like