Download as docx, pdf, or txt
Download as docx, pdf, or txt
You are on page 1of 11

КИЇВСЬКИЙ НАЦІОНАЛЬНИЙ УНІВЕРСИТЕТ

ІМЕНІ ТАРАСА ШЕВЧЕНКА


МЕХАНІКО-МАТЕМАТИЧНИЙ ФАКУЛЬТЕТ
КАФЕДРА ТЕОРІЇ ЙМОВІРНОСТЕЙ,
СТАТИСТИКИ ТА АКТУАРНОЇ МАТЕМАТИКИ

КУРСОВА РОБОТА

НА ТЕМУ:
«ВИКОРИСТАННЯ МОДЕЛЕЙ ПРОЦЕСІВ ПУАССОНА ДЛЯ ВИЯВЛЕНННЯ НЕТИПОВОЇ
ПОВЕДІНКИ»

Виконав:
студент 1 курсу магістратури
механіко-математичного факультету
групи «Прикладна та теоретична
статистика»
Сторожук Артем Олексійович

Науковий керівник:
кандидат фізико-математичних наук
доцент кафедри теорії ймовірностей,
статистики та актуарної математики
Яневич Тетяна Олександрівна

КИЇВ – 2022
1
Зміст
1. Вступ
2. Теоретичні відомості
 Постановка задачі
 Процес Пуассона
 Ансамблеве навчання
 LightGBM
 XGBoost
3. Практичне застосування
 Попередня обробка даних
 Результати
4. Висновки
5. Джерела та література

2
Вступ
Кількість шахрайських фінансових операцій у світі зростає у геометричній
прогресії. За даними компанії McAfee, у 2018 році кіберзлочини, більшою
частиною яких якраз і є фінансове шахрайство, коштували світу приблизно 600
мільярдів доларів США, що становить 0,8% світового ВВП. За прогнозами
компанії McKinsey, глобальні збитки через шахрайство з переказами між
банківськими картками можуть сягнути 44 мільярдів доларів США до 2025 року.
Окрім прямих збитків через шахрайство, компанії також страждають від
втрачених продажів, коли вони відмовляють у здійсненні чесних транзакцій. За
оцінкою тієї ж компанії McKinsey, це приблизно 25% від всіх операцій.
Першим кроком банків та фінансових установ до виявлення шахрайства
була звичайна мануальна перевірка. Цей метод дав хороші результати, але наразі
має певні обмеження. Мануальна перевірка ефективна для виявлення аномалій,
що відповідають вже відомим закономірностям, але вона не показує себе так само
добре з досі невідомими закономірностями. Зростаюча складність цифрових атак і
креативність кібер-зловмисників роблять цей метод виявлення менш ефективним і
більш ресурсо затратним, тому є необхідність у розробці і використанні нових
методів для виявлення шахрайських транзакцій.
В даній роботі ми спробуємо використати процес Пуассона і алгоритми
машинного навчання для виявлення шахрайських транзакцій і порівняємо
ефективність даних методів.

3
Теоретичні відомості
Постановка задачі
В даній роботі ми розглядаємо задачу бінарної класифікації, а саме,
виявлення шахрайських переказів між банківськими картками.
Нехай X – матриця ознак об’єктів розмірами m× n, і Y – mрозмірний вектор
відгуків. Вибірка представлена наступним чином: D={( x 1 , y 1 ) ,... ,(x m , y m) }, де
x i=( xi , … , x i ) – вектор ознак рядка під номером i , 0 ≤ i≤ m. Маємо наступний
1 n

алгоритм: a ( x ): X → Y . Процент правильних передбачень (якість моделі)


підраховується наступним чином:
l
1
Q (a , X l )= ∑ [ a ( x j ) = y j ],
l j=1

де l<m.

Процес Пуассона
Позначимо час шахрайства як τ , τ ∈¿ . Дана випадкова величина визначена у
фільтрованому ймовірнісному просторі (Ω, F , Φ , P). Ω – множина елементарних
подій, F - σ-алгебра, Φ=( F t )t ≥ 0 – фільтрація, де F t містить усю інформацію до часу t ,
P – ймовірнісна міра (описує ймовірність настання певних подій).

Позначимо послідовність часових інтервалів між шахрайськими


транзакціями як ( τ n ) ,n ≥ 0. Визначимо випадковий процес настання шахрайських
транзакцій як X ={X (τ ), τ ≥ 0 },
X ( t )=∑ I {τ ≤t } n
n≥ 0

Іншими словами, X ( t ) – це кількість шахрайських транзакцій, що трапилися на


інтервалі (0 , t). Траєкторії такого процесу – це кусково постійні, неспадні функції з
одиничними стрибками.

4
Мал.1 Траєкторії процесу Пуассона [1]
Означення. Випадковий процес з інтенсивністю настання подій λ називається
процесом Пуассона, якщо:
1. X ( 0 ) =0 ;
2. Процес має незалежні прирости.
p

3. Для 0 ≤ s < p , X ( p ) −X (s) має розподіл Пуассона з параметром ∫ λ( x) dx :


s
p
p
−∫ λ ( x ) dx k
e s
(∫ λ (x) dx)
P ( X ( p )−X ( s ) =k ) =
s
k!
Якщо інтенсивність λ є функцією від часу t , то в такому випадку процес Пуассона
називається неоднорідним. Якщо ж інтенсивність λ завжди стала (константа), то
процес Пуассона називається однорідним. Очевидно, λ є невід’ємною величиною.
Проміжки часу між подіями у процесі Пуассона мають експоненційний
p

розподіл з параметром ∫ λ( x)dx . Si=τ i−τ i−1 – інтервал між подіями номер i та i−1 (
s

S1=τ 1).

Використовуючи метод максимальної вірогідності, отримаємо оцінку


інтенсивності однорідного процесу:

5
^λ= 1
S
Для того щоб оцінити інтенсивність у випадку неоднорідності, нам потрібно
визначити параметр, який максимізує логарифмічну функцію ймовірності. Ця
функція – похідна від спільної щільності подій (шахрайських транзакцій).
n T
l=l og L ( λ ; τ =τ 1 , τ 2 , … , τ n )=∑ log λ ( τ i ) −∫ λ ( x ) dx
i=0 0

Нехай у нас є інформація про події до часу T , нова транзакція трапилась у момент
часу T + δ . Тоді формула для прогнозу шахрайської транзакції для однорідного і
неоднорідного процесів Пуассона має наступний вигляд:
T+δ

− ∫ λ( x)dx
P ( шахр . транзакція трапилась у момент часу t =T + δ )=1−e T

З доведенням можна ознайомитись у [4].

Ансамблеве навчання
В машинному навчанні ансамбль включає в себе одночасно декілька
алгоритмів для рішення однієї задачі. Таким чином, якість прогнозування
ансамблів є кращою ніж ефективність прогнозування кожного алгоритму з
ансамблю поодинці. У процесі навчання моделі вказують напрямок майбутніх
корекцій у передбаченнях поточної ансамблевої моделі з метою зменшення
помилок. Ми розглянемо наступні 2 алгоритми: LightGBM (Light Gradient Boosting
Machine), XGBoost (eXtreme Gradient Boosting).
 LightGBM
Даний алгоритм є покращенням відомого алгоритму Gradient Boosting. LGBM є
покращенням Gradient Boosting за допомогою алгоритму навчання на основі
дерева прийняття рішень (під деревом мається на увазі зв'язний граф без циклів).
Основною відмінністю від інших алгоритмів є зростання дерева в глибину, або в
ширину.
Алгоритм отримав назву Light через свою високу швидкість виконання. Він
добре працює з великими об’ємами даних і при цьому використовує менше
6
оперативної пам’яті аніж його аналоги. Для більш детального ознайомлення з
алгоритмом див. [5]
 XGBoost
XGBoost — це алгоритм машинного навчання, заснований на дереві прийняття
рішень. Це покращення фреймворку Gradient Boosting шляхом оптимізації
системи та покращення алгоритму. XGBoost має широкий спектр застосувань:
його можнаa використовувати для вирішення проблем регресії, класифікації,
упорядкування та різних задач прогнозування. Детальніше див. [6]

Практичне застосування
Будемо розглядати 3 моделі процесу Пуассона:
1. λ (t)=λ : однорідний процес Пуассона (HomoModel). λ ≥ 0

2. λ ( t )=a+ bt : неоднорідний процес Пуассона з лінійною функцією інтенсивності

(LinearModel). Для того, щоб λ ( t ) ≥ 0 потрібно накласти додаткові умови:

{
a≥0
a
b+ ≥0
T

Доведення див. [2, ст.10]


3. λ ( t )=a+ bt+ c t 2: неоднорідний процес Пуассона з квадратичною функцією

інтенсивності (QuadraticModel). Для того, щоб λ ( t ) ≥ 0 потрібно накласти додаткові


умови:

{
a≥0
c≥0
a
b+ ≥0
T

Попередня обробка даних


7
Маємо фрейм даних, який складається з 95662 транзакцій, які були
проведені між 15 листопада 2018 року і 13 лютого 2019 року. Всього 3633
унікальних клієнтів. Кожна транзакція має ярлик (0 – чесна транзакція, 1 –
шахрайська). Зауважимо, що частка шахрайських транзакцій становить всього
0,2%.
Для класифікації належності транзакцій до конкретного класу нам
знадобиться 3 атрибути: ідентифікаційний номер клієнта, час транзакції та її
ярлик.
Для моделі процесу Пуассона, тренувальна та тестові вибірки повинні мати
однакових клієнтів хоча б з 2 транзакціями. Тому, 812 транзакцій було видалено з
фрейму даних (стільки ж клієнтів). Для вирішення проблеми «false-positive»
результатів, визначимо λ=0 для чесних клієнтів.
Маємо фрейм даних наступного вигляду:
 Кількість транзакцій: 94850;
 Кількість клієнтів: 2821;
 Кількість шахрайських транзакцій: 183;
 Кількість клієнтів шахраїв: 42;
 Максимальна кількість шахрайських транзакцій у одного клієнта: 31;
 Мінімальні кількість шахрайських транзакцій у одного клієнта: 0.
Розділимо наш фрейм даних наступним чином: перші 80% даних будуть
тренувальною вибіркою, інші 20% – тестовою вибіркою.

8
Результати
Модель HomoModel LinearModel QuadraticMode LGBM XGBoost
l
Результат 0.723598 0.761642 0.743932 0.999018 0.999543

Табл. 1
В таблиці наведені результати, які показала кожна з моделей. Зауважимо, що
моделі машинного навчання мають високу точність передбачень, майже 1. Моделі
процесу Пуассона показали меншу точність, але водночас більше ніж звичайний
випадковий вибір.
Перевага усіх розглянутих моделей в тому, що вони потребують лише 3
атрибути, що значно спрощує процес тренування моделей. Також всі методи
відпрацьовують доволі швидко.

9
Висновки
Для вирішення завдання виявлення шахрайських транзакцій було
застосовано 2 методи: процес Пуассона і машинне навчання. У першому випадку
ми розглянули різні функції інтенсивності для передбачення шахрайських
транзакцій. У якості алгоритмів машинного навчання були використані LightGBM
та XGBoost.
Оскільки для застосування процесу Пуассона тестова та тренувальні вибірки
повинні містити лише клієнтів з 2 та більше транзакціями, ми попередньо
обробили наш фрейм даних і видалили зайві транзакції. Також ми вирішили
проблему визначення чесних транзакцій шахрайськими (false-positive результатів).
Усі методи показали гарну ефективність у виявленні шахрайських
транзакцій. Щодо процесів Пуассона, були розглянуті доволі прості функції
інтенсивності, тому справедливим є припущення, що моделі з більш складними
функціями інтенсивності можуть покращити результат. Методи машинного
навчання показали майже ідеальний результат.
Обидва методи мають свої недоліки, тому варто розглянути можливість
поєднання результатів. Таким чином, недоліки одного алгоритму компенсуються
перевагами іншого. У поєднанні процесу Пуассона з машинним навчанням, ми
можемо отримати найефективніший метод для виявлення шахрайських
транзакцій.

10
Джерела та література
[1] Izotova A., Valiullin A. (2020). Comparison of Poisson process and machine
learning algorithms approach for credit card fraud detection. Посилання
[2] Houssou R., Bovay J., Robert S. (2019). Adaptive Financial Fraud Detection in
Imbalanced Data with Time-Varying Poisson Processes
[3] Ross S.M. (2012) Simulation, Fifth Edition.
[4] Ross S.M. (2010) Introduction to Probability Models, 10th Edition
[5] LightGBM (2020). Documentation LightGBM. Посилання
[6] XGBoost (2020). Documentation XGBoost. Посилання

11

You might also like