Szczegółowy przegląd architektury systemu, wybranych sygnałów diagnostycznych i metodologii ewaluacji.
Modele generatywne AI wprowadzają systematyczne artefakty do materiału video wynikające z fundamentalnych ograniczeń architektury — transposed convolutions, autoregresja, upsampling — które zostawiają ślad w domenie częstotliwościowej.
To nie są błędy konkretnych modeli. To są konsekwencje sposobu, w jaki działa generacja syntetyczna — niezależne od wersji modelu.
Każdy plik przechodzi przez deterministyczny, reprodukowalny pipeline przetwarzania.
Video konwertowane do H.264, CRF 23, 720p. Audio do PCM 44.1kHz. Identyczny pipeline dla wszystkich plików eliminuje data leakage wynikający z różnic codec, bitrate i rozdzielczości między źródłami.
FFT 2D na każdej klatce z ekstrakcją energii w strefach częstotliwości (niskie/średnie/wysokie). FFT temporalne wzdłuż osi czasu wykrywa niestabilność periodycznych artefaktów. Noise residual po high-pass filter ujawnia brak naturalnego szumu kamery.
STFT/mel-spektrogramy wyodrębniają charakterystykę częstotliwościową. MFCC (13 współczynników, mean + std = 26 cech) koduje tembr. Spectral flatness wykrywa "zbyt czyste" AI audio pozbawione naturalnego room tone. Analiza fazy ujawnia nieciągłości niewidoczne dla ucha.
Entropia optical flow między klatkami. Realne video ma naturalny motion blur i rolling shutter tworząc specyficzną sygnaturę. AI video ma zbyt gładki lub zbyt chaotyczny przepływ ruchu — odchylenie wykrywalne statystycznie.
~45 cech trafia do XGBoost + Random Forest. Meta-classifier ważony łączy audio score, video FFT score, noise score i temporal score w finalny confidence score. Każdy sygnał zachowuje interpretowalność indywidualną.
JSON response z etykietą (real/ai), confidence (0–1), 4 sub-scores i danymi do wizualizacji spektralnej. Opcjonalny PDF report z anotowanymi spektrogramami gotowy do użycia jako dowód w procesach weryfikacyjnych.