Jak działa — Spectra Detect

Kluczowa hipoteza

Artefakty generatywne są widoczne w widmie częstotliwościowym

Modele generatywne AI wprowadzają systematyczne artefakty do materiału video wynikające z fundamentalnych ograniczeń architektury — transposed convolutions, autoregresja, upsampling — które zostawiają ślad w domenie częstotliwościowej.

To nie są błędy konkretnych modeli. To są konsekwencje sposobu, w jaki działa generacja syntetyczna — niezależne od wersji modelu.

Sygnatura AI vs Real

Authentic AI-generated artifact

Pipeline

Architektura systemu

Każdy plik przechodzi przez deterministyczny, reprodukowalny pipeline przetwarzania.

Krok 01 / Preprocessing

Normalizacja formatu

Video konwertowane do H.264, CRF 23, 720p. Audio do PCM 44.1kHz. Identyczny pipeline dla wszystkich plików eliminuje data leakage wynikający z różnic codec, bitrate i rozdzielczości między źródłami.

Krok 02 / Video Analysis

Spektralna analiza video

FFT 2D na każdej klatce z ekstrakcją energii w strefach częstotliwości (niskie/średnie/wysokie). FFT temporalne wzdłuż osi czasu wykrywa niestabilność periodycznych artefaktów. Noise residual po high-pass filter ujawnia brak naturalnego szumu kamery.

Krok 03 / Audio Forensics

Analiza spektralna audio

STFT/mel-spektrogramy wyodrębniają charakterystykę częstotliwościową. MFCC (13 współczynników, mean + std = 26 cech) koduje tembr. Spectral flatness wykrywa "zbyt czyste" AI audio pozbawione naturalnego room tone. Analiza fazy ujawnia nieciągłości niewidoczne dla ucha.

Krok 04 / Motion

Temporal consistency

Entropia optical flow między klatkami. Realne video ma naturalny motion blur i rolling shutter tworząc specyficzną sygnaturę. AI video ma zbyt gładki lub zbyt chaotyczny przepływ ruchu — odchylenie wykrywalne statystycznie.

Krok 05 / Classification

Ensemble meta-classifier

~45 cech trafia do XGBoost + Random Forest. Meta-classifier ważony łączy audio score, video FFT score, noise score i temporal score w finalny confidence score. Każdy sygnał zachowuje interpretowalność indywidualną.

Krok 06 / Output

Wynik + wizualizacja

JSON response z etykietą (real/ai), confidence (0–1), 4 sub-scores i danymi do wizualizacji spektralnej. Opcjonalny PDF report z anotowanymi spektrogramami gotowy do użycia jako dowód w procesach weryfikacyjnych.

Specyfikacja techniczna

Metryki wydajności

Model Performance

CV Accuracy (5-fold) >94%

F1-score macro >0.92

Cross-model accuracy >88%

False positive rate <4%

AUC-ROC 0.97

Inference Performance

Czas analizy (30s klip) <5s

Czas analizy (5 min klip) <45s

GPU wymagania Opcjonalne

Max rozmiar pliku 2 GB

Batch processing Tak (Pro+)

Dataset (v1)

Łączna liczba klipów 15 000+

Modele generatywne 8 (Sora, Runway, Kling...)

Kategorie scen 7

Balans klas real:ai 50:50

Publiczny benchmark Q3 2026

Supported formats

Video MP4, MOV, AVI, MKV

Kodeki video H.264, H.265, VP9

Rozdzielczość 360p – 4K

Audio track AAC, MP3, PCM, Opus

Sample rate 8–192 kHz

API Reference

Integracja w 10 minut

Request

POST /v1/analyze
Authorization: Bearer YOUR_API_KEY
Content-Type: multipart/form-data

{
  "file": video.mp4,
  "signals": ["audio","video","noise","temporal"],
  "return_visualization": true
}

Response

200 OK

{
  "label": "ai_generated",
  "confidence": 0.942,
  "signals": {
    "audio": 0.89,
    "video_fft": 0.76,
    "noise": 0.91,
    "temporal": 0.83
  },
  "viz_url": "https://..."
}

Zamów API key Dokumentacja →

Fizyka sygnałównie kłamie.