HomeJak działaCennikFAQKontakt
Technologia

Fizyka sygnałów
nie kłamie.

Szczegółowy przegląd architektury systemu, wybranych sygnałów diagnostycznych i metodologii ewaluacji.

Kluczowa hipoteza

Artefakty generatywne są widoczne w widmie częstotliwościowym

Modele generatywne AI wprowadzają systematyczne artefakty do materiału video wynikające z fundamentalnych ograniczeń architektury — transposed convolutions, autoregresja, upsampling — które zostawiają ślad w domenie częstotliwościowej.

To nie są błędy konkretnych modeli. To są konsekwencje sposobu, w jaki działa generacja syntetyczna — niezależne od wersji modelu.

Sygnatura AI vs Real
Authentic AI-generated artifact
Pipeline

Architektura systemu

Każdy plik przechodzi przez deterministyczny, reprodukowalny pipeline przetwarzania.

Krok 01 / Preprocessing

Normalizacja formatu

Video konwertowane do H.264, CRF 23, 720p. Audio do PCM 44.1kHz. Identyczny pipeline dla wszystkich plików eliminuje data leakage wynikający z różnic codec, bitrate i rozdzielczości między źródłami.

Krok 02 / Video Analysis

Spektralna analiza video

FFT 2D na każdej klatce z ekstrakcją energii w strefach częstotliwości (niskie/średnie/wysokie). FFT temporalne wzdłuż osi czasu wykrywa niestabilność periodycznych artefaktów. Noise residual po high-pass filter ujawnia brak naturalnego szumu kamery.

Krok 03 / Audio Forensics

Analiza spektralna audio

STFT/mel-spektrogramy wyodrębniają charakterystykę częstotliwościową. MFCC (13 współczynników, mean + std = 26 cech) koduje tembr. Spectral flatness wykrywa "zbyt czyste" AI audio pozbawione naturalnego room tone. Analiza fazy ujawnia nieciągłości niewidoczne dla ucha.

Krok 04 / Motion

Temporal consistency

Entropia optical flow między klatkami. Realne video ma naturalny motion blur i rolling shutter tworząc specyficzną sygnaturę. AI video ma zbyt gładki lub zbyt chaotyczny przepływ ruchu — odchylenie wykrywalne statystycznie.

Krok 05 / Classification

Ensemble meta-classifier

~45 cech trafia do XGBoost + Random Forest. Meta-classifier ważony łączy audio score, video FFT score, noise score i temporal score w finalny confidence score. Każdy sygnał zachowuje interpretowalność indywidualną.

Krok 06 / Output

Wynik + wizualizacja

JSON response z etykietą (real/ai), confidence (0–1), 4 sub-scores i danymi do wizualizacji spektralnej. Opcjonalny PDF report z anotowanymi spektrogramami gotowy do użycia jako dowód w procesach weryfikacyjnych.

Specyfikacja techniczna

Metryki wydajności

Model Performance
CV Accuracy (5-fold) >94%
F1-score macro >0.92
Cross-model accuracy >88%
False positive rate <4%
AUC-ROC 0.97
Inference Performance
Czas analizy (30s klip) <5s
Czas analizy (5 min klip) <45s
GPU wymagania Opcjonalne
Max rozmiar pliku 2 GB
Batch processing Tak (Pro+)
Dataset (v1)
Łączna liczba klipów 15 000+
Modele generatywne 8 (Sora, Runway, Kling...)
Kategorie scen 7
Balans klas real:ai 50:50
Publiczny benchmark Q3 2026
Supported formats
Video MP4, MOV, AVI, MKV
Kodeki video H.264, H.265, VP9
Rozdzielczość 360p – 4K
Audio track AAC, MP3, PCM, Opus
Sample rate 8–192 kHz
API Reference

Integracja w 10 minut

Request
POST /v1/analyze
Authorization: Bearer YOUR_API_KEY
Content-Type: multipart/form-data

{
  "file": video.mp4,
  "signals": ["audio","video","noise","temporal"],
  "return_visualization": true
}
Response
200 OK

{
  "label": "ai_generated",
  "confidence": 0.942,
  "signals": {
    "audio": 0.89,
    "video_fft": 0.76,
    "noise": 0.91,
    "temporal": 0.83
  },
  "viz_url": "https://..."
}
Zamów API key Dokumentacja →