Suwerenna platforma dokumentowa

Inteligentne zarządzanie dokumentami — bez oddawania danych do chmury

DocAI daje moc sztucznej inteligencji — OCR, wyszukiwanie semantyczne i automatyczną ekstrakcję danych — w całości na Twojej infrastrukturze. Dokumenty poufne nigdy nie opuszczają Twojego serwera.

  • Self-hosted — dane zostają u Ciebie
  • Wyszukiwanie semantyczne i pełnotekstowe
  • Ekstrakcja danych regułami opartymi na LLM

Problem

AI dla dokumentów nie powinno oznaczać utraty kontroli nad danymi

Kancelarie, placówki medyczne, urzędy i działy finansowe chcą korzystać z automatycznej klasyfikacji, ekstrakcji i wyszukiwania semantycznego. Komercyjne usługi typu „Drive z AI” wymagają jednak wysłania dokumentów na serwery dostawcy — co przy tajemnicy zawodowej, RODO czy wymogu suwerenności danych jest po prostu nie do przyjęcia.

  • Tajemnica zawodowa i dane wrażliwe nie mogą trafiać do zewnętrznego SaaS.
  • Ręczne porządkowanie i przeszukiwanie dużych zbiorów dokumentów jest kosztowne i nieskalowalne.
  • Potrzebny jest złoty środek: inteligencja dokumentowa przy pełnej kontroli nad danymi.

Dlaczego DocAI

Cztery filary, które wyróżniają DocAI

Suwerenność danych

Dokumenty oznaczone jako poufne są przetwarzane wyłącznie lokalnie. Polityka poufności jest wymuszana centralnie w silniku — to mechanizm w kodzie, nie marketingowa obietnica.

Format .docai — „PDF dla AI”

Jeden przenośny, audytowalny kontener niesie źródło, artefakty, wektory znaczeniowe i pełną historię. Bez uzależnienia od jednego dostawcy — dokument zabiera swój kontekst AI ze sobą.

Hybrydowe wyszukiwanie

Wyszukiwanie pełnotekstowe i semantyczne w jednym pasku, z inteligentną fuzją wyników (RRF). Znajdujesz dokument zarówno po dosłownej frazie, jak i po znaczeniu.

Typowana ekstrakcja danych

Reguły oparte na LLM wyciągają z dokumentów daty, kwoty, NIP czy IBAN — z walidacją — prosto do raportów i kolekcji. Nie tylko TAK/NIE, lecz konkretne, typowane wartości.

Dla kogo

Zaprojektowane dla organizacji z danymi wrażliwymi

  • Kancelarie prawne

    Akta spraw i korespondencja pod ochroną tajemnicy zawodowej.

  • Ochrona zdrowia

    Dokumentacja medyczna i dane wrażliwe zgodnie z RODO i prawami pacjenta.

  • Sektor publiczny

    Digitalizacja archiwów i dokumentów urzędowych na własnej infrastrukturze.

  • Finanse i księgowość

    Faktury, umowy i dokumenty KYC/AML bez wysyłki na zewnątrz.

  • Wdrożenia on-premise

    Organizacje z wymogiem suwerenności i kontroli nad infrastrukturą.

  • Zespoły self-hosted

    Prywatny, inteligentny „Drive” bez abonamentu SaaS.

Funkcje

Co potrafi DocAI

Pełny cykl pracy z dokumentem: od wprowadzenia, przez przetwarzanie AI, po organizację i wyszukiwanie — wszystko na Twoim serwerze.

Ingest i organizacja

  • Wielokanałowy ingest: przesyłanie plików (z wznawianiem i weryfikacją sumy kontrolnej), import oraz adapter poczty e-mail
  • Każdy plik staje się samodzielnym, przenośnym kontenerem .docai
  • Wykrywanie duplikatów po sumie kontrolnej źródła
  • Kolekcje, tagi z przestrzeniami nazw oraz inteligentne foldery w autorskim języku zapytań (VQL)
  • Eksplorator struktury, operacje masowe i jednokrokowe cofnięcie zmiany

Przetwarzanie AI

  • OCR (model wizyjny vLLM) oraz ekstrakcja PDF, plików Office (DOCX/ODT/XLSX/ODS) i HTML do tekstu
  • Reguły analizy w języku naturalnym z automatycznym tagowaniem (np. „Czy to faktura?”)
  • Typowana ekstrakcja danych: daty, kwoty, NIP (z walidacją), IBAN — prosto do strukturalnego wyniku
  • Rozpoznawanie i deduplikacja encji z walidacją oraz kwarantanną błędów
  • Ask AI — doraźne pytanie do treści dokumentu (podsumuj, przetłumacz, wyciągnij dane)

Wyszukiwanie i wgląd

  • Hybrydowe wyszukiwanie: pełnotekstowe i semantyczne z fuzją wyników (RRF), filtrami i podświetleniami
  • Automatyczne podpowiedzi powiązanych dokumentów
  • Tematyczne grupowanie dokumentów na podstawie wektorów znaczeniowych
  • Generyczne raporty zestawiające dane z wielu dokumentów i eksport do CSV
  • Powiadomienia o postępie przetwarzania w czasie rzeczywistym

Bezpieczeństwo i suwerenność

  • Routing wg poufności (sensitivity-aware): dane poufne przetwarzane wyłącznie lokalnie
  • W pełni self-hosted, bez obowiązkowej zależności od chmury
  • Izolacja danych w podziale na użytkownika i łatwe usuwanie danych (RODO) na poziomie katalogu
  • Logowanie z kontrolą ról oraz pojedyncze logowanie (SSO) między aplikacjami
  • Śledzenie proweniencji: wersjonowanie, sumy kontrolne (SHA-256) i historia transformacji

Wektory znaczeniowe (embeddingi) mogą być liczone lokalnie lub — opcjonalnie — przez model chmurowy; dla dokumentów poufnych routing wg poufności wymusza przetwarzanie lokalne.

Jak to działa

Od dokumentu do wiedzy — w pięciu krokach

  1. Wprowadź dokument

    Prześlij plik, zaimportuj gotowy kontener albo podłącz skrzynkę e-mail (IMAP). Każde źródło trafia do przenośnego kontenera .docai.

  2. Przetwarzanie AI

    Silnik kolejno wykonuje OCR, ekstrakcję, podział na fragmenty, wektory znaczeniowe i reguły LLM. Routing wg poufności decyduje, czy przetwarzanie odbywa się lokalnie, czy — opcjonalnie — w chmurze.

  3. Wzbogacony kontener

    Wyniki, metadane i historia są zapisywane z powrotem do .docai — pozostaje on jednym, audytowalnym źródłem prawdy.

  4. Indeks i wyszukiwanie

    Magazyn indeksuje wektory i metadane w bazie grafowej, udostępniając hybrydowe wyszukiwanie, inteligentne foldery i filtry.

  5. Organizacja i wgląd

    Automatyczne tagowanie, encje, powiązania między dokumentami oraz raporty z eksportem do CSV — z pełną historią zmian.

Zastosowania

Tam, gdzie dane muszą zostać na miejscu

Kancelarie prawne

Skany i pliki akt trafiają do platformy. DocAI wykonuje OCR z dbałością o polskie znaki, taguje dokumenty i wyciąga daty oraz sygnatury, a prawnik przeszukuje całość po znaczeniu.

Wartość: Błyskawiczne odnajdywanie informacji przy pełnym zachowaniu tajemnicy zawodowej.

Ochrona zdrowia

Dokumentacja pacjentów oznaczona jako poufna jest przetwarzana wyłącznie lokalnie. Wyszukiwanie semantyczne pomaga odnaleźć historię i powiązane dokumenty.

Wartość: Inteligentna praca z dokumentacją medyczną bez ryzyka wycieku danych; łatwe usuwanie danych zgodnie z RODO.

Finanse i księgowość

Faktury wpływają z przesyłania plików i poczty. Reguły LLM wyciągają datę, kontrahenta, NIP i kwotę, a raport zestawia je i eksportuje do CSV.

Wartość: Automatyzacja segregacji i raportowania faktur bez wysyłania dokumentów na zewnątrz.

Sektor publiczny

Urząd digitalizuje archiwum dokumentów urzędowych i druków w języku polskim. Pełnotekstowe i semantyczne wyszukiwanie udostępnia zasób pracownikom, a wdrożenie pozostaje na własnej infrastrukturze.

Wartość: Suwerenny, lokalny dostęp do zasobów dokumentowych dopasowany do języka polskiego.

Zespoły self-hosted

Mały zespół używa DocAI jako prywatnego, inteligentnego „Drive”: inteligentne foldery, automatyczne tagowanie, powiązania dokumentów i doraźne pytania do treści (Ask AI).

Wartość: Funkcjonalność komercyjnego „Drive z AI” przy pełnej kontroli nad danymi.

Archiwizacja poczty

Historyczna korespondencja z Gmaila trafia do platformy, a roczna archiwizacja zwalnia limit miejsca u dostawcy. Maile pozostają przeszukiwalne, z zachowaniem oryginalnych plików EML.

Wartość: Odzyskanie limitu skrzynki przy zachowaniu pełnego, audytowalnego archiwum.

Architektura

Ekosystem .NET wokół jednego standardu danych

DocAI to ekosystem współpracujących serwisów .NET zbudowanych wokół jednego standardu danych — kontenera .docai. Całość działa self-hosted na infrastrukturze klienta.

DocaiEngine

Silnik przetwarzania: transformacje AI, harmonogram zadań, routing wg poufności.

DocaiVault

Magazyn, organizacja i hybrydowe wyszukiwanie — „inteligentny Drive”.

DocaiEmail

Cienki adapter poczty: e-mail w kontener .docai i dalej do Vault.

Format .docai

Przenośny, audytowalny standard wymiany (ZIP+JSON) — źródło prawdy.

ComputeBroker

Orkiestracja zasobów obliczeniowych: rejestr usług, health-check i model subskrypcji.

Wspólny design system

Bezframeworkowa biblioteka UI dla spójnych, dostępnych interfejsów.

  • .NET 10
  • Format .docai (ZIP+JSON)
  • FalkorDB — graf i wektory
  • Ollama · llama.cpp
  • Self-hosted: Debian + systemd
  • OpenTelemetry
  • TypeScript + Vite

Rozwój

Na mapie drogowej

Budujemy otwarcie. To, co już działa, znajdziesz wyżej; poniżej kierunki w przygotowaniu.

  • W projektowaniu

    Szyfrowanie kontenerów (DEK/KEK)

    Szyfrowanie .docai w spoczynku: AES-256-GCM, klucze obwiedniowe, podział metadanych na jawne i szyfrowane.

  • W przygotowaniu

    Automatyczne skalowanie GPU

    Przydzielanie mocy obliczeniowej na żądanie z limitami kosztów i automatycznym sprzątaniem zasobów.

  • Planowane

    Logowanie OAuth: Microsoft 365 / Outlook

    Obecnie wspierany jest Google; kolejnym dostawcą w kolejce jest Microsoft.

  • Planowane

    Rozbudowa klienta poczty

    Treść HTML i załączniki przy tworzeniu wiadomości (obecnie obsługiwany jest tekst zwykły).

Porozmawiajmy o wdrożeniu u Ciebie

Chcesz zobaczyć DocAI w działaniu na swoich dokumentach? Napisz — pokażemy demo i omówimy wdrożenie na Twojej infrastrukturze.

kontakt@inteligentneprzetwarzanie.pl