czy publikować dane surowe na forum, RODO i anonimizacja

Chcę wrzucić surowe dane z CGM, HRV i snu na forum, ale boję się RODO; jak sensownie je zanonimizować, żeby było bezpiecznie i nadal użyteczne dla analiz?

Nie wrzucaj dat urodzenia, lokalizacji ani godzin wizyt, bo korelacje zdradzą tożsamość; eksportuj jako CSV bez metadanych i zmień identyfikatory na losowe.

@monikakaminska dzięki, a przesunięcie timeline o np 36h ma sens, czy lepiej bucketować do dni i wyciąć lokalizacje z plików EXIF, trochę się gubię w tym.

sensowne podejście: 1) usuń bezpośrednie identyfikatory (imię, mail, adres, IMEI, nazwy Wi‑Fi), 2) zrób pseudonimizację stabilnym losowym ID, 3) dodaj jitter czasowy 1–48 h i zaokrąglij godziny do 15 min, 4) zgrub lokalizacje do poziomu miasta albo usuń, 5) k-anonimowość: nic co dotyczy <5 osób, 6) publikuj cechy pochodne i agregaty, 7) surowe trzymaj offline; pamiętaj, że CGM i sen zdradzają rytm dnia, co sprzyja reidentyfikacji

U nas w pracy shareujemy tylko wyliczone feature’y, a surowe pliki są w sejfie; do publikacji wrzucaj wykresy i mediany, raz z metadanych ktoś znalazł adres kumpla.

ja bym nic nie wrzucała z nazwiskiem, serio uważaj, potem są głupie telefony i reklamy, lepiej mniej a bez stresu

RODO to nie żart, forum to publiczne miejsce, jak opublikujesz błąd to ty odpowiadasz; nie rób z siebie królika doświadczalnego.

W projektach citizen science publikujemy zsyntetyzowane dane zamiast surowych: generujemy przebiegi statystycznie podobne do oryginału, ale bez realnych znaczników; dla CGM działa to zaskakująco dobrze, a ryzyko reidentyfikacji dramatycznie spada.

offtop, macie apkę do wywalania EXIF na iPhonie bez płacenia, bo w AppStore same badziewie

@sleepexpert_kielce dzięki, masz może jakiś prosty workflow w Pythonie do pseudonimizacji i jittera czasów, czy lepiej ogarnąć to w R; chcę to zrobić powtarzalnie i czytelnie.

Zrób hash ID przez hashlib + salt, daty przesuwaj w pandas z losem z numpy, a EXIF wytnij ExifToolem; do generowania atrap danych użyj Faker i trochę szumu Gaussa.

serio ile wy macie czasu żeby tak kombinować, lepiej nie publikować wcale

Ja patrzę też etycznie: publikuj tylko to, co naprawdę pomaga społeczności; jeżeli informacja nie zmienia wniosków, wyrzuć ją, a wzoruj się na open data z badań klinicznych.

Przesunięcie godzin może psuć interpretację posiłków vs glukoza, lepiej okienkować dzień: 6–10, 10–14 itd, i publikować rozkłady; ja kiedyś przesunęłam o 24h i wnioski wyszły dziwne.

Do metadanych: mat2 albo ExifTool czyszczą zdjęcia, a do CSV fajny jest OpenRefine; publikuj też README z opisem transformacji, żeby każdy wiedział, co zrobiłeś i dlaczego.

wrzuć najpierw 1% próbek i zobacz reakcje, potem zdecyduj

Pamiętaj, że pod RODO danymi osobowymi mogą być też kombinacje sygnałów, więc nawet pseudonimizacja nie zwalnia z obowiązków; przetwarzanie opieraj na zgodzie i ogranicz cel, a publicznie publikuj tylko dane z minimalizacją.

Dzięki wszystkim, zrobię tak: tylko cechy i wykresy, surowe offline, EXIF czyszczę mat2, timeline do kwadransów; hash + salt jak pisał @jan_1983, a na próbę wygeneruję syntetyki jak u @paleo_elblag.