Chcę wrzucić surowe dane z CGM, HRV i snu na forum, ale boję się RODO; jak sensownie je zanonimizować, żeby było bezpiecznie i nadal użyteczne dla analiz?
Nie wrzucaj dat urodzenia, lokalizacji ani godzin wizyt, bo korelacje zdradzą tożsamość; eksportuj jako CSV bez metadanych i zmień identyfikatory na losowe.
@monikakaminska dzięki, a przesunięcie timeline o np 36h ma sens, czy lepiej bucketować do dni i wyciąć lokalizacje z plików EXIF, trochę się gubię w tym.
sensowne podejście: 1) usuń bezpośrednie identyfikatory (imię, mail, adres, IMEI, nazwy Wi‑Fi), 2) zrób pseudonimizację stabilnym losowym ID, 3) dodaj jitter czasowy 1–48 h i zaokrąglij godziny do 15 min, 4) zgrub lokalizacje do poziomu miasta albo usuń, 5) k-anonimowość: nic co dotyczy <5 osób, 6) publikuj cechy pochodne i agregaty, 7) surowe trzymaj offline; pamiętaj, że CGM i sen zdradzają rytm dnia, co sprzyja reidentyfikacji
U nas w pracy shareujemy tylko wyliczone feature’y, a surowe pliki są w sejfie; do publikacji wrzucaj wykresy i mediany, raz z metadanych ktoś znalazł adres kumpla.
ja bym nic nie wrzucała z nazwiskiem, serio uważaj, potem są głupie telefony i reklamy, lepiej mniej a bez stresu
RODO to nie żart, forum to publiczne miejsce, jak opublikujesz błąd to ty odpowiadasz; nie rób z siebie królika doświadczalnego.
W projektach citizen science publikujemy zsyntetyzowane dane zamiast surowych: generujemy przebiegi statystycznie podobne do oryginału, ale bez realnych znaczników; dla CGM działa to zaskakująco dobrze, a ryzyko reidentyfikacji dramatycznie spada.
offtop, macie apkę do wywalania EXIF na iPhonie bez płacenia, bo w AppStore same badziewie
@sleepexpert_kielce dzięki, masz może jakiś prosty workflow w Pythonie do pseudonimizacji i jittera czasów, czy lepiej ogarnąć to w R; chcę to zrobić powtarzalnie i czytelnie.
Zrób hash ID przez hashlib + salt, daty przesuwaj w pandas z losem z numpy, a EXIF wytnij ExifToolem; do generowania atrap danych użyj Faker i trochę szumu Gaussa.
serio ile wy macie czasu żeby tak kombinować, lepiej nie publikować wcale
Ja patrzę też etycznie: publikuj tylko to, co naprawdę pomaga społeczności; jeżeli informacja nie zmienia wniosków, wyrzuć ją, a wzoruj się na open data z badań klinicznych.
Przesunięcie godzin może psuć interpretację posiłków vs glukoza, lepiej okienkować dzień: 6–10, 10–14 itd, i publikować rozkłady; ja kiedyś przesunęłam o 24h i wnioski wyszły dziwne.
Do metadanych: mat2 albo ExifTool czyszczą zdjęcia, a do CSV fajny jest OpenRefine; publikuj też README z opisem transformacji, żeby każdy wiedział, co zrobiłeś i dlaczego.
wrzuć najpierw 1% próbek i zobacz reakcje, potem zdecyduj
Pamiętaj, że pod RODO danymi osobowymi mogą być też kombinacje sygnałów, więc nawet pseudonimizacja nie zwalnia z obowiązków; przetwarzanie opieraj na zgodzie i ogranicz cel, a publicznie publikuj tylko dane z minimalizacją.
Dzięki wszystkim, zrobię tak: tylko cechy i wykresy, surowe offline, EXIF czyszczę mat2, timeline do kwadransów; hash + salt jak pisał @jan_1983, a na próbę wygeneruję syntetyki jak u @paleo_elblag.