czy publikować dane surowe na forum, RODO i anonimizacja

marek1992 · 7 Maj 2025 05:57

Chcę wrzucić surowe dane z CGM, HRV i snu na forum, ale boję się RODO; jak sensownie je zanonimizować, żeby było bezpiecznie i nadal użyteczne dla analiz?

monikakaminska · 8 Maj 2025 08:57

Nie wrzucaj dat urodzenia, lokalizacji ani godzin wizyt, bo korelacje zdradzą tożsamość; eksportuj jako CSV bez metadanych i zmień identyfikatory na losowe.

marek1992 · 8 Maj 2025 15:57

@monikakaminska dzięki, a przesunięcie timeline o np 36h ma sens, czy lepiej bucketować do dni i wyciąć lokalizacje z plików EXIF, trochę się gubię w tym.

sleepexpert_kielce · 8 Maj 2025 20:57

sensowne podejście: 1) usuń bezpośrednie identyfikatory (imię, mail, adres, IMEI, nazwy Wi‑Fi), 2) zrób pseudonimizację stabilnym losowym ID, 3) dodaj jitter czasowy 1–48 h i zaokrąglij godziny do 15 min, 4) zgrub lokalizacje do poziomu miasta albo usuń, 5) k-anonimowość: nic co dotyczy <5 osób, 6) publikuj cechy pochodne i agregaty, 7) surowe trzymaj offline; pamiętaj, że CGM i sen zdradzają rytm dnia, co sprzyja reidentyfikacji

jakubzajac · 10 Maj 2025 14:57

U nas w pracy shareujemy tylko wyliczone feature’y, a surowe pliki są w sejfie; do publikacji wrzucaj wykresy i mediany, raz z metadanych ktoś znalazł adres kumpla.

krystyna1961 · 11 Maj 2025 03:57

ja bym nic nie wrzucała z nazwiskiem, serio uważaj, potem są głupie telefony i reklamy, lepiej mniej a bez stresu

baran · 12 Maj 2025 13:57

RODO to nie żart, forum to publiczne miejsce, jak opublikujesz błąd to ty odpowiadasz; nie rób z siebie królika doświadczalnego.

paleo_elblag · 12 Maj 2025 15:57

W projektach citizen science publikujemy zsyntetyzowane dane zamiast surowych: generujemy przebiegi statystycznie podobne do oryginału, ale bez realnych znaczników; dla CGM działa to zaskakująco dobrze, a ryzyko reidentyfikacji dramatycznie spada.

iwonasadowska · 14 Maj 2025 14:57

offtop, macie apkę do wywalania EXIF na iPhonie bez płacenia, bo w AppStore same badziewie

marek1992 · 16 Maj 2025 00:57

@sleepexpert_kielce dzięki, masz może jakiś prosty workflow w Pythonie do pseudonimizacji i jittera czasów, czy lepiej ogarnąć to w R; chcę to zrobić powtarzalnie i czytelnie.

jan_1983 · 16 Maj 2025 07:57

Zrób hash ID przez hashlib + salt, daty przesuwaj w pandas z losem z numpy, a EXIF wytnij ExifToolem; do generowania atrap danych użyj Faker i trochę szumu Gaussa.

jaworski · 17 Maj 2025 07:57

serio ile wy macie czasu żeby tak kombinować, lepiej nie publikować wcale

mindfulness_tarnow · 17 Maj 2025 18:57

Ja patrzę też etycznie: publikuj tylko to, co naprawdę pomaga społeczności; jeżeli informacja nie zmienia wniosków, wyrzuć ją, a wzoruj się na open data z badań klinicznych.

dorota_1977 · 18 Maj 2025 09:57

Przesunięcie godzin może psuć interpretację posiłków vs glukoza, lepiej okienkować dzień: 6–10, 10–14 itd, i publikować rozkłady; ja kiedyś przesunęłam o 24h i wnioski wyszły dziwne.

lukaszwisniewski · 19 Maj 2025 19:57

Do metadanych: mat2 albo ExifTool czyszczą zdjęcia, a do CSV fajny jest OpenRefine; publikuj też README z opisem transformacji, żeby każdy wiedział, co zrobiłeś i dlaczego.

zdrowie · 21 Maj 2025 15:57

wrzuć najpierw 1% próbek i zobacz reakcje, potem zdecyduj

cpawel78 · 23 Maj 2025 01:57

Pamiętaj, że pod RODO danymi osobowymi mogą być też kombinacje sygnałów, więc nawet pseudonimizacja nie zwalnia z obowiązków; przetwarzanie opieraj na zgodzie i ogranicz cel, a publicznie publikuj tylko dane z minimalizacją.

marek1992 · 23 Maj 2025 11:57

Dzięki wszystkim, zrobię tak: tylko cechy i wykresy, surowe offline, EXIF czyszczę mat2, timeline do kwadransów; hash + salt jak pisał @jan_1983, a na próbę wygeneruję syntetyki jak u @paleo_elblag.