목요일, 5월 9, 2024

데이터 프라이버시를 보는 새로운 방법 | MIT 뉴스

Must read

Ae Dong-Yul
Ae Dong-Yul
"트위터를 통해 다양한 주제에 대한 생각을 나누는 아 동율은 정신적으로 깊이 있습니다. 그는 맥주를 사랑하지만, 때로는 그의 무관심함이 돋보입니다. 그러나 그의 음악에 대한 열정은 누구보다도 진실합니다."

과학자 팀이 폐 스캔 이미지에서 환자가 암에 걸렸는지 여부를 예측할 수 있는 기계 학습 모델을 개발했다고 상상해 보십시오. 그들은 의사들이 진단에 이 모델을 사용할 수 있도록 전 세계 병원과 이 모델을 공유하기를 원합니다.

하지만 문제가 있습니다. 모델에게 암을 예측하는 방법을 가르치기 위해 훈련이라고 하는 과정인 수백만 개의 실제 폐 스캔 이미지를 보여주었습니다. 이제 모델의 내부 작업에 인코딩된 이 민감한 데이터는 악의적인 에이전트에 의해 추출될 수 있습니다. 과학자들은 상대방이 원래 데이터를 추측하기 어렵게 만드는 모델에 노이즈 또는 보다 일반적인 무작위성을 추가하여 이를 방지할 수 있습니다. 그러나 난기류는 모델의 정확도를 떨어뜨리므로 추가할 수 있는 노이즈가 적을수록 좋습니다.

MIT 연구원들은 사용자가 민감한 데이터를 보호하면서 가능한 한 적은 노이즈를 추가할 수 있는 기술을 개발했습니다.

연구자들은 가장 가능성이 높은 정확한 특이성(PAC)이라고 하는 새로운 특이성 척도를 만들고 추가해야 하는 노이즈의 최소량을 자동으로 결정할 수 있는 이 척도를 기반으로 프레임워크를 구축했습니다. 또한 이 프레임워크는 모델의 내부 작동이나 학습 프로세스를 알 필요가 없으므로 다양한 유형의 모델 및 애플리케이션에 쉽게 사용할 수 있습니다.

많은 경우에 연구자들은 민감한 데이터를 적으로부터 보호하는 데 필요한 잡음의 양이 다른 접근 방식보다 PAC 특이성이 훨씬 낮다는 것을 보여주었습니다. 이를 통해 엔지니어는 실제 설정에서 정확성을 유지하면서 훈련 데이터를 명백히 숨기는 기계 학습 모델을 만들 수 있습니다.

“PAC 프라이버시는 중요한 데이터의 불확실성 또는 엔트로피를 의미 있는 방식으로 활용하므로 많은 경우에 노이즈를 덜 추가할 수 있습니다. 이 프레임워크를 통해 데이터 임의 처리의 특성을 이해하고 인공 수정 없이 자동으로 프라이빗화할 수 있습니다. . 우리는 초기에 이 기술의 가능성에 대해 흥분하고 있습니다.”라고 Edwin Sibley Webster 전기 공학 교수이자 PAC 특이성에 관한 새 논문의 공동 저자인 Srini Devadas는 말합니다.

Devadas는 전기 공학 및 컴퓨터 과학 대학원생인 수석 저자 Hanshin Xiao와 함께 논문을 작성했습니다. 이 연구는 International Crypto Conference(Crypto 2023)에서 발표될 예정입니다.

프라이버시의 정의

데이터 프라이버시의 핵심 질문은 노이즈가 추가된 기계 학습 모델에서 공격자가 얼마나 많은 민감한 데이터를 검색할 수 있습니까?

프라이버시의 일반적인 정의 중 하나인 차등 프라이버시는 방출된 모델을 관찰하는 적이 임의의 개인의 데이터가 훈련 처리에 사용되고 있는지 여부를 추론할 수 없는 경우 프라이버시가 달성된다고 말합니다. 그러나 적이 데이터 사용량을 구별하지 못하도록 막으려면 종종 이를 가리기 위해 많은 양의 노이즈가 필요합니다. 이 노이즈는 모델의 정확도를 떨어뜨립니다.

PAC 프라이버시는 문제를 조금 다르게 봅니다. 구별 문제에만 초점을 맞추는 것보다 노이즈를 추가한 후 무작위로 샘플링되거나 생성된 민감한 데이터를 재구성하는 것이 얼마나 어려운지 설명합니다.

예를 들어 민감한 데이터가 사람 얼굴의 이미지인 경우 차등 특이성은 공격자가 누군가의 얼굴이 데이터 세트에 있는지 알 수 있는지 여부에 초점을 맞춥니다. 반면에 PAC 특이성은 상대방이 특정 개인의 얼굴로 식별할 수 있는 실루엣(근사치)을 추출할 수 있는지 여부를 고려할 수 있습니다.

PAC의 특이성 정의가 결정되면 연구자들은 상대가 민감한 데이터의 가까운 근사치를 자신감 있게 재구성하지 못하도록 모델에 추가할 노이즈의 양을 사용자에게 자동으로 알려주는 알고리즘을 만들었습니다. Xiao는 이 알고리즘이 상대방이 무한한 컴퓨팅 파워를 가지고 있더라도 프라이버시를 보장한다고 말합니다.

최적의 노이즈 양을 찾기 위해 PAC 특이성 알고리즘은 상대방의 관점에서 원본 데이터의 불확실성 또는 엔트로피에 의존합니다.

이 자동화된 기술은 데이터 분포 또는 대규모 데이터 풀에서 무작위로 샘플링하고 학습된 모델을 생성하기 위해 해당 하위 데이터에 대해 사용자를 교육하는 기계 학습 알고리즘을 실행합니다. 다른 하위 샘플에서 이 작업을 여러 번 수행하고 모든 출력에서 ​​분산을 비교합니다. 이 분산은 추가해야 하는 노이즈의 양을 결정합니다. 분산이 작을수록 노이즈가 적게 필요합니다.

알고리즘의 장점

다른 프라이버시 접근 방식과 달리 PAC 프라이버시 알고리즘은 모델의 내부 절차나 교육 프로세스를 알 필요가 없습니다.

프라이버시 PAC를 구현할 때 사용자는 초기에 필요한 신뢰 수준을 지정할 수 있습니다. 예를 들어, 사용자는 상대방이 중요한 데이터를 실제 값의 5% 이내로 성공적으로 재구성했다는 확신이 1% 이하일 것이라는 확신을 원할 수 있습니다. PAC의 프라이버시 알고리즘은 이러한 목표를 달성하기 위해 공개적으로 공유되기 전에 출력 샘플에 추가할 최적의 노이즈 양을 사용자에게 자동으로 알려줍니다.

“우리가 말한 것보다 적게 추가하면 모든 베팅이 취소될 수 있다는 점에서 노이즈가 최적입니다. 그러나 신경망 매개변수에 노이즈를 추가하는 효과는 복잡하며 감소된 시설에 대해 어떠한 약속도 하지 않습니다. 모델에 추가 노이즈가 발생할 수 있습니다.”라고 Xiao는 말합니다.

이것은 PAC 특이성의 한계 중 하나를 지적합니다. 이 기술은 노이즈가 추가되면 모델이 얼마나 많은 정확도를 잃을지 사용자에게 알려주지 않습니다. PAC의 특이성에는 데이터의 많은 하위 샘플에서 기계 학습 모델을 반복적으로 교육하는 것도 포함되므로 계산 비용이 많이 들 수 있습니다.

PAC의 특이성을 개선하기 위한 한 가지 접근 방식은 기계 학습 사용자 교육 프로세스를 수정하여 더 안정적이 되도록 하는 것입니다. 즉, 입력 데이터가 데이터 세트에서 컴파일될 때 생성되는 출력 모델이 많이 변경되지 않습니다. 이 안정화는 하위 샘플의 출력 사이에 더 작은 분산을 생성하므로 최적의 노이즈 양을 결정하기 위해 PAC 특이성 알고리즘을 더 적게 실행해야 할 뿐만 아니라 더 적은 노이즈를 추가해야 합니다.

Stabler 모델의 또 다른 이점은 일반화 오류가 더 낮다는 것입니다. 즉, 이전에 본 적이 없는 데이터에 대해 더 정확한 예측을 할 수 있으며 기계 학습과 특이성 사이의 윈윈 상황입니다.

“향후 몇 년 동안 우리는 안정성과 프라이버시 사이의 관계, 프라이버시와 일반화 오류 사이의 관계를 조금 더 깊이 살펴보고 싶습니다. 우리는 여기서 문을 두드리고 있지만 문이 어디에 있는지는 아직 명확하지 않습니다. 리드한다”고 말했다.

이 연구는 DSTA Singapore, Cisco Systems, Capital One 및 MathWorks Fellowship에서 부분적으로 자금을 지원받았습니다.

Latest article