Privacy-Preserving Machine Learning using Homomorphic Encryption
- Abstract
- Machine learning is a technology that enables machines to implement human intellectual abilities including learning, reasoning, and perception. In various fields, machine learning technology brings a lot of convenience for our daily life. To implement reliable machine learning, data collection is a very important factor because quality of data has a significant impact on the performance of machine learning. It also requires huge amounts of computing and storage resources for the feasibility of machine learning. Cloud computing is a technology that enables efficient large-scale data collection and computation, and can play a very important role for machine learning. However, because data containing sensitive personal information in such as disease, finance, and user location can be concentrated on a centralized cloud server for machine learning, serious data privacy issues may be raised. To solve these privacy-related issues, homomorphic encryption (HE) that enables ciphertexts to be operated directly without decryption can be utilized. In machine learning applications that use HE scheme, since data providers can only provide ciphertexts to cloud servers for machine learning, sensitive users' data is not leaked. In this paper, we address privacy-preserving machine learning algorithms using a HE scheme, and specifically propose a privacy-preserving reinforcement Learning (PPRL) and a privacy-preserving federated learning (PPFL) based on the HE scheme.
Reinforcement learning (RL) is a learning technique that enables state-dependent learning through feedback from an environment and makes an action decision for maximizing a reward without prior knowledge of the environment. If a RL algorithm is used for data-centric services running on cloud computing, serious data privacy issues may occur because it is required to exchange privacy-related user data for RL-based services between the users and the cloud computing platform. We consider using HE scheme, which enables cloud computing platforms to perform arithmetic operations without decrypting ciphertexts. Using the HE scheme, users are allowed to deliver only ciphertexts to the cloud computing platform for using RL-based services. We propose a PPRL framework for the cloud computing platform. The proposed framework exploits a cryptosystem based on learning with errors (LWE) for fully homomorphic encryption (FHE). Performance analysis and evaluation for the proposed PPRL framework are conducted in a variety of cloud computing-based intelligent service scenarios.
Federated learning (FL) is a machine learning technique that enables a number of distributed devices to collaboratively train a learning model without sharing their local data. Because the multiple distributed devices deliver only local model parameters trained with local data to a centralized server, FL-based systems can achieve much stronger privacy preservation. Still, however, there exists a possibility that a centralized server or attackers infer/extract privacy-sensitive information using the structure and parameters of local or accumulated learning models. To protect the model parameters, we propose employing HE scheme that can perform arithmetic operations on ciphertexts directly without decryption. Using the HE scheme, the proposed PPFL algorithm enables the centralized server to aggregate encrypted local model parameters without decryption. The proposed algorithm can also allow each node to use a different HE private key in the same FL-based system using a distributed cryptosystem. In addition, for application in various environments, a single server-based PPFL algorithm that can be used in an FL scenario using a single cloud is proposed. The performance analysis and evaluation of the proposed PPFL algorithm are conducted in various cloud computing-based FL service scenarios.|머신 러닝 (Machine learning)은 기계가 학습, 추론, 지각 등을 포함하는 인간의 지적 능력을 구현할 수 있도록 함으로써 인간에게 많은 편리함을 제공할 수 있는 기술이다. 최근 수십년동안 하드웨어 및 소프트웨어 기술들의 획기적인 발전으로 머신 러닝 기술은 여러 분야에서 다양하게 활용되었으며, 이러한 머신 러닝 기술은 인간의 삶에 깊숙하게 영향을 끼치고 있다. 머신 러닝을 구현하기 위해서는 데이터를 이용하여 학습을 수행하기 때문에 머신 러닝에서 데이터의 수집은 필수적인 요소이다. 클라우드 컴퓨팅 (Cloud computing)은 대규모의 데이터 수집 및 연산을 효율적으로 수행할 수 있도록 하는 기술로서, 대규모 데이터 및 연산이 요구되는 머신 러닝 분야에서 매우 중요한 역할을 수행하고 있다. 그러나 데이터는 질병, 금융, 사용자 위치 등의 다양한 개인 정보를 포함할 수 있으므로, 민감한 개인 정보가 포함된 데이터를 이용하는 분야에서의 머신 러닝 기술은 심각한 개인정보 유출 문제를 야기할 수 있다.
이러한 개인 정보와 관련된 문제를 해결하기 위해 암호문만으로 직접 연산을 가능하게 하는 동형 암호화 (Homomorphic encryption) 기법을 이용할 수 있다. 동형 암호화 기술을 기반으로 하여 암호화된 데이터만으로 연산을 수행할 수 있는 머신 러닝 기술을 구현함으로써 민감한 개인 정보를 다루는 분야에서도 동형 암호화를 활용한 머신 러닝 기술 기반 서비스를 제공할 수 있다. 본 논문에서는 이러한 동형 암호화 기법을 이용하여 개인 정보 보호가 가능한 머신 러닝 알고리즘들을 다루며, 구체적으로 동형 암호화를 이용한 개인 정보 보호 강화 학습 (Reinforcement learning) 기법과 개인 정보 보호 연합 학습 (Federated learning) 기법들을 제안한다.
본 논문의 첫 번째 연구에서는 클라우드 컴퓨팅 (Cloud computing) 플랫폼을 위한 개인 정보 보호 강화 학습 알고리즘을 제안한다. 강화 학습은 주어진 환경에서의 정의된 에이전트가 현재의 상태를 인식하여 선택 가능한 행동들 중 보상을 최대화하기 위한 행동을 결정하는 학습 기법이다. 클라우드 컴퓨팅 환경에서 강화 학습 기반의 데이터 중심 서비스를 제공하기 위해서는 사용자와 클라우드 플랫폼 사이에 민감한 개인 정보를 포함하는 사용자 데이터를 교환해야 하기 때문에 심각한 개인 정보 보호 문제가 발생할 수 있다. 개인 정보 보호 문제를 해결하기 위해 클라우드 컴퓨팅 플랫폼이 암호문을 해독하지 않고 산술 연산을 수행할 수 있도록 하는 동형 암호화 방식을 사용하는 것을 고려한다. 사용자는 강화 학습 기반 서비스를 제공받기 위해 동형 암호화를 이용하여 암호화된 데이터만 클라우드 컴퓨팅 플랫폼에 전달한다. 암호화된 데이터를 전달 받은 클라우드 서버는 제안된 개인 정보 보호 강화 학습 알고리즘을 수행하여 개인 정보 유출 없이 강화 학습 기반 서비스를 제공한다. 또한 제안하는 개인 정보 보호 강화 학습 알고리즘에 대한 성능 분석 및 평가를 위해 다양한 클라우드 컴퓨팅 기반 지능형 서비스 시나리오에서 검증을 수행하였다.
본 논문의 두 번째 연구에서는 개인 정보 보호 연합 학습 알고리즘을 제안한다. 연합 학습은 다수의 분산 장치가 로컬 데이터를 공유하지 않고 로컬 데이터로 학습한 모델의 정보를 공유하여 중앙 서버에서 공유된 학습 모델 정보를 통합함으로써 머신 러닝 모델을 학습할 수 있도록 하는 머신 러닝 기법이다. 분산 장치들은 로컬 데이터로 학습된 중간 데이터만 중앙 서버로 전달하기 때문에 연합 학습 기반 시스템은 훨씬 강력한 개인 정보 보호를 달성할 수 있다. 그러나 중앙 서버 또는 공격자가 누적된 중간 데이터를 악용하여 민감한 개인 정보를 추론 및 추출할 가능성이 존재한다. 중앙 서버와 학습에 참여하는 분산 장치들 사이에 공유되는 중간 데이터를 보호하기 위해 동형 암호화 기법을 활용할 수 있다. 제안하는 동형 암호화 기반 개인 정보 보호 연합 학습 알고리즘에서는 중앙 서버가 암호 해독 없이 암호화된 중간 데이터를 집계할 수 있다. 또한 제안하는 알고리즘은 각 분산 장치가 동일한 연합 학습 기반 시스템에서 서로 다른 동형 암호화 키를 사용할 수 있도록 하여 시스템의 보안 수준을 향상시킬 수 있다.
그리고, 다양한 연합 학습 시나리오에서 동형 암호 기반 시스템 구축을 위해 간단한 수치 연산을 사용하여 서로 다른 동형 암호화 키를 사용할 수 있는 단일 클라우드 서버 기반 개인 정보 보호 연합 학습 알고리즘도 구현하였다. 제안하는 개인 정보 보호 연합 학습의 성능 분석과 평가를 위하여 다양한 클라우드 컴퓨팅 기반 연합 학습 서비스 시나리오에서 검증을 수행하였다.
- Author(s)
- Jaehyoung Park
- Issued Date
- 2022
- Type
- Thesis
- URI
- https://scholar.gist.ac.kr/handle/local/19611
- 공개 및 라이선스
-
- 파일 목록
-
Items in Repository are protected by copyright, with all rights reserved, unless otherwise indicated.