연구동향정보
제목 [JAMA 최신보고] AI -의료분야 도전: AI가스라이팅, AI망상
글쓴이 관리자
첨부파일

 

[최신 보고 JAMA]  

인공지능(AI)  의료 도전

인공지능(AI) 가스라이팅, 인공지능(AI) 환상

 

 

 

구글 헬스의 최고 임상 책임자인 마이클 하웰박사가 의료 분야에 AI 통합에 대한 인터뷰

 

 

출처 : JAMA Network (2023). September doi:10.1001/jama.2023.19137


 

 

 

JAMA 편집장인 크리스틴 도밍고 박사와 구글(Google)의 보건의료분야 수석 책임자인 마이클 하웰 박사가 보건의료분야에서 인공지능(AI) 가스라이팅(AI gaslighting), 인공지능(AI) 환상 이슈에 대하여 인공지능(AI)과 의학의 교차점 및 통합 문제를 이슈로 진행한 인터뷰 내용이다.

 


 

 

불과 몇달 전 까지만 해도 인공지능(AI) 가스라이팅, 인공지능(AI) 환상 이라는 용어는 몇달 전만 해도 생소한 표현이었다. 하지만 인공지능(AI) 분야가 급속하게 진화함에 따라 의학분야의 인공지능(AI)도 뒤쳐지지 않고 빠르게 발전하고 있다. 그러나 전문가들은 의료분야에서 인공지능(AI)의 진화와 도전을 이해하고 또한 이런한 급속한 변화가 의료와 의료인, 환자에게 어떠한 영향을 미칠 것인지에 대한 이해와 그것이 의료에 어떤 의미를 갖는지 인식하고 논의 할 필요가 있으므로 인터뷰를 진행하게 되었다. 

보건의료에서 인공지능(AI)에 대한 질문을 탐구하기 위해 JAMA와 JAMA 네트워크의 편집장인 크리스틴 도밍고 박사는 구글의 의료분야 수석 임상 책임자인 마이클 하웰 박사를 초청하여 이에 대한 주제로 토론한 내용이 JAMA (2023) 최신호에 발표되어 관심을 끌고있다. 

이번 토론의 주제는 과학의 진보된 기술이 현실에서 의료분야 도구로 변화시키는 인공지능(AI)의 진보에 대해 논의했다. 구글의 의료분야 최고 책임자인 하웰 박사는 구글 의료분야에서 일하기 전에 미국 시카고 대학교의 의학센터 의료 품질 책임자를 역임했다. 그는 100편 이상의 연구 논문 및 책의 저자로서 의료 서비스 제공에 대해 활발하게 연구하고 있다.  아래는 인터뷰의 편집된 버전을 요약한 내용이다.

바빈스-도밍고 박사: 구글 헬스의 수석 임상 책임자로 계신데, 그 직책에 대해 설명해 주세요

하웰 박사: 저희 팀은 의사, 간호사, 심리학자 및 건강 경제학자로 구성된 임상 팀입니다. 구글이 건강에 영향을 미치는 제품을 개발할 때, 우리는 엔지니어, 제품 관리자 및 연구원들과 협력하여 실리콘 밸리도 아니고 의료도 아닌 혼합된 목소리의 제 3의 물결이 되도록 노력합니다.

바빈스-도밍고 박사: 현재 진행 중인 많은 주제에는 의료에 종사하는 사람들이 인공 지능 혁신을 개발하는 사람들과 어떻게 함께 일할 것인지에 대한 부분입니다. 이 두가지 분야가 함께 일해야 합니다. 지금 계신 위치가 그러한 점에서 매력적으로 느껴질 것 같습니다.

하웰 박사: 지금 제가 하고 있는 일은 저의 커리어가운데서 배움의 곡선이 급격하게 성장하는 기회였습니다. 우리는 인공 지능이 보건의료 분야의 많은 것들을 바꿀 것이라고 얘기하지만, 그것은 ‘의사들과 함께’ 여야 한다는 것입니다. 그래서 제 역할 중의 하나는 저도 의사로서 구글 내부에서 그 음성이 되어주는 것 입니다. 

비빈스-도밍고 박사: 의료 분야에서 구글의 대형 언어 모델 적용에 대한 예시를 부탁드립니다. Google은 의료 질문에 정확하게 답변하는 방법에 대해서 작년에 발표된 큰출판물로 많은 관심을 받았습니다. 임상 실무에 종사하는 의료인들에게 작년에 구글에서 발표된 모델들이 앞으로 어떤 일을 할 것으로 기대하며, 그리고 위험 지대는 어디인지 설명해 주실 수 있을까요?

하웰 박사: 저희 팀은 오랫동안 의료 및 인공 지능 분야에서 활동해 왔지만, 3 또는 4 세트의 논문들이 있었다고 말씀 드릴 수 있겠습니다. 2022년 12월에 우리는 Med-PaLM이라는 모델에 대한 프리프린트를 발표했고, 그런 다음 Med-PaLM 2는 5개월 후에 프리프린트로 나왔습니다. 언급하신 논문은 Nature에 실린 것으로, 대부분 첫 번째 프리프린트에 있던 내용들이 피어 리뷰되어 실린 내용니다. 구글팀은 PaLM (Pathways Language Model)이라는 기초 모델과 PaLM 2라는 두 번째 모델을 사용하여 모델이 언어의 표현을 학습하도록 모든 것을 가능하게했습니다. 그 다음에 몇 가지 프롬프트 튜닝과 파인튜닝을 수행하여 모델이 의료 도메인에서 질문에 올바르게 답하도록 더 많은 관심을 기울일 수 있게 노력했습니다. 그리고 우리가 곧 볼 것으로 예상되는 것에 대해 두 가지 실험이 있었습니다. 첫 번째는 오픈 소스로 공개된 몇 가지 항목들이 있으며, 이것은 의료 면허 시험에서 볼 수 있는 질문들과 꽤 유사하고 미국과 인도의 서험과 비교하였습니다. 실제로 이것은 의료 면허 시험은 아니지만, 면허시험과 매우 유사하고  이를 본 사람은 의사 면허 시험과 거의 같음을 인지할 수 있습니다.

이 모델을 개발하기 위해 몇 년 동안 데이터 세트가 벤치마킹되어왔으며, 지속적으로 작업은 진전을 이루었습니다. 의사면허 시험을 통과한다는 것은 대부분이 60% 점수를 얻는 것이라고 말합니다. 그리고 2022년 11월까지 세계 최고는 50%였습니다. 구글의 Med-PaLM 2 논문에서는 67%의 결과가 나왔습니다. 그런 다음 5월에는(불과 몇 달 후에) 86%, 87% 정도의 정확도로 향상되었습니다 — 의사면허 시험의 AI의 답변은 면허 시험 응시자의 상위 1분위에 해당하는 결과로 굉장히 빠른 속도로 진화하고 있음을 나타내었습니다. 하지만, 누구라도 단지 미국 의사 면허 시험만을 통과했다고 그냥 진료를 시작할 수는 없습니다. 그 이후 더 많은 준비가 필요합니다.

그리고 이 논문의 정말 흥미로운 부분은 실제 사람들이 묻는 질문들을 사용했다는 것이었습니다. 사람들이 구글에 오셔서 자주 질문하는 것들입니다. "요실금에 대한 치료법이 있나요? 로제아가 있다면 어떤 식이가 최적인가요?"와 같은 것들입니다. 12월에 그 질문을 AI 모델에게 주고 "몇 단락 정도의 긴 답변을 환자를 위해 작성하도록 요청하였습니다.  그리고 의사에게도 같은 질문을 주고 환자에게 답하는 것처럼 답변하도록 하였습니다. AI의 답변과 의사의 답변을 가져다가 또 다른 의사에게 비식별화된 상태로 주었고, 과학적 합의와의 일치 여부를 포함하여 여러 가지 차원에서 평가를 수행하였습니다. 환자가 답변을 따르게 될 때 입게 될 수 있는 피해 가능성과 피해를 입었다면 얼마나 심각할 수 있는지를 포함하여 답변에 인종이나 인구 통계학적 편향이 있는 증거 등이 평가에 포함되었습니다. 

작년 12월에는 비식별화된 의사들이 대부분의 차원에서 의사들의 답변을 약갼 더 선호했습니다. 하지만 올해 5월에는 9가지 차원 중 8가지 분야에서 의사들의 답변보다 AI 모델의 답변을 훨씬 더 선호한다는 결과가 의사들의 평가에서 나왔습니다. 이것은 얼마나 AI 모델이 빨리 발달하고 있는지의 예시이며, 2년 전에는 분명히 불가능했을 일들이 현실로 매우 신속하게 발생하고 있는 현상입니다.

비빈스-도밍고 박사: 정말 놀랍군요! 특히 Med-PaLM을 아주 훌륭한 병원 의사이자 환자 질문에 대답을 잘하는 뛰어난 의사로 설명하셨다는 점입니다. Med-PaLM은 거의 완벽한 의사가 맞나요? 또한 AI가 의사를 대체하지 않을 것이라고 생각한다고 말씀하셨는데, 그렇다면 이렇게 놀라운 AI 의료를 어떻게 활용해야 할까요? 그리고 AI 의료가 의사를 대체하는 것이 목표가 아니라면 AI 의료의 현실적인 적용은 무엇이 될 수 있나요?

 

하웰 박사: 이 문제를 해결하기 위해 도움이 되는 많은 협력사들과 함께 일하고 있습니다. 간호사, 의사, 호흡기 치료사뿐만 아니라 모든 사람들이 매우 중요한 정보를 기록한 후 나중에 해당 정보를 찾지 못하는데 상당한 시간을 보낸다는 많은 연구 결과가 있습니다.

그래서 저는 진료의사로서 환자 침상 옆이나 인지적 분야와 절차적이고 감정적인 업무에서 벗어날 수 있도록 AI가 지원하는데 도움이 될 수 있을 것으로 예상하고 있습니다. 긜고 시간이 지남에 따라 진료자들이 진단의 고정관념이나 진단 지연과 같은 것을 피하는 데 도움이 되는 AI 툴을 보게 될 것으로 예상합니다. 오랜 기간 동안 간호사와 함께 일한 사람들은 간호사들이 의사들의 어깨를 툭 치면서 "선생님, 그렇게 하려고 했나요? 선생님, 이것에 대해 생각해 보셨나요?" 라는 질문을 받은 경험을 하셨을 것입니다.  나는 그런 질문들 덕분에 도움을 받았습니다.

 

하웰 박사: AI는 피곤하지 않고, 기록에 묻혀있어 사람들이 놓칠 수 있고, 볼 수 없었던 것들을 찾아내는 능력이 있습니다. 그래서 시간이 지남에 따라 우리는 AI를 보조 도구로 보게 될 것입니다. 우리 어머니는 회계사였고, 나는 몇해 동안 여름에 엄마밑에서 장부 업무를 맡았습니다. 지금은 장부라고 불리는 큰 종이 한 장을 기억할 만큼 나이가 들었고, 사람들은 숫자를 적고 계산기로 모든 것을 합산했습니다. 그리고 누군가가 Lotus 1-2-3을 발명했고 결국에는 QuickBooks가 탄생했습니다. 이런 과정에서 회계사의 업무는 바뀌었지만 회계사의 수가 줄어들지는 않았습니다. 회계사는 이러한 과정에서 모든 일이 올바른 방향으로 진행되고 있는지 확인할 수 있습니다. 우리는 의료 AI를 통해서 비슷한 과정을 볼 수 있을 것이라 생각합니다. 

바빈스-도밍고 박사: 우리는 AI 가스라이팅이라는 개념에 대해 들었습니다. AI가 일을 매우 정확하게 수행하는 방법을 학습한 다음 갑자기 잘못된 답을 제공하는 것입니다. 그렇다면 이것이 어떻게 발생하는지, 그리고 어떻게 이를 예방할 수 있는지 설명해주십시오.

 

하웰 박사: 여기에는 이해하기 어려운 몇 가지 사항들이 있습니다. AI  모델들은 본질적으로 다음 단어를 예측합니다. 예를 들면 "보통 사람들은 여기로 가곤 합니다. 이것은 수학 문제처럼 보이며, 이것은 의료 인용이 필요해 보입니다."와 같은 것입니다. 잠시 돌아가서 이러한 모델의 단계에 대해 이야기해 봅시다. 모델의 기초 단계가 있습니다. 여기서 모델은 손에 넣을 수 있는 모든 것을 읽고 세계의 표현을 학습합니다. 때때로 사용되는 스테이지가 있습니다. 이는 다른 데이터를 사용한 파인튜닝이며, 이를 통해 모델의 일부 매개변수를 가중할 수 있습니다. 그리고 프롬프트 튜닝이라고 하는 것이 있습니다. "안녕, 모델, TV 호스트처럼 행동해 봐. 안녕, 모델, 6학년 수업을 가르치는 것처럼 행동해 봐"라고 지시하는 것이 이에 해당하며, 모델은 이에 따라 다르게 행동할 것입니다.

그런 다음 인간 피드백으로 강화 학습이라는 매우 중요한 개념이 있습니다. 이 개념은 모델이 답변을 생성하고 마지막에 누군가가 좋다고 하거나 나쁘다고 할 때, 그리고 그 이유를 어쩌면 제시할 때 사용됩니다. 모델은 이 정보를 사용하여 이를 다시 체인을 통해 이동시킬 수 있으며, 시간이 지남에 따라 "이 뉴런에 더 많은 주의를 기울이고 그 뉴런에는 덜 주의를 기울이세요"라고 합니다. 그래서 강화 학습과 인간 피드백을 잘못 이해하면 모델이 시간이 지남에 따라 변할 수 있습니다. 그리고 모델의 어떤 부분을 개선하면 때로는 다른 부분이 악화될 수 있습니다. 예를 들어 특정 영역의 능력이 향상되면 다른 영역에서는 나빠질 수 있습니다. 예를 들면, 중환자실에서 근무할수록 1차 의료 담당 의사로서의 역량이 떨어질 것과 비교할 수 있습니다.

정리하면 아래와 같습니다.

기초 모델 단계(Foundation Model Stage): 이 단계에서 모델은 다양한 텍스트 데이터에 노출되어 세계의 표현을 학습하고 생성할 수 있습니다. 모델은 이 단계에서 데이터의 패턴과 관계를 학습합니다.

파인튜닝(Fine-Tuning): 기초 단계 후에 모델은 특정 도메인이나 작업과 관련된 특정 데이터를 사용하여 파인튜닝을 거칠 수 있습니다. 이 파인튜닝 과정은 모델의 성능을 특정 영역에서 미세 조정합니다.

프롬프트 튜닝(Prompt Tuning): 프롬프트 튜닝은 모델에게 특정 프롬프트나 지침을 제공하여 원하는 방향으로 모델의 동작을 안내하는 것을 포함합니다. 예를 들어, 모델에게 TV 호스트나 선생님처럼 행동하도록 지시하여 응답을 조절할 수 있습니다.

인간 피드백을 활용한 강화 학습(Reinforcement Learning with Human Feedback): 이것은 모델의 응답이 인간에 의해 평가되고 응답이 좋은지 나쁜지 여부를 나타내며 가능한 경우 그 이유를 제공하는 중요한 개념입니다. 모델은 이 피드백을 사용하여 매개변수를 조정하고 향후 응답을 개선합니다. 이는 원하는 패턴을 강화하고 원하지 않는 패턴을 감소시킴으로써 모델의 동작을 조정하는 것을 포함합니다.

하웰 박사는 또한 인간 피드백을 통한 강화 학습을 통해 이루어진 변경이 일부 측면의 개선과 다른 측면의 악화로 이어질 수 있다고 강조하고 있습니다. 예를 들어, 특정 분야의 전문가를 시뮬레이션하는 모델이 개선되면 다른 도메인에서의 능력이 약화될 수 있다는 것입니다.

 

바빈스-도밍고 박사: 저는 사람들이 챗봇을 조금이라도 사용해본 적이 있다면 망상(hallucination)이라는 개념을 이해할 수 있을 것입니다. 우리가 인용문이나 갑자기 나온 아이디어에 대한 망상을 하는 것입니다. 사람들이 이러한 도구에 지나치게 의존하고 실제로 존재하는 인용을 제공해야 한다는 것을 깨닫지 못하면 출판자들이 지금 우려하는 중요한 문제 중 하나입니다. 대형 언어 모델이 이러한 망상에 이르게 되는 과정에 대해 설명을 부탁드립니다.

하웰 박사: 이것은 정말 중요한 문제입니다. 이 모델들은 다음 단어 예측 엔진으로 훈련됩니다. 그들은 무엇을 해야 할지 모를 때 다음 단어를 예측할 것입니다. 그리고 의료 저널 인용처럼 보이는 것에 도달하면 PubMed에서 검색하지 않습니다. 그들은 임베딩 공간에서 어떻게 보이는지를 기억하고 그럴듯한 내용을 만들어냅니다. 사람들이 이를 완화하기 위해 하는 것은 "이것은 수학 문제처럼 보입니다. 계산기에 물어보세요."라고 말하는 것입니다. 계산기가 답을 얻고 그것을 넣어 줍니다. 또는 "이것은 저널 인용을 해야 할 것 같습니다. 원본 소스에서 확인하고 돌아오세요."라고 하는 것입니다. 이것은 하나의 분야입니다. 이에 대해 더 많은 연구를 원하는 사람들을 위해 진화 중인 분야는 [도구 사용], 근거, 일관성 및 소속성 등입니다. 근거는 다음과 같은 것들이 될 것입니다. "저는 단락을 작성했습니다. 이 문장을 가지고 모델이 이 저널 기사에서 가져왔다고 생각하면 어떨까요?" 만약 두 번째 모델이 그 문장의 단어 자체가 아니라 아이디어가 실제로 이 저널 기사에 반영되어 있다는 증거를 찾는다면, 높은 확률로 "여기 출처에서 왔다고 할 수 있을 것입니다. 출처를 인용하겠습니다." 혹은 "아니요, 그런 증거를 찾을 수 없습니다." 라고 말할 수 있을 것입니다. 그래서 이 부분은 계속 진화할 것이고, 상황은 개선되고 있지만 이러한 모델들과 관련된 근본적인 문제로 남아 있습니다.

바빈스-도밍고 박사: 이제 이러한 기술이 진입할 품질 및 안전 이슈에 대해 이야기해 보겠습니다. 새로운 기술이 장점을 가지지만 일부 차단이 필요할 수 있는 상황에서 환자를 보호할 수 있는 방법에 대해 어떻게 생각해야 할까요? 또한 이러한 모델을 훈련하는 데 사용되는 환자 데이터 유형과 이러한 환경에서 환자를 어떻게 보호해야 하는지에 대한 의견을 말씀해 주십시요.

하웰 박사: 미국에서는 HIPAA(HIPAA) [Health Insurance Portability and Accountability Act]를 통해 개인정보 보호를 하고 있으며, 다른 지역에서는 GDPR(일반 데이터 보호 규정)와 같은 규정이 있습니다. 의료 시스템이나 의료인이 이와 같은 도구를 검토할 때 사용하는 시스템이 이러한 모든 것을 격리할 수 있는지 확인하는 것이 정말 중요합니다. 따라서 클라우드 버킷에서 환자와 관련된 데이터를 어떻게 격리시키느냐는 매우 중요합니다. 이러한 모델은 새로운 종류의 위험을 야기할 수 있습니다. 즉, 큰 모델이 있고 개인 데이터에 대해 일부 교육을 수행하는 경우 모델이 학습하면 한 번에 끝난 내용을 기억할 수 있기 때문에 모델이 고객에게 가중치를 유출할 수 있다는 것입니다. 그런 다음 나중에 응답으로 이를 유출합니다. 따라서 의료 시스템이 그러한 종류의 학습을 분리할 수 있는 기술적 능력을 갖춘 파트너와 협력하는 것이 매우 중요합니다.

우리는 HIPAA 준수로 파트너 사업 계약서에 서명하는 방법 등에 대해 많은 연구를 수행했습니다. 하지만 여기서 사람들이 단순히 PHI(protected health information)를 챗봇에 입력하기만 하면 이와 같은 개인정보 안전의 문제들이 보장이 될 수 있다는 잘못된 이해의 리스크를 인식해야 합니다. 그러므로 견고하고 단단한 인프라를 사용해야 합니다. 이것은 미묘한 차이처럼 들릴 수 있지만 매우 중요합니다.

JAMA, Science, Nature와 같은 저널에 투자하는 이유에 대해 많은 질문을 받습니다. 그 이유는 이러한 연구가 역사상 처음 나타나는 문제 중 일부라고 인식하기 때문입니다. 우리는 작업 내용을 보여주고 수학을 올바르게 하기 위해 동료 평가가 필요합니다. 인터넷의 어두운 구석을 걸러 내더라도, 여전히 우리의 언어는 편견으로 가득합니다. 그래서 모델은 언어의 편견을 배우게 되는데, 그 이유는 언어를 배우기 때문입니다. 두 번째로, 우리는 매달 10억 명 이상의 사람들이 사용하는 많은 제품을 가지고 있고, 대부분의 사용자가 미국에만 있지 않다는 것을 확인할 수 있습니다. 따라서 우리가 직면한 질문은 우리가 이 지구환경에서 건강 개선 방법을 찾으면서 환자 개인 정보와 안전을 어떻게 보호할 것인가 하는 문제입니다.

 

 






 

      의과학연구정보센터(MedRIC) 제공





 

* 본 내용은 MedRIC (www.medric.or.kr)의 연구동향에서 제공되는 내용입니다.



 

 


2023-09-27 오전 10:26:20, 조회수 : 567