AI, 진단 정확도 높지 않아
의사들의 진단 정확도와 동일한 수준
“AI가 즉석에서 환자를 진단하는 것보다 사례 연구를 평가하는 경우 실제 생활에서는 그다지 좋은 성과를 거두지 못할 것이다. AI가 의학적 문제를 진단하는 능력을 평가하기 위해서는 추가 연구가 있어야 하며, 특히 진단과 그에 따른 치료 결정의 후속 효과에 대한 연구가 필요하다.”
AI는 아직 의사의 복잡한 질환 진단 능력을 향상시키는데 도움을 줄 수 없다는 다소 충격적인 새로운 연구가 밝혀졌다.
최근 JAMA Network Open 저널에 발표된 결과에 따르면, 의사들의 진단 정확도는 ChatGPT Plus를 사용하든 사용하지 않든 거의 동일하다는 것이다.
미국 버지니아대학교 의과대학 임상 기술 교수인 앤드류 파슨스 박사는 "이번 연구는 AI만으로도 효과적이고 강력한 진단 도구가 될 수 있음을 보여주지만 인간 의사를 추가하면 실제로 진단 정확도는 떨어지지만 효율성은 향상된다는 사실에 놀랐다."라고 밝혔다.
"이러한 결과는 AI를 가장 잘 사용하는 방법에 대한 공식적인 교육이 필요하다는 것을 의미한다.”라고 덧붙였다.
연구팀은 50명의 의사에게 실제 환자를 기반으로 한 사례 연구를 제공했다. 이 사례에는 병력, 신체검사 및 실험실 검사 결과에 대한 세부 정보가 포함되었다.
의사들은 무작위로 두 그룹으로 나뉘었다. 한 그룹은 이용 가능한 정보와 표준 참고자료에만 근거하여 환자의 상태를 진단했고, 다른 그룹은 ChatGPT Plus를 사용하여 진단을 내렸다.
그 결과 ChatGPT를 사용한 의사는 약 76%의 정확한 진단을 내렸고, AI의 도움을 받지 않은 의사의 경우에도 약 74%의 정확한 진단을 내렸다.
연구팀은 ChatGPT 그룹이 진단을 내리는데 약간 더 빨리 도달했다고 밝혔다. AI의 도움을 받지 않은 그룹의 경우 9.4분이 걸렸는데 반해, 약 8.6분이 소요됐다.
ChatGPT Plus가 단독으로 사례 연구를 수행했을 때 92%가 넘는 정확도를 달성했다.
연구팀은 “그러나 AI가 즉석에서 환자를 진단하는 것보다 사례 연구를 평가하는 경우 실제 생활에서는 그다지 좋은 성과를 거두지 못할 것”이라고 경고했다.
파슨스 박사는 “AI가 의학적 문제를 진단하는 능력을 평가하기 위해서는 추가 연구가 있어야 하며, 특히 진단과 그에 따른 치료 결정의 후속 효과에 대한 연구가 필요하다.”고 설명했다.
그는 "AI가 의료에 더욱 깊이 자리 잡으면서, 이러한 도구를 활용해 환자 치료와 의사 경험을 개선하는 방법을 이해하는 것이 필수적이다. 이번 연구는 임상 환경에서 AI와의 파트너십을 최적화하는 측면에서 해야 할 일이 많다는 것을 시사한다."라고 강조했다.