논문만 잘쓰면 되지? 의료 데이터는 의도에 의해 생성되고, 맥락에 의해 생략된다.

/

작년 봄 즈음, 특강수업이 있었습니다. 병원에서 의료 머신러닝을 개발하시는 어떤 교수님이, 임상에서 쓰기 어려운 변수를 input 변수로 넣은것을 보고, 강의 끝나기 전에 워크플로우상 적용이 어렵지 않겠느냐는 질문했습니다. 그 답변은 이러했습니다.

논문만 잘 쓰면 되지.

정말인가요?

인공지능 분야는 2차례의 침체기를 겪었습니다. 그 이유는 바로, 인공지능이라는 이름에 걸맡는 일을 해주지 못했기 때문입니다. 상술한 교수님과 같은 생각을 가진 연구자들이 늘어나, 의료인공지능 분야의 “대실망” 기가 오지 않도록 걱정하는 마음으로, 글을 시작 해 봅니다.


의료진은 환자를 사정하고, 진단하고, 치료합니다.

언뜻 맞는 말인것 같지만, 데이터에 따르면 이색 결론이 나옵니다. 의료진의 전체 업무시간 가운데 약 40% 가량은 환자에 대한 “기록”을 하는데 쓴다네요. 이제야 의료진의 burn out의 원인중 하나로 EMR이 꼽히는 이유가 이해가 되기 시작하네요. 특히 의료진들을 짜내서, 가까스로 시스템을 굴리는 대한민국의 의사/간호사들은 환자 치료하기에도 바쁜데 기록에 대한 부담이 더더욱 크게 다가올 것 같습니다.. 의료진은 주 52시간 제한도 없죠..

이런 이유로, EMR은 많은 정보들이 생략되어 있습니다.

119를 타고 응급실에 내원한 환자의 예를 통해 살펴볼까 합니다. 예진실 간호사는 환자가 예진실에 들어오고 응급실로 나가는 짧은 시간동안 대화를 시도합니다.

(잠에서 깨며) 가슴이 아파서요. 어지럽고, 춥고, 온 몸이 다 너무 아파요. 특히요? 머리, 목, 어께, 등허리도 아프고… . (혈압계를 감으며) 아 다리도 5일 전부터 아팠어요. 너무 추워요. (열 재며)

아차 – 필요한 정보를 다 못얻었네요. 마지막으로 간호사는 한차례 더 묻습니다.

가슴 부위 정확히 어디가 아파요? 등이나 팔로 통증이 퍼져나가는것 같아요? 부딪히거나 하신 기억 있으세요?

약 2분여의 대화를 통해, 예진실 간호사는 그 전문성을 살려 다음과 같이 환자의 여러 의학적 문제를 파악합니다. 그리고 중요도 순으로 sorting을 하죠.

  • 주증상: suspicious cardiogenic chest pain
  • 부증상:
    • Low BP,
    • drowsy,
    • dizzness
    • G.W.,
    • pain (head, neck, shoulder, back, both L/E),
    • pale & wet skin.
  • 주증상: 심장에서 기인한 것 같은 흉통
  • 부증상
    • 저혈압
    • 잠자려는경향
    • 어지럼
    • 전신쇠약
    • 여기저기 통증
    • 창백하고 축축한 피부

안타깝게도 이 모든 과정은 담당간호사의 머리속에서만 이뤄집니다. 간호사는 환자에게 필요한 조치를 취한 후, 마침내 기록을 시작합니다. 기록에 남는건 다음과 같은 짧은 내용입니다.

  • CC: Cardiogenic Chest pain (NRS 8)
  • level 2
  • 90/60 – 110 – 22 – 36.5 – 95

해석하면: 심장에서 기인한 것으로 의심되는 가슴통증이 있고, 죽을만큼 아파하며, 급히 치료를 위해 응급실로 들어가야 하는 중증도임 – 이랄까요?

이 정보 외, (대화 양상, 안색, 쎄한 느낌 등) 다른 정보는 주치의나에게 유선으로 전달되면 다행일 뿐, EMR에는 남는법이 없습니다.

의료 현장에서 생성되는 거의 모든 데이터는 이런 식입니다. 의도에 의해 생성되고, 의료진은 기록을 버거워 하며, 대다수의 정보는 기록이 생략된다는 점을 시사합니다. 모든 의료데이터 분석가는 이를 이해해야 합니다.


의료 머신러닝 이야기를 해 봅시다.

  • 응급실 방문 환자에게, 활력징후와 lab 데이터를 활용하여, 환자의 24시간 이내 사망 혹은 중환자실 입실을 확률을 예측하는 의료 머신러닝 알고리즘의 개발.

명확하고 측정 가능한 outcome, 관련한 좋은 input, 몇만건은 족히 획득 가능한 outcome 데이터 수 까지, 3박자를 다 갖춘 좋은 머신러닝 주제입니다.

그 결과 알고리즘도 잘 학습시켰어요. 주요 성능지표를 보니 AUROC가 0.95로 높은 판별력을 가지고 있습니다. 논문화가 충분히 가능하겠군요!!

조금 세세하게 보니, 활력징후가 자주 처방 될수록, 또 특정 검사가 처방될수록 고위험 환자라고 결론을 내리고 있는데… 조금 쎄 하네요… 근데 뭐 큰일이라도 날려고요? “논문만 잘 쓰면 되죠”

자 이제 임상 적용하였다고 가정 해 보겠습니다. 근데, 의사들이 자꾸 불평합니다. 이미 알고있는데 왜 자꾸 경보를 띄우냐고. 간호사들도 불평합니다, 환자 이미 중환자실 갔는데 왜 이제야 경보가 뜨냐고.

왜일까요?

의사는 환자가 나빠질것 같아 특정 검사를 처방합니다. 간호사는 의사의 처방이 없더라도 환자의 상태가 나빠질 것으로 예상하면 활력징후를 더 자주 잽니다. 이미 의료진에 의해 왜곡된 맥락을 지니고 있는 정보를 학습했으니, 의사가 놓친 환자를 찾아주기는 커녕, 이미 의사가 고위험이라고 생각한 사람만 다시한번 확인해 주는 셈이었네요.

근데 간호사들의 불평은 이상합니다. 이미 다 중환자실 보내놨는데 경보가 뜬다니요? 환자가 갑자기 나빠져서, 응급처치를 정신없이 합니다. 그래도 기록은 해야 한다는 생각에, bed side에서 중요한 정보만 반창고에 주욱 뜯어서, 팔에 붙이고 적어놓습니다. 5시 31분 70/40-50, 아트로핀 1@ 정맥주사 등등. 중증 환자기에, 환자의 의사결정에 필요한 거의 모든 의료진은 bed side에서 의사결정을 하고 있기에, EMR 기록은 현 시점에서는 중요치도, 필요치도 않습니다. 30분 후, 환자를 중환자실에 가까스로 올린 30분 후, 환자가 응급실에서 나갔으니 전산을 없애기 전에 못다한 기록을 하기 시작합니다.

자주 측정한, 상태가 나쁜 vital sign은 이제서야 EMR에 재표현됩니다. 이미 환자는 가고 없는데, 이제서야 고위험 군이라며 알려주는 경보는, 너무나 올바르지 않은 타이밍에 울렸군요…

그렇다면 이 알고리즘은 – 의료진이 놓치는 환자를 돕고 있는 걸까요?아니면 안그래도 바쁘고, 많은 경보 속에서 정신없는 의료진에게 또다른 번거로운 방해거리가 된건 아닐까요? 이를 CDSS 분야에서는 unintended consequence 라고 합니다. 약물의 투여과정에서 1번의 방해가 간호사의 투약오류 확률을 5% 이상 올린다는 경험적 증거와 함께 해석하면, 어쩌면 이 예시 알고리즘은 환자에게 해를 가할 수 있는 충분한 잠재력을 가지고 있을지 모르겠습니다.


언젠가 말씀드릴 기회가 있겠지만, 의료인공지능 분야는 이미 많은 약점을 보이고 있습니다. 데이터 양의 절대수치가 여타 산업에 비해 적은것과, 필연적으로 개인적 민감 정보를 다루는데 따르는 윤리적 이슈와 같은 우리가 바꿀 수 없는 업의 본질적 제한점도 다수입니다.

그렇기 때문에 의료 정보학 연구자는 보다 더 진지하게, 임상을 성찰해 가면서 의료 인공지능 알고리즘 개발에 착수할 필요가 있을 것 같습니다. 논문이 전부라는 식의 가벼운 접근은, 진지하게 이 분야를 대하고 있는 여러 연구자들도 양치기 소년으로 만들 수 있는 위험이 너무도 크기에요.

Leave a Comment