전극이 달린 전선이 촘촘히 박힌 모자를 쓴 청년은 조용히 머릿속으로 한 문장을 읽는다. 잠시 후, Siri와 같은 목소리가 들려와서 그의 생각을 텍스트로 번역하려고 시도했다 . "네, 치킨 수프 한 그릇 주세요." 이는 사람의 생각을 단어와 문장으로 번역하는 컴퓨터의 최신 사례이다.
이전에 연구자들은 뇌 활동을 텍스트로 변환하기 위해 뇌에 수술적으로 이식된 임플란트나 부피가 크고 값비싼 기계를 사용했다. 시드니공과대학 연구진이 이번 주 NeurIPS 컨퍼런스에서 발표한 새로운 접근 방식은 비침습적 EEG 캡을 사용하고 1~2명 이상으로 일반화할 수 있다는 점에서 인상적이다.
팀은 두뇌 활동과 언어에 대해 훈련을 받은 DeWave라는 AI 모델을 구축하고 이를 ChatGPT의 기반 기술인 대규모 언어 모델에 연결하여 두뇌 활동을 단어로 변환하는 데 도움을 주었다. arXiv에 게시된 사전 인쇄 에서 이 모델은 약 40%의 정확도로 EEG 생각을 텍스트로 변환하는 이전 최고 점수를 능가했다. 해당 논문의 교신 저자인 Chin-Teng Lin은 MSN 에 최근 정확도를 60%까지 높였다고 말했다. 결과는 아직 동료 검토 중이다.
신뢰성 측면에서 갈 길이 멀지만 생각을 읽고 언어로 번역하는 비침습적 방법의 발전을 보여준다. 팀은 그들의 작업이 부상이나 질병으로 인해 더 이상 의사소통을 할 수 없거나 생각만으로 걷는 로봇이나 로봇 팔과 같은 기계를 지시하는 데 사용할 수 없는 사람들에게 목소리를 줄 수 있다고 믿는다.
내가 무슨 생각을 하는지 맞춰보자.
당신은 생각을 텍스트로 빠른 속도로 번역하는 "마음 읽기" 기계에 대한 헤드라인을 기억할 것입니다. 그러한 노력이 전혀 새로운 것이 아니기 때문이다.
올해 초 스탠포드 연구원들은 ALS로 인해 말을 할 수 있는 능력을 잃은 환자 Pat Bennett과의 연구에 대해 설명했다. 뇌의 두 부분에 4개의 센서를 이식하고 광범위한 훈련을 받은 후 Bennett은 자신의 생각을 분당 62단어의 속도로 텍스트로 변환하여 의사소통할 수 있었다. 이는 같은 팀의 2021년 분당 18단어 기록보다 향상된 수치이다.
놀라운 결과지만 뇌 이식은 위험할 수 있다. 과학자들은 수술 없이 비슷한 결과를 얻고 싶어한다.
올해 또 다른 연구 에서 오스틴에 있는 텍사스 대학의 연구원들은 fMRI라는 뇌 스캐닝 기술로 전환했다. 연구에서 환자들은 이야기를 들으면서 뇌의 혈류를 기록하는 기계에 가만히 누워 있어야 했다. 이 데이터를 사용하여 부분적으로 ChatGPT 조상인 GPT-1을 기반으로 한 알고리즘을 훈련한 후 팀은 시스템을 사용하여 참가자의 뇌 활동을 기반으로 듣고 있는 내용을 추측했다.
시스템의 정확성은 완벽하지 않았고, 각 참가자에 대한 막대한 맞춤화가 필요했으며, fMRI 기계는 부피가 크고 비싸다. 그럼에도 불구하고 이 연구는 생각이 비침습적으로 해독될 수 있으며 최신 AI가 이를 실현하는 데 도움이 될 수 있다는 개념 증명의 역할을 했다.
분류 모자
해리포터 에서 학생들은 마음을 읽는 마법의 모자에 따라 학교에 배정된다. 우리 머글들은 전선과 전극이 뚫린 우스꽝스러워 보이는 수영모를 사용한다. 뇌전도계(EEG) 캡으로 알려진 이 장치는 우리 뇌의 전기적 활동을 읽고 기록한다. 뇌 이식과 달리 수술이 필요하지 않지만 정확도가 상당히 떨어진다. 그렇다면 문제는 유용한 결과를 얻기 위해 신호와 잡음을 분리하는 것이다.
새로운 연구에서 팀은 텍스트를 읽을 때 각각 12명과 18명의 시선 추적 및 EEG 기록이 포함된 두 개의 데이터 세트를 사용했다. 시선 추적 데이터는 시스템이 뇌 활동을 단어별로 분류하는 데 도움이 되었다. 즉, 사람의 눈이 한 단어에서 다음 단어로 빠르게 움직인다는 것은 해당 단어와 관련된 두뇌 활동과 다음 단어와 연관되어야 하는 활동 사이에 중단이 있어야 함을 의미한다.
그런 다음 그들은 이 데이터에 대해 DeWave를 훈련시켰고 시간이 지남에 따라 알고리즘은 특정 뇌파 패턴을 단어와 연관시키는 방법을 배웠다. 마지막으로, 모델의 고유한 출력을 이해하도록 미세 조정된 BART라는 사전 훈련된 대규모 언어 모델의 도움으로 알고리즘의 뇌파-단어 연관성이 다시 문장으로 변환되었다.
테스트에서 DeWave는 원시 뇌파와 단어별로 분할된 뇌파의 번역 모두에서 해당 카테고리의 최고 알고리즘을 능가했다. 후자가 더 정확했지만 영어, 프랑스어 등 언어 간 번역과 음성 인식에 비해 여전히 뒤처져 있다. 그들은 또한 알고리즘이 참가자들 사이에서 유사하게 수행된다는 것을 발견했다. 이전 실험에서는 한 사람에 대한 결과를 보고하거나 극단적인 맞춤화가 필요한 경향이 있었다.
연구팀은 이번 연구가 대규모 언어 모델이 뇌에서 텍스트로의 시스템을 발전시키는 데 도움이 될 수 있다는 증거가 더 많다고 말했다. 공식 연구에서는 상대적으로 오래된 알고리즘을 사용했지만 보충 자료에는 Meta의 원래 Llama 알고리즘을 포함하여 더 큰 모델의 결과가 포함되었다. 흥미롭게도 더 큰 알고리즘은 결과를 크게 향상시키지 못했다.
저자는 "이것은 문제의 복잡성과 LLM을 통해 뇌 활동을 연결하는 과제를 강조합니다"라고 썼으며 앞으로 더 미묘한 연구가 필요하다고 말했다. 그럼에도 불구하고 팀은 자체 시스템을 더욱 발전시켜 아마도 최대 90%의 정확도를 달성할 수 있기를 바라고 있다.
작업은 현장의 진행 상황을 보여준다.
시드니 대학의 Craig Jin은 MSN과 의 인터뷰에서 “사람들은 오랫동안 EEG를 텍스트로 변환하기를 원해 왔으며 팀의 모델은 놀랄 만큼 정확한 정확성을 보여주고 있습니다.”라고 말했다. "몇 년 전에는 EEG를 텍스트로 변환하는 작업이 완전했고 말도 안 되는 일이었습니다."
이미지 출처: 시드니 공과대학교