top of page
33.jpg
55.jpg

KAIST부설 한국과학영재학교 온라인 과학매거진 코스모스

  • 블랙 페이스 북 아이콘
  • 블랙 인스 타 그램 아이콘

ChatGPT, 어떻게 가능한 것일까

ChatGPT는 오픈AI에서 개발한 대형 언어 모델로, GPT-3.5 아키텍처를 기반으로 한다. 이 모델은 막대한 양의 텍스트 데이터를 학습하여 사람과 자연스럽게 대화를 나눌 수 있으며, 다양한 분야에서 유용하게 활용될 수 있다. 예를 들어, ChatGPT는 질문 응답 시스템, 자동 응답 챗봇, 번역기, 요약 도구 등에 사용될 수 있다. 이러한 기술의 발전은 인공지능 분야에서 큰 관심을 받고 있으며, ChatGPT는 이러한 분야에서 뛰어난 성능을 발휘하고 있다. 이 기사에서는 ChatGPT의 기술적 특징과 활용 분야, 그리고 관련 이슈들에 대해 살펴보겠다.


이 기사의 서론을 보고 어떤 생각을 했는가? 사람이 쓴 것이라면 너무 평범해서 별 생각이 들지 않았을 수도 있다. 그런데, 이 서론이 ChatGPT가 작성한 글이라면 어떻겠는가? 앞의 문단은 ChatGPT에게 ChatGPT에 대한 기사의 서론을 작성해달라고 하였더니, 10초도 되지 않아 내놓은 답변이다. 사람이 쓴 것과 구분이 되지도 않는 이러한 ChatGPT는, 대체 어떻게 이렇게 인간처럼 글을 써내려가고, 방대한 정보를 알려주는지, 그리고 어떻게 AI가 쓴 것인지 구분할 수 있을지 궁금하지 않은가?


ChatGPT의 등장
ChatGPT

ChatGPT는 OpenAI에서 만든 챗봇으로 OpenAI의 인공지능 모델 GPT-3.5와 GPT-4를 기반으로 하고 있다. 그리고 두 인공지능 모델은 GPT-3.5의 경우 2022년 11월 30일 베타 버전이 공개되었으며, GPT-4의 경우 2023년 3월 14에 출시되었다. 그리고 ChatGPT는 GPT-3.5 베타 버전이 공개되면서 함께 공개되었다. 현재는 GPT-4가 탑재되어있지만 초기에는 GPT-3.5 모델만 탑재되어있었기에 지금보다 더 잘못된 대답을 하는 경우가 많아 논란이 있기도 하였다. 그럼에도 ChatGPT는 지금까지의 다른 챗봇들과 비교했을 때 정말 방대한 정보를 가지고 있어 수준이 다른 대답을 해주었기에, 등장 시점부터 엄청난 관심을 받았고, 우리나라에서도 올해 들어 많이 이슈가 되었다.


ChatGPT가 가능한 이유

이러한 챗봇을 사용하다보면 정말 궁금해지는 것이 하나 있다. 과연 이들은 내가 하는 질문을 어떻게 알고 딱 맞는 대답을 해주는걸까? 정말 기계가 우리 말을 이해한다고 믿었다면, 동심을 깨서 미안하지만 전혀 그렇지 못하다. 인공지능은 무언가를 제대로 이해하고 있진 못하다. 아직까진 그저 사람이 주는 명령어를 따라 행동하는 로봇일 뿐이기 때문이다. ChatGPT는 쉽게 말해, 엄청난 데이터를 바탕으로 하여 그 데이터 집합 내에서 가장 답변과 유사한 데이터를 뽑아 대답해주는 방식을 채택하고 있다. 그러니까, 어떤 값을 구하고 싶을 때 완벽한 값을 구할 수 없어 근사를 하듯이, ChatGPT도 답변에 최대한 유사한 값으로 근사하여 우리에게 제공하고 있는 것이다. 이러한 인공지능 모델을 대화형 언어 모델(Large Language Model)이라고 부른다.


근사하는 이 과정은 수많은 데이터의 학습을 통해 이루어진다. 보통 인공지능의 학습이라고 말하는 것은 데이터(즉, 문제와 답)를 주어 인공지능 스스로가 이들을 분석함으로 패턴을 깨우치고 이를 바탕으로 다른 문제도 풀어나가는 과정을 말한다. 또는, 오직 문제만 제시하고, 스스로 정답을 찾아가게 하여 그 과정에서 얻은 데이터를 통해 어떻게 해야 정답으로 다가갈 수 있는지 패턴을 분석하는 것이다. ChatGPT 역시 데이터를 학습 시킨 뒤, 여러 문제를 제시하며, 즉 직접 사람과 대화해가며 피드백을 제공하며 훈련되어왔다. 실제로 GPT-3 모델의 경우 약 1750억 개의 매개 변수를 가지고 있으며, 570기가바이트나 되는 텍스트를 기반으로 만들어졌다고 하니, ChatGPT에 현재 사용되고 있는 GPT-3.5 및 GPT-4 모델은 훨씬 더 방대한 양의 데이터를 가지고 있는 것이다. 엄청난 양의 데이터를 사용하였으니, 다른 챗봇에 비해 질문에 더 잘 대답해줄 수 있었던 것이다. 아래 영상을 본다면 분명 인공지능의 학습에 대해 더 잘 이해할 수 있을 것이다. 아래는 학습 중에서도 직접 정답을 찾아가도록 하는 방식을 이용한 것이다.



이처럼 인공지능의 학습에는 방대한 양의 데이터, 혹은 방대한 양의 경험이 필요하게 되므로, 데이터 수집, 또는 다양한 종류의 경험을 제시해주는 것이 중요하게 작용한다. 특히 ChatGPT 역시 GPT 모델에서 인공지능의 학습 알고리즘에는 분명 다양한 방식이 있을 것이다. 그 중, 가장 간단한 머신러닝 알고리즘인 K-NN(K-Nearest Neighborhood) 알고리즘을 살펴보겠다. 이는 데이터를 여러 그룹으로 분류할 때 사용하게 되는 알고리즘이다. 두 부류로 데이터 세트가 분류되어있는 상황에서 새로 데이터가 입력되었을 때, 이를 어떤 그룹으로 분류할 것이냐의 문제에 대한 알고리즘이라고 보면 된다.


K-NN 알고리즘 예시

위와 같은 그림을 생각해보자. 삼각형 모양의 데이터가 새로 입력된 데이터라고 할 때, 주변의 가장 가까운 K개의 다른 데이터들이 어떤 그룹에 속해있는지를 통해 새로 입력된 데이터가 어떤 그룹일지 판단하는 알고리즘인 것이다. 물론 그렇기에, K를 어떻게 설정할지가 중요하게 되며, 두 개의 그룹이 있는 경우 분류가 되지 않는 상황이 없도록 홀수로 설정하는 것이 좋을 것이며, 대부분의 경우 데이터 전체의 수의 제곱근을 값으로 취한다. 이러한 K-NN 알고리즘은 매우 단순하지만 데이터의 특징을 직접적으로 이해하기에는 어려움이 있다. 그럼에도, 이는 그림이나 얼굴 등의 인식, 알고리즘 추천 등 다양한 분야에 쓰이는 알고리즘이다.


AI를 활용한 표절 논란

ChatGPT가 이슈가 되는 만큼, 그리고 그 성능이 매우 뛰어난 만큼, 이를 이용하여 창작물, 특히 과제를 하였을 때 ChatGPT가 만든 것인지 확인할 수 있느냐는 중요한 이슈가 되고 있다. 만일 ChatGPT가 쓴 글을 그대로 사용한다면 그것은 직접 만들어낸 창작물이 아닌 표절을 한 것이기 때문에 문제가 될 것이다. 그리고, 이를 구분할 수 있는 기술은 충분히 가능하다.


AI와 인간을 구분할 수 있다면?

ChatGPT가 쓴 글과 사람이 쓴 글을 구분하기 위해서는 ChatGPT가 문장을 만드는 원리를 우선적으로 이해해야한다. ChatGPT가 문장을 쓸 때에는 정말 다양한 단어 중에서 랜덤하게 단어를 선택해서 사람에게 대답을 내놓게 된다. 많이 알려져있다시피, 세상에는 정말 랜덤한 것이 존재하지 않는다. 프로그램 상으로도 역시 진짜 랜덤한 것은 구현할 수 없다. 그렇기에 프로그램에서는 시드라는 것을 만들어 이 시드를 바탕으로 랜덤한 결과를 내놓도록 한다. 그렇다면, 시드를 상징하는 수, 즉 시드값을 모르는 사람들의 입장에서는 결과값이 랜덤하게 보일 것이기 때문이다. 반대로, 시드값을 안다면 그 시드값이 가지는 배열대로 결과값이 나타나게 될 것이기에 결과를 예측할 수 있다.


ChatGPT도 마찬가지이다. 여러 선택을 진행함에 있어 특정 시드를 통해 단어를 선택하게 된다. 따라서, Open AI에서는 시드값을 알 수 있기에, 이를 토대로 그 문장들이 ChatGPT가 만든 것인지 확인할 수 있는 것이다. 물론 우연히 겹칠 수도 있겠지만, 단어를 선택할 수 있는 수는 엄청나고, 만일 글의 길이가 길다면 모든 문장에서 사용한 단어와 단어의 순서가 모두 같게 되기에는 확률이 너무나도 낮기 때문에 표절로 간주하는 것이 타당하게 되는 것이다. 실제로도, 이를 검사하기 위한 방안이 만들어지고 있다고 하니, 금방 ChatGPT가 쓴 글을 구분하는 것이 가능해질 것으로 보인다.


ChatGPT의 활용 방안

ChatGPT는 분명 강력한 도구이며, 충분히 다방면으로 활용할 수 있는 도구이다. 그렇지만 강력한 도구인 만큼 많은 악용될 여지가 있기에 조심할 필요가 있다. ChatGPT에서 위험한 내용의 질문은 막고 있으나, 우회에서 질문할 수 있기에 범죄와 관련해 악용될 가능성이 있으므로, 이를 인지하고 기업적, 국가적 차원에서 막기 위해 노력할 필요성이 있다. 개인적으로 사용함에 있어서는 ChatGPT가 강력하다고 만능인 것은 아니기에, 이 점을 반드시 유의해두고 사용해야 한다. 마냥 ChatGPT를 신뢰하고 사용해서는 안되는 것이다. 그렇기에, ChatGPT는 하나의 자료 검색 수단으로 사용하고, 이외에 다른 자료들도 곁들어 사용하는 것이 적절할 것으로 보인다. 즉, ChatGPT로 1차적인 자료조사를 진행한 뒤, 그 뒤에 부가적으로 필요한 내용에 대해 조사해보면 좋을 것이라 생각된다. 또한, 현재 인터넷에 ChatGPT를 활용하여 다양한 기능을 할 수 있는 방식들이 많이 소개되어있는데, 이를 활용한다면 여러 업무를 더 효율적으로 수행할 수 있을 것이다. 부디 ChatGPT를 현명하게 사용하여 자신을 도와주는 어시스턴트와 같이 사용하길 바란다.


 

정지훈 학생기자 | Physics & Earth Science | 지식더하기


참고자료

[1] https://seo.tbwakorea.com/blog/

[2] https://www.sciencetimes.co.kr/

[3] https://zdnet.co.kr/view/?no=20220711172735

[4] https://rebro.kr/

[5] https://youtu.be/TIGQ5pFVDfk


첨부한 이미지 출처

[1] https://www.tsvcap.com/

[2] https://rebro.kr/


첨부한 동영상 출처

[1] https://www.youtube.com/watch?v=v3UBlEJDXR0





ⓒ KAIST부설 한국과학영재학교 온라인 과학매거진 KOSMOS

조회수 487회댓글 0개

최근 게시물

전체 보기
bottom of page