33.jpg
55.jpg

KAIST부설 한국과학영재학교 온라인 과학매거진 코스모스

  • 블랙 페이스 북 아이콘
  • 블랙 인스 타 그램 아이콘

빅데이터, 수학을 하다

빅데이터, 분명 한 번쯤은 들어본 적 있는 단어일 것이다. 빅데이터(“Big Data”)란, 말 그대로 매우 방대한 양(“Big”)의 데이터(“Data”)를 의미한다.


빅데이터: “다양한 형태의 데이터를 목적에 맞게 분석함으로써 해당 분야의 필요 지식을 추출하여 전략적 의사 결정에 활용하거나 문제 해결에 이용하는 제반 행위를 포괄적으로 이르는 말, 기존 데이터베이스 관리도구의 능력을 넘어서는 대량의 정형 또는 비정형의 데이터로부터 가치를 추출하고 결과를 분석하는 기술” (출처: 네이버 지식백과 및 티스토리)

이러한 데이터들이 있다고 그냥 두면 아무 의미도 없다. 이러한 데이터들을 바탕으로 의미 있는 결론을 도출해내는 것이 중요한 것이다. 예전에 비해 인터넷을 사용하는 빈도가 증가하고 있고, 이에 따라 검색 양도 크게 증가하다. 특히, 검색 기록, 방문 기록 등 인터넷 상에서 다양한 데이터들을 수집하게 되면서, 수집한 데이터의 양이 기하급수적으로 늘어나게 되었다. 이러한 많은 양의 데이터를 분석하여 사람들이 어떤 것을 원하는지, 어떠한 것에 관심이 많은지 등을 알아낼 수 있어, 이러한 데이터들을 분석하여 사용자에게 맞는 맞춤 광고나 맞춤 동영상 추천, 맞춤 상품 추천 등을 내놓는 것이 중요하다. 이러한 빅데이터는 유튜브, 검색 엔진, 인터넷 쇼핑 사이트 등 다양한 곳에서 사용되고 있는데, 이러한 빅데이터에 대해 자세히 알아보도록 하겠다.



빅데이터의 특성

빅데이터에는 일곱 가지 특성이 있다. 처음 빅데이터를 정의할 때, 세 가지 특성, 규모(Volume), 속도(Velocity), 다양성(Variety)만 있었지만, 이후 신뢰성(Veracity)와 가치(Value), 정확성(Validity)와 휘발성(Volatility)이 추가되었다. 빅데이터의 여러 특성 중 특히 처음 정의될 때 말한 세 가지 특성, 크기, 속도, 다양성이 가장 중요하다.


빅데이터의 세 가지 특성 (각 특성의 앞 글자를 따서 3V라 부르기도 한다.)

규모는 데이터의 양, 즉 데이터의 크기, 속도는 데이터를 빠르게 수집, 처리, 분석, 유통 등을 하는 특성, 다양성은 다양한 종류의 데이터를 수용하고 수집하는 속성을 의미한다. 데이터가 쌓이는 속도는 매우 빠르므로, 빅데이터의 크기는 일반적으로 수십 테라 바이트(TB) 이상의 규모로 매우 큰데, 실시간으로 수집, 처리, 분석, 유통 등이 매우 빠르게 가능해야한다. 이렇게 데이터가 계속 쌓이면서 다양한 종류의 데이터가 수집된다. 참고로, 데이터는 종류에 따라 정형, 비정형, 반정형으로 나눌 수 있다. 나머지 네 가지 특성에 대해서도 알아보도록 하자. 신뢰성은 데이터를 신뢰할 수 있는 정도, 가치는 유용한 정도, 정확성은 타당한 데이터인지 판단하는 것, 휘발성은 데이터의 지속성을 의미한다. 이러한 특성들을 종합하여 2018년에는 데이터 처리를 위해 병렬 컴퓨팅 도구가 필요한 데이터로 정의되기도 하였다. 계속 빅데이터의 정의가 변하고, 특성이 추가되는 것은 관점의 차이이다. 빅데이터가 이렇게 다양한 특성을 가지고 있긴 하지만, 앞에서 말했듯이 가장 중요한 것은 첫 세 가지 특성인 규모, 속도, 다양성이다.

빅데이터와 수학의 연관성

빅데이터를 분석하는데 있어서 여러 수학적 지식들이 요구되기도 한다. 대표적으로는 통계학, 위상수학, 미적분학, 선형대수학 등이 쓰이며, 어떤 점을 특히 주목할 것인가에 따라 여러 수학 지식들이 쓰이기도 한다. 이중에서 특히 통계학과 위상수학에 대해서 알아보도록 하겠다. 자세히 말하기에 앞서 간단히 소개해 보자면, 통계학은 데이터에서 의미를 찾아내는 학문에 해당하고, 위상수학은 데이터를 단순화하는 도구에 해당한다.

통계학, 데이터를 분석하다

데이터의 양이 매우 많기 때문에 많은 양의 자료들 사이의 의미를 찾아내기 위해 자료를 정렬할 필요가 있다. 이를 위해 우리는 통계학을 사용하게 된다. 통계학은 수집한 자료를 정리하고 과학적으로 분석하여 결론을 도출하는 학문이다. 통계는 수집한 자료를 이용해 어떤 사실의 참, 거짓을 판정하므로 이를 통해 사회적 현상을 수학적으로 설명할 수 있다. 통계학에서 가장 기초적인 내용은 도수분포표이다. 중학교 수학 교과서에도 간단하게 나오는 내용일 것이다. 도수분포표는 통계 표현 방법 중 하나로, 도수, 즉, 자료의 분포 상태를 나타내는 표이다. 참고로, 변량은 자료를 수량으로 나타낸 것, 계급은 변량을 일정한 간격으로 나눈 구간, 계급의 크기는 각 구간의 간격을 의미한다. 도수분포표는 자료의 분포 범위를 구한 후, 적절히 계급을 같은 간격으로 잘라 계급의 크기와 개수를 정한 뒤, 아래 그림과 같이 표로 나타내어진다.

K 대학교 남학생 20명의 키를 나타낸 도수분포표

도수분포표로 나타내어보면 자료를 한눈에 보기 쉽게 정리할 수 있다는 장점이 있다. 위 사진의 자료에서 남학생들의 키가 나열되어 있다고 생각해보자. 그것과 위 사진을 비교해보면 더 잘 느낄 수 있을 것이다. 이러한 통계를 통해 데이터를 더 쉽게 분석할 수 있고, 분명 빅데이터에 많은 도움이 된다.

위상수학, 데이터를 단순화하다

데이터의 양이 많아지고, 데이터의 복잡도가 높아지면서 데이터 간 인과관계가 복잡해지므로 분석하거나 처리하는데 시간이 더 많이 걸리게 된다. 따라서 속도를 높이기 위해 데이터를 단순화해야한다. 위상수학은 “복잡한 현상을 간단한 인과관계로 모델링할 수 있는 도구”이다. 위상수학은 같은 형태의 사물들 사이의 공통적인 성질을 연구하는 학문으로, 양과 크기와는 별개로 위치와 형상에 관한 학문이라고 할 수 있다. 다시 말해, 어떤 도형을 자르거나 붙이지 않고, 구부리거나 늘이고 줄이는 등의 변형에 의해 또 다른 도형을 만들었을 때, 그 두 도형을 같은 것으로 생각한다는 것이다.


도넛 모양을 자르거나 붙이는 것이 아닌, 늘이거나 구부리는 등의 변형을 통해 손잡이가 달린 머그컵 모양을 만들 수 있다. 위상수학을 설명하는 가장 대표적인 예시이다.

이러한 위상수학이 어떻게 데이터를 단순화한다는 것인가. 바로 패턴 인식을 통해 불필요한 경우를 배제하여 소수의 필요한 데이터에 집중하는 것이다. 이로써, 거대했던 규모의 데이터가 작은 규모로 바뀌게 되지만, 중요한 정보 및 자료의 손실은 최소화할 수 있는 것이다. 이와 같이 데이터를 단순화시키면 분석의 질은 유지하면서 분석 시간을 줄일 수 있는 것이다. 이러한 방식을 적용한 예로는 미술 위조 작품 감정이 있다. 위작을 했을 경우, 원작과 동일해야한다는 강박관념 때문에 선을 그릴 때 주저함이 있을 것이므로 주저함의 정도를 추적하여 감정할 수 있었던 것이다. 또 다른 예로는 CCTV 영상의 노이즈를 제거하여 영상의 선명도를 높이는 것, 지문 비교 등이 있다.

빅데이터의 활용과 그 가치

빅데이터의 대표적인 활용 사례로는, ‘독감 예측’이 있다. 구글에서 ‘감기 증상’ 등 독감과 관련된 단어가 검색되는 양을 바탕으로 하여 독감의 확산 속도를 질병통제예방센터보다 빠르게 예측하였다. 이와 같이 빅데이터는 어떠한 사실을 예측할 때 많이 활용된다. 또 다른 예시로는 새로운 질병에 대한 약 처방, 범죄율이 높아 순찰이 필요한 시간대와 장소를 찾아 그 시간대와 장소에 범죄 예방 인력 강화, 개인의 소비 성향을 파악하여 맞춤형 광고 제공,교통량 예측 시스템 등이 있다. 다양한 예시들을 보면, 빅데이터는 의학, 치안, 마케팅을 비롯한 여러 가지 분야에서 사용될 수 있음을 알 수 있다.

전문가들은 빅데이터에 대해 “10년 안에 세상을 바꿀 가장 중요한 기술", “경쟁력을 좌우할 21세기 원유”, “앞으로는 이를 바탕으로 의사결정 자동화가 이루어질 것" 이라고 말하며 빅데이터 기술이 중요하다는 것을 강조하고 있다. 실제로 빅데이터 기술을 여러 분야에 활용하면서 훨씬 더 빠른 속도로 예측이 가능해지고, 여러 장점을 준다.


앞에서 말했듯이, 여러 전문가들은 빅데이터는 앞으로 시간이 지남에 따라 점점 더 중요해질 기술이며, 세상을 바꿀 기술이라고 말한다. 빅데이터는 우리 삶에 있어서 조금씩 중요해지고 있으며, 빅데이터 기술이 발전함에 따라 우리 삶에 더 녹아들 것이다. 앞으로 더 중요해질 빅데이터에 조금 더 관심을 가져보는 것은 어떨까?

정지훈 학생기자 | Mathmatics | 지식더하기


참고자료

[1] 네이버 지식백과, https://terms.naver.com/

[2] https://ikkison.tistory.com/

[3] https://tech95.kr/

[4] 네이버 블로그(EBS Math) https://m.blog.naver.com/

[5] https://drhongdatanote.tistory.com/


첨부 이미지 출처

[1] http://news.kmib.co.kr/

[2] https://ynebula.tistory.com/

[3] https://classicismist.blogspot.com/

[4] https://jjycjnmath.tistory.com/


첨부 동영상 출처

[1] https://www.youtube.com/watch?v=l2RBzee3Ag4

[2] https://www.youtube.com/watch?v=DQFj41o_Bhs


ⓒ KAIST부설 한국과학영재학교 온라인 과학매거진 KOSMOS

조회 64회댓글 0개

최근 게시물

전체 보기