2007년 한 포털사이트에 딱새 사진과 함께 ‘이게 무슨 새냐’는 질문이 올라왔다. ‘화질구지네요(화질이 안 좋아서 모르겠다)’라는 답변을 본 누리꾼은 새 이름이 ‘화질구지’라고 잘못 이해했고, 이후 저화질의 사진을 첨부한 게시물에 ‘제목.hwajilguji’로 쓰며 인터넷용어로 자리 잡았다.
요즘은 고화질로 찍은 사진을 보았을 때 무엇으로 찍었는지 물어보면 ‘휴대폰 카메라(폰카)’라는 대답을 심심치 않게 듣게 된다. 신형 휴대폰의 우수성을 홍보하기 위한 기준으로 카메라의 성능을 제시하는 경우가 많을 정도로 고화질 영상 획득에 대한 관심도가 높아지고 있다.
한편 이렇게 카메라 기술이 빠르게 발달하고 있음에도 어두운 밤 폐쇄회로(CC)TV에 찍힌 물체가 무엇인지 구분할 수 없을 만큼 잘 보이지 않거나, 화질이 좋지 않아 정확히 어떤 상황인지 알기 어려운 경우 또한 흔하다. 물론 고화질의 카메라도 조명 조건이 불규칙한 경우, 특히 밤과 같은 저조도 환경에서는 여전히 고화질 영상 획득에 어려움이 있다. CCTV나 블랙박스는 초고화질 카메라를 사용하는 게 드물어 이런 일이 허다하다. 보안용으로 사용되는 CCTV나 블랙박스의 경우 밤에 사건사고가 일어날 확률이 높기 때문에 어두운 조명에도 강건한 영상을 획득할 수 있어야 하지만 보안용 카메라에 고성능의 렌즈나 하드웨어를 사용하는 것은 현실적으로 어렵다. 이를 해결하기 위해 컴퓨터 비전 분야에서는 하드웨어 구성에 대한 개선이 아니라 소프트웨어적으로 화질을 개선하기 위한 연구가 계속되고 있다.
전통적으로 화질개선을 위해서는 노이즈를 제거하거나 영상의 조명성분만 따로 추출해 이를 최적화하는 기법을 주로 사용하였다. 하지만 화질이 좋지 않은 원본 영상과 화질이 좋은 영상 간에 상관관계를 정의하는 것은 매우 어려운 일이고, 과도하게 화질을 개선하려 하면 오히려 노이즈가 증폭돼 화질이 나빠지는 현상이 발생하기도 했다. 화질을 개선하려면 화질이 나쁜 영상과 화질이 좋은 영상 사이의 상관관계를 알 수 있어야 개선이 가능한데 이런 복잡한 비선형적인 관계를 사람이 정의하기란 쉽지 않다. 특히 영상 속 피사체는 더 잘 보이도록 개선하고, 노이즈는 잘 보이지 않도록 사라지게 만들어야 하는데 자동으로 영상 속 피사체와 노이즈를 구분하는 것은 현실적으로 어렵다.
하지만 AI기술을 적용해 화질을 개선하면 원본 영상과 화질이 개선된 영상 사이의 관계를 사람이 직접 정의할 필요가 없기 때문에 비교적 손쉽게 화질을 개선할 수 있다. 영상 인식 분야에서 많이 사용되고 있는 CNN(Convolutional Neural Network)을 영상 개선에 적용할 수 있는데 주로 CNN을 인코더-디코더(Encoder-Decoder)구조로 만들어 사용하게 된다. 인코더는 저화질 영상에서 피사체와 같이 중요하고 의미있는 특징은 추출해 유지하고, 노이즈나 특징이 없는 밋밋한 영역은 제외하여 영상이 가진 잠재 특징(latent features)을 추출한다. 이후 디코더는 추출된 잠재 특징을 고화질의 영상으로 복원해 내는데, 이때 고화질 영상에 가까워지도록 손실 함수를 정의해 놓고 이를 최소화하는 방향으로 영상을 생성하게 된다. 그럼 이 과정에서 원본 영상의 변질이나 왜곡없이 고화질의 영상을 구현할 수 있게 된다.
물론 CNN을 기반으로 한 화질 개선은 성공적인 화질 개선을 수행할 수는 있지만 저화질 영상과 고화질 영상 간의 상관관계를 학습하기 위한 데이터가 꼭 필요하다는 문제점도 있다. 이런 데이터의 문제를 효과적으로 극복할 수 있다면, AI 기술 기반 영상 화질 개선 방법이 CCTV나 블랙박스 영상에서 화질의 한계로 해결하지 못하는 다양한 사건·사고들을 더 명확히 해결할 수 있을 것으로 기대된다.
*[정소영의 AI이야기]가 이번 회를 끝으로 막을 내립니다. 그동안 애독해주신 독자 여러분께 감사드립니다. 2주 후부터는 [이은경의 생명, 과학]이 연재됩니다.