• 서울
    B
    12℃
    미세먼지
  • 경기
    Y
    9℃
    미세먼지
  • 인천
    B
    10℃
    미세먼지
  • 광주
    Y
    11℃
    미세먼지
  • 대전
    B
    미세먼지
  • 대구
    B
    미세먼지
  • 울산
    B
    미세먼지
  • 부산
    Y
    13℃
    미세먼지
  • 강원
    B
    미세먼지
  • 충북
    B
    미세먼지
  • 충남
    Y
    9℃
    미세먼지
  • 전북
    B
    미세먼지
  • 전남
    H
    11℃
    미세먼지
  • 경북
    Y
    13℃
    미세먼지
  • 경남
    H
    13℃
    미세먼지
  • 제주
    H
    14℃
    미세먼지
  • 세종
    B
    10℃
    미세먼지
최종편집2024-04-25 19:18 (목) 기사제보 구독신청
엔씨소프트, 세계 최초 ‘AI 대화 데이터셋’ 공개
엔씨소프트, 세계 최초 ‘AI 대화 데이터셋’ 공개
  • 정서영 기자
  • 승인 2022.04.14 14:21
  • 댓글 0
이 기사를 공유합니다

사용자 페르소나와 외부 지식 활용 ‘데이터셋’ 구축
10월 전산언어학회 ‘COLING 2022’ 공동 워크숍 개최
포커스 데이터셋은 사용자의 배경 지식인 페르소나와 외부 지식인 위키피디아 지식을 활용해 대화를 구성한다.<엔씨소프트>

[인사이트코리아=정서영 기자] 엔씨소프트(이하 엔씨)가 고려대 임희석 교수 연구팀과 공동연구를 통해 구축한 AI 대화 데이터 ‘포커스 데이터셋(FoCus Dataset)’을 공개했다.

14일 엔씨에 따르면 포커스 데이터셋은 사용자 개인의 페르소나와 외부 지식을 모두 활용하는 세계 최초의 AI 대화 데이터셋이다. 약 8000여개의 다양한 주제를 다룬 1만5000개 이상의 대화로 구성돼 있다.

이를 적용한 AI는 대화 상대의 경험·선호·흥미 등을 파악하면서 위키피디아에서 이야기 주제에 대한 최신 지식을 실시간으로 습득해 자연스러운 대화를 할 수 있다. 이 모델은 초거대 언어 모델을 사용하지 않고도 같은 성능의 대화 기술 구현이 가능한 것이 특징이다. 현재 일반적인 대용량 언어모델은 학습과 추론에 큰 비용이 소요돼 실시간 지식과 개인의 경험을 반영하는 데 한계가 있다.

공동연구팀은 지난 2월 세계 최고 권위의 인공지능 학회 ‘AAAI 2022’에서 해당 연구 논문을 게재 및 발표했다. 오는 10월에는 세계 전산언어학회 ‘COLING 2022’에서 데이터 활용 경진 대회를 비롯한 연구 성과를 공유하는 워크숍을 개최한다.

이연수 엔씨 랭귀지 AI Lab 실장은 “최근 자연어처리(NLP) 학계에서는 비용 및 환경 문제로 초거대 언어모델 기반의 대화 기술에 필적할 수 있는 새로운 대화 기술이 제안되고 있다”며 “이러한 연구 방향에 공감하는 차원에서 이번 데이터를 공개했으며 글로벌 연구 커뮤니티에서 활발한 논의와 기술 개발이 이뤄지길 기대한다”고 밝혔다.

인사이트코리아, INSIGHTKOREA

댓글삭제
삭제한 댓글은 다시 복구할 수 없습니다.
그래도 삭제하시겠습니까?
댓글 0
댓글쓰기
계정을 선택하시면 로그인·계정인증을 통해
댓글을 남기실 수 있습니다.