말뭉치

게임 Warframe에 나오는 진영에 대한 내용은 Warframe/진영/코퍼스 문서 참고하십시오.

1. 개요2. 발달 과정

2.1. 한국의 말뭉치 발달 과정

3. 말뭉치 언어학4. 말뭉치의 구축 과정

4.1. 설계 단계

5. 학자6. 추천 사이트7. 문헌

7.1. 모음집 (compilation)7.2. 예문을 응용한 문법책7.3. 담화 분석7.4. 단어 빈도7.5. 사전7.6. 말뭉치 사용법

8. 관련 문서

1. 개요

Corpus[1]

언어학, 사회학 등 조사적 목적에 의해서 특정 집단 내에서 사용한 단어들을 모아서 정리해둔 것. 컴퓨터의 발달로 말뭉치를 통한 데이터 수집과 분석이 용이해지면서 중요성이 부상했다. 최근에는 의미를 한정하여 컴퓨터로 접근하여 처리할 수 있는 전산화된 것만을 말뭉치라고 한다.

영어, 특정 단어나 연결어 등의 사용빈도 등을 통해서 더 자연스러운 표현으로 바꾸는 일, 사전 편찬이나 사회적으로 이슈가 되었던 것을 객관적으로 확인할 수 있다는 점에서 그 쓸모가 발휘된다.

2. 발달 과정

1960년대 이전에, 그러니까 전자 텍스트가 발달하기 이전에는 주로 성경이나 문학 연구, 사전 편찬, 방언이나 문법 연구 등과 같은 영역에서 사용되었다. 그러다 1960년을 전후로 미국과 영국이 중심이 되어 말뭉치를 구축하기 시작했다. 영국에서는 런던 대학교에서 The Survey of English Usage 프로젝트를 진행하였고, 이에 경쟁심을 느낀 미국은 1964년 Brown Corpus 구축을 위한 샘플과 매뉴얼을 발표하였다. 이런 것들이 1세대 말뭉치의 탄생이다. 다만 컴퓨터가 그리 발달하지 않았던 시대였던지라 규모가 큰 말뭉치는 아니었다는 한계가 있었다.

시간이 흘러 컴퓨터가 본격적으로 발달하기 시작한 1980년대에 2세대 말뭉치가 등장하였다. Cobuild 프로젝트를 예로 들 수 있는데, 중대규모 말뭉치가 탄생하였다는 것에 의의를 둘 수 있다.

1990년대로 접어들면서는 억 단위 규모의 말뭉치가 구축되었는데, 일례로 BNC(1억 어절), COCA(4억 어절), The Bank of English(5억 어절 이상)가 있다. 또 개인용 컴퓨터가 보급되어 대중화가 이뤄지면서 말뭉치를 다양한 분야에서 활용할 수 있게 되었다. 언어 연구나 교육 등의 분야에서 말뭉치를 본격적으로 사용하기 시작했으며, 말뭉치 언어학이 일반화되었다.

2000년대 이후 말뭉치는 대형화 및 전문화 추세의 길로 접어들게 된다. 웹 기반 말뭉치 등 다양한 유형의 공개형 말뭉치가 등장하기도 하고, 산업 측명의 활용도가 높아지게 된다.

2.1. 한국의 말뭉치 발달 과정

한국의 말뭉치 산업은 '21세기 세종 계획'을 시작으로 볼 수 있다. 1990년대 중반에 들어서며 지식 정보 사회를 대비하기 위한 중장기 언어 사업을 진행하였는데[2], 말뭉치 구축은 물론 말뭉치 활용을 위한 각종 분석 툴을 같이 개발하기도 했다.

21세기 세종 계획은 한국어 언어 자원의 확보와 한국어 기반 말뭉치 연구에 큰 기여를 했다는 커다란 의의를 지닌다. 다만 한계는 뚜렷한데, 처음 했던 거다 보니 규모 면에서 다른 말뭉치 산업보다 밀리는 경향이 있고, 오류율도 꽤 있어 질적으로 그리 좋지 못했다.

시간이 흘러 국립국어원의 주도하에 대규모 한국어 말뭉치 사업을 재개했다. 그것이 바로 '모두의 말뭉치'인데, 구어, 문어, 형태·구문·의미 분석의 목적으로 자료를 모았다. AI HUB나 공공데이터 포털 개설을 통한 Open API이며, 구축할 때 세대, 성별, 방언 등에 대한 고려가 있었다는 특징이 있다.

3. 말뭉치 언어학

실제 언어 자료를 바탕으로 언어 특성을 파악하는 학문이다. 연구자의 일방적 분석이 아닌 데이터 기반의 해석으로 객관적이고 귀납적이라는 특징을 지니며, 실제 언어 자료에서 다양한 현상을 해석하므로 다양성이 풍부하다는 특징이 있다.

실제 언어의 모습을 대상으로 분석하고 이론적으로 정립하다 보니 활용 가능성이 높다. 예컨대 음성 인식 비서 서비스를 개발할 때 활용할 수 있다. 초창기에는 사용자가 "오늘 11시 전주의 날씨는 어때?"라고 물어야만 전주 날씨를 알려주고, 그저 "오늘 날씨 어때?"라고 물으면 뜬금없이 서울의 날씨를 알려주는 등 실제 언어에 맞게 유연하게 대처하지 못했는데, 말뭉치 언어학이 발달하고 인공지능도 발달한 지금은 "오늘 날씨 어때?"라고 물으면, GPS를 이용해 사용자의 위치를 추적하고 해당 지역의 날씨를 알려줄 수 있다.

4. 말뭉치의 구축 과정

4.1. 설계 단계

말뭉치는 목적에 따라 다르게 구축할 수 있다. 혈의 누 이후에 쓰인 소설에서 쓰인 말을 연구하고 싶다면 그런 작품들을 싸그리 모아 말뭉치를 구축하던가, 지난 10년 동안 히트를 쳤던 영화에 나온 대사에 쓰인 말을 연구하고 싶다면 10년간 일정 수준 이상의 관객이 관람한 영화들을 모아 말뭉치를 구축할 수 있다.

말뭉치를 구축할 때 이 단계가 매우 중요한데, 성격과 품질이 여기서 거의 결정된다고 보면 되기 때문이다. 적절한 크기[3]와 구성 내용을 설계해야 하며, 자료의 성격에 따른 수집과 가공에 대한 어느 정도 개괄적인 기준이 잘 마련되어야 한다. 현대에 들어 말뭉치를 모은다고 하면 웬만해선 1억 어절, 적어도 10만 어절은 모으게 되므로, 모으는 도중에 기준을 바꾸는 것은 어렵기 때문이다.[4]

말뭉치 구축을 설계할 때 대표성과 균형성이 어느 정도 갖춰진 일정 규모 이상을 구축해야 좋은 말뭉치라는 평가를 받는다. 여기서 균형성은 텍스트 사용역과 사용 비율에 관한 균등한 배분을 뜻하는데, 이게 무슨 말이냐면 시대에 따라 사람들이 주로 사용하는 플랫폼(=사용역)이 다르기 때문에 이를 감안하여 시대에 맞게 비율을 잘 맞춰서 모아야 한다는 말이다. 예를 들어서 2000년대에 사람들이 인터넷에서 썼던 말에 대한 말뭉치를 구축하고자 한다면 싸이월드의 게시물을 다른 사이트보다 더 많이 모으는 것이 좋을 것이다. 왜냐하면 그 당시에 가장 많이 쓰였던 소셜 미디어가 싸이월드였을 테니까 말이다. 그런데 2020년대에 사람들이 인터넷에서 썼던 말에 대한 말뭉치를 구축하고자 할 때 똑같이 싸이월드를 쓰는 건 바람직하지 않을 것이다. 지금은 사용률이 높지 않으니까 말이다.[5]

또 대표성에 대한 이야기를 해보자면, 대표성이란 어느 정도 크기가 있어야 한다는 말이다. 말뭉치의 규모는 기본적으로 크면 클수록 좋기는 하다. 다만 크기는 질을 담보하지는 못한다. 기본적 설계에 따라 '크기=언어 일반성'이 성립되지 않기도 하기 때문이다. 또 규모가 너무 커버리면 이걸 분석할 일반성 높은 도구란 존재하지 않기에 용이성이 하락하는 문제도 있다. 고로 크기는 현재 기술로 가능한 한 최대치를 지향해야 하며, 다만 이 '최대치의 크기'는 활용 효용성이 기반되어야 한다는 말이다.

5. 학자

바스 아르츠 (Bas Aarts)
제프리 리치 (Geoffrey Leech): 2014년 사망.
제럴드 넬슨 (Gerald Nelson)
제리 놀스 (Gerry Knowles)
얀 스바르트비크 (Jan Svartvik)
랜돌프 쿼크 (Randolph Quirk): 2017년 사망.
시드니 그린바움 (Sidney Greenbaum): 1996년 사망.

6. 추천 사이트

구글 코퍼스 가장 방대한 자료가 저장되어있다.
https://www1.essex.ac.uk/linguistics/external/clmt/w3c/corpus_ling/content/
http://martinweisser.org/corpora_site/CBLLinks.html
http://www.lancaster.ac.uk/fass/projects/corpus/cbls/corpora.asp
http://www.corpora4learning.net/resources/corpora.html
http://corpus.leeds.ac.uk/protected/query.html
https://cqpweb.lancs.ac.uk/ (무료가입)
http://clu.uni.no/icame/manuals/
http://ucrel.lancs.ac.uk/

국어 말뭉치

https://ithub.korean.go.kr/user/guide/corpus/guide1.do 국립국어원 언어정보나눔터
http://corpus.korea.ac.kr/ 고려대 한국어대사전을 출판한 고려대학교 민족문화연구원에서 제공하는 무료 코퍼스 분석 도구이다.

미국식 영어

American National Corpus
Brown Corpus
Corpus of Contemporary American English 통칭 COCA. 1990년부터 2015년 까지의 미국의 신문
Santa Barbara Corpus of Spoken American English

영국식 영어

Bank of English
British National Corpus	British National Corpus: 통칭 BNC. 코퍼스 검색 ( 여기서 무료로 가입하고 사용가능) 단어 빈도 참조 사이트 wav 및 textgrid 파일 다운로드 (양많음) 대본 출처
DCPSE	Diacronic Corpus of Present-day Spoken English (유료 CD)
ICE (International Corpus of English)	영어를 제1언어나 공용어로 사용하는 국가의 영어를 공시적으로 비교하고자 구축한 말뭉치. 구축한 대상은 영국 (유료 CD), 호주, 카메룬, 캐나다, 케냐, 말라위, 탄자니아, 피지, 홍콩, 인도, 아일랜드, 자메이카, 케냐, 몰타, 말레이시아, 뉴질랜드, 나이지리아, 파키스탄, 필리핀, 시에라리온, 싱가포르, 남아공, 스리랑카, 트리니다드 토바고, 그리고 미국. 출판물 목록
Lancaster/ IBM Spoken English Corpus	통칭 Spoken English Corpus (SEC). 하단 참조.
Lancaster-Oslo/Bergen Corpus	미국식 영어인 Brown에 대응되는 영국식 영어 말뭉치. 통칭 LOB. 다운로드
London-Lund	영국영어 대화 말뭉치. 다운로드
ukWaC	Web as Corpus. 영국 웹사이트에서 모은 말뭉치. CQPweb이나 Leeds에서 검색 가능.

홍콩 구어영어

http://rcpce.engl.polyu.edu.hk/HKCSE/

표준 중국어

7. 문헌

7.1. 모음집 (compilation)

London-Lund

Svartvik and Quirk, (1980) A Corpus of English Conversation (Lund Studies in English, 56).
London-Lund 100가지 대화문에서 일부 뽑은 34가지 모음.

SEC

Knowles et al, (1996;2017) A Corpus of Formal British Speech: The Lancaster/IBM Spoken English Corpus, Longman 매뉴얼
통칭 Spoken English Corpus (SEC). 53가지 단문 모음에 약 53,000단어. 1980년대 BBC 라디오 방송 프로그램을 모아 놓았다. 구성은 뉴스, 연설, 소설이나 시 낭독 등. 소설에는 노벨문학상 수상자 도리스 레싱의 작품 Through the Tunnel을 전문 수록해 놨다. 2017년에 양장본 2쇄가 나왔다 (96년판과 내용은 동일). Routledge 아니면 Book Depostiory에서 직접 주문해야 하며 명색이 학술 서적인지라 가격이 20만원 넘는다 (페이퍼백은 그거 절반 정도). 참고로 양장본 책 두께가 수학의 정석 반 정도에 크기는 A4 반 정도. 본래 TTS 제작하려고 만든 거라 인토네이션 기호가 들어가 있다는 게 특징. 오디오 파일 (wav), Praat용 textgrid나 본문 텍스트 파일이 필요한 사람은 여기서 다운받으면 된다 (sign up에서 아이디와 비밀번호 등록하고 인증메일 확인하고 로그인하면 된다; 다만 A12 앞쪽 일부, G01 중간 일부, G05 뒤쪽 일부가 잘리는 등 조금씩 빠진 부분이 있다).

7.2. 예문을 응용한 문법책

British National Corpus	Longman Grammar of Spoken and Written English
British National Corpus	Oxford Learner's Grammar
ICE-GB	Aarts, (2011) Oxford Modern English Grammar 무료 다운로드 ICE-GB를 참조한 영국식 영어 및 미국식 영어 기술 문법서 (단 영국식 영어가 거의 대부분). 예문은 ICE-GB 및 뉴스에서 응용했으며 원서 뒷부분 부록에 출처가 다 실려 있다. 한국문화사에서 나온 번역본도 있으며 (2017; 역자 강문구 한창훈) 제목은 현대영문법이다. 번역본에는 예문 출처를 비롯한 부록 일체가 실리지 않음 (참고문헌 및 색인만 실림).
	Greenbaum, (1996) The Oxford English Grammar ICE-GB의 다른 부분에서 예문 응용. Aarts와 마찬가지로 출처가 실려 있다. 저자의 서거로 인해 개정판은 나오지 않음.
	Weiner, (2000) The Oxford Reference Grammar The Oxford English Grammar의 축약판.
	Greenbaum and Nelson, (2013) An Introduction to English Grammar 역시 ICE-GB의 다른 부분에서 예문 응용. 출처는 따로 실리지 않음. 최신 개정판은 2018년에 나왔다.
	Nelson, (2001) English: an essential grammar
London-Lund	Greenbaum and Quirk. (1990) A Student's Grammar of the English Language. Longman. 고급영문법의 본좌. 원조는 1985년에 나온 A Comprehensive Grammar of the English Language으로, 여러번 개정을 거쳐 가장 최근에 나온 책은 1996년판 Student's 버전이다. 번역본으로 이홍배 역 (1994) 새로운 대학영문법이 있으나 현재는 절판됨. 대안으로 최인철 저 실용 영문법 백과사전이 이 책을 참고해서 씀. 워크북

7.3. 담화 분석

British National Corpus	Conversation in Context: a corpus-driven appraoch
British National Corpus	Emotion Talk Across Corpora
London-Lund	An Introduction to Spoken Interaction
London-Lund	English Discourse Particles: Evidence from a corpus
SEC	Wichmann, Anne. (2013) Intonation in Text and Discourse: Beginnings, middles and ends. Routledge. SEC의 초분절적 요소, 특히 인토네이션을 중심으로 분석함.

7.4. 단어 빈도

British National Corpus	Leech et al, (2001) Word Frequencies in Written and Spoken English: based on the British National Corpus 도서 정보 pdf txt파일 무료 다운로드
LOB	Johansson et al. (1989) Frequency Analysis of English Vocabulary and Grammar: Based on the LOB Corpus: Tag Frequencies and Word Frequencies (Volume 1) Johansson et al. (1989) Frequency Analysis of English Vocabulary and Grammar: Tag Combinations and Word Combinations v. 2: Based on the LOB Corpus
London-Lund	Brown, Gordon. (1984) A frequency count of 190,000 words in the London-Lund Corpus of English Conversation.

7.5. 사전

British National Corpus	Longman Dictionary of Contemporary English
	Chambers 21st Dictionary
	능률롱맨 영한사전

7.6. 말뭉치 사용법

British National Corpus	Hoffmann et al. (2008) Corpus Linguistics with BNCweb - a Practical Guide. Peter Lang. BNCweb 이용 참고 서적. CQPweb 검색도 같은 구조로 돌아가니 참고.
ICE-GB	Nelson et al. (2002) Exploring Natural Language: Working with the British Component of the International Corpus of English. John Benjamins Publishing Company ICE-GB (ICE 영국) 이용 참고 서적. ICE-GB의 각 지문이 어디서 따온 건지 다 나와있다. pdf 무료 다운로드
LOB	Johansson, Stig. (1986) The Tagged LOB Corpus: Users' Manual.
London-Lund	Svartvik, Jan. (1990) The London Corpus of Spoken English: Description and Research (Lund Studies in English 82). Lund University Press.

8. 관련 문서

[1] 영단어를 그대로 읽을 때는 '코퍼스'라는 표기를 쓴다. [2] 참고로 이 기간 즈음에 표준국어대사전이 편찬된다. [3] 참고로 크면 클수록 좋긴 하나, 말뭉치의 크기는 투입되는 시간과 돈의 양에 비례한다는 것을 생각해야 한다. 몇십 억, 몇백 억 어절을 모은다고 하면 그걸 어느 세월에 모아야 할까? ~~대학원생 갈려 나가는 소리 들린다~~ [4] 예를 들어 처음에는 문장 부호는 그리 중요하지 않다고 생각해 제외해 버렸는데, 한 3만 어절 정도 모았을 때 "어? 문장 부호 있어야겠는데?"라고 여기면 곤란해지기 때문이다. ~~사실 본인이 교수라면 대학원생을 갈아 넣으면 된다.~~ [5] 참고로 초기 말뭉치에서는 균형성을 갖추기 위해 주요한 유형의 텍스트 자료를 선택했다. 주요한 유형의 텍스트 자료는 대부분 한글 맞춤법을 칼같이 지킨 유형으로, 사람들이 실제 사용하는 언어와는 괴리가 있다는 한계가 있었다.

말뭉치

1. 개요

2. 발달 과정

2.1. 한국의 말뭉치 발달 과정

3. 말뭉치 언어학

4. 말뭉치의 구축 과정

4.1. 설계 단계

5. 학자

6. 추천 사이트

7. 문헌

7.1. 모음집 (compilation)

7.2. 예문을 응용한 문법책

7.3. 담화 분석

7.4. 단어 빈도

7.5. 사전

7.6. 말뭉치 사용법

8. 관련 문서

분류