-
2024-2 AIGS523 통계적 자연어처리academic blog/소 잃고 물 붓기 2024. 9. 2. 11:00
과목 정보
학습 노트
- Week 1-1
- Week 1-2
- Week 2-1
- Week 2-2
- Week 3-2
- Week 4-1
- Week 4-2
- Week 5-1
- Week 5-2
- Week 6-1
- Week 6-2
- Week 7-1
- Week 7-2
- Week 8-2
- Week 9-1
- Week 9-2
- Week 10-1
- Week 10-2
- Week 11-1
- Week 11-2
- Week 12-1
- Week 12-2
- Week 13-1
- Week 13-2
- Week 14-1
- Week 14-2
- Week 15-1
- Week 15-2
개요
통계적 자연어처리란
통계적 자연어처리(Statistical Natural Language Processing, NLP)는 컴퓨터가 인간의 언어를 이해하고 처리할 수 있도록 돕는 기술을 다루는 분야다. 이 기술은 Information Retrieval(정보 검색), Grammar Checking(문법 검사), Machine Translation(기계 번역) 등 다양한 응용 분야에서 중요한 역할을 수행한다.
통계적 자연어처리(SNLP)는 HLT 및 CL과 자주 같이 언급된다. 통계적 자연어처리는 HLT(Human Language Technology, 인간 언어 기술)의 하위 분야로, 컴퓨터가 인간의 언어를 처리하는 방법을 연구하는 기술을 포함한다. HLT는 Speech Recognition(음성 인식), Translation(번역), Dialogue Systems(대화 시스템) 등 다양한 언어 기반 응용을 포함하는 포괄적인 개념이다. 이와 함께 CL(Computational Linguistics, 계산 언어학)은 NLP와 밀접하게 관련된 학문으로, 컴퓨터를 이용해 인간 언어를 이해하고 분석하는 데 초점을 맞추며, 언어학적 이론과 컴퓨터 과학을 융합하는 분야다. HLT는 전체적인 기술을 다루고, NLP는 그 기술을 실현하는 구체적인 기법을 다루며, CL은 언어의 구조와 처리를 학문적으로 연구하는 영역이다.
통계적 자연어처리의 주요 목표는 컴퓨터가 이메일 관리, 학술 자료 연구, 사용자와의 대화 등 다양한 언어적 작업을 수행할 수 있도록 돕는 것이다. 이는 컴퓨터가 자연스러운 인간의 언어를 처리하고 이해하는 능력을 가지도록 하여, 사람처럼 언어를 배워나가는 방식으로 발전시키는 것을 목표로 한다.
통계적 자연어처리는 다음과 같은 다양한 응용 분야에서 사용된다:
- spelling correction, grammar checking, etc. (맞춤법 및 문법 검사): TOEFL 에세이 점수 평가 시스템과 같은 예시의 language learning and evaluation (언어 학습 및 평가) 시스템에서 활용.
- search engines (검색 엔진): 더 나은 정보 검색과 추출 기능.
- dialogue systems (대화형 시스템): psychotherapy (심리 치료)를 위한 Chat Bot (챗봇), Speech Recognition (음성 인식), Dialogue Systems (대화 시스템) 등 다양한 인터페이스를 제공.
- machine translation (기계 번역): trans-lingual translation and summarization (언어 간 번역 및 텍스트 요약), information extraction (정보 추출) 등의 작업을 수행.
- Speech Recognition and Text-to-Speech (음성 인식 및 변환): USS Enterprise의 대화 시스템처럼 음성 인터페이스를 통한 상호작용을 가능하게 함.
강의 범위
본 과목에서는 크게 기본 개념에서부터 고급 응용까지 다양한 주제를 다루며, 수학적 기초와 알고리즘부터 시작하여 다양한 언어 처리 기법을 배운다. 우선, information theory(정보 이론)과 probability theory(확률론)을 기초로 하는 기본 개념들을 소개한다. 자연어 데이터를 다루는 데 필요한 정의와 공식을 배우고, 간단한 예시를 통해 자연어 모델링에 필요한 기초 지식을 쌓는다. 이어서 language modeling(언어 모델링)과 statistical inference(통계적 추론)에 대한 논의가 진행되며, n-gram model(n-그램 모델), parameter estimation(파라미터 추정), 그리고 Expectation-Maximization algorithm(EM 알고리즘)을 사용한 smoothing technique(스무딩 기법)을 학습한다.
또한, 자연어 처리에서 중요한 Linguistics(언어학)의 다양한 측면에 대해서도 다룬다. 여기에는 phonology(음운론), morphology(형태론), syntax(구문론), semantics(의미론), discourse(담화) 등이 포함되며, 이러한 언어학적 지식을 바탕으로 자연어의 구조와 의미를 이해하고 처리하는 데 중점을 둔다. 이후, text processing(텍스트 처리)와 collocations(연어)를 다루고, words(단어)와 lexicon(어휘) 분석에 대한 강의가 이어지며, word classes(단어 클래스)와 mutual information(상호 정보) 등을 다루고, lexicography(어휘 분석)을 통한 자연어 처리의 기초를 다진다.
통계적 기법을 이용한 HMM(Hidden Markov Model, 은닉 마르코프 모델) 및 maximum entropy(최대 엔트로피) 모델을 비롯한 최신 deep learning models(딥러닝 모델)에 대한 학습도 진행된다. 이를 통해 POS tagging(품사 태깅), probabilistic parsing(확률적 파싱, PCFG) 및 semantic processing(의미 처리)을 배우며, tagging methods(태깅 기법)에 대한 수업도 진행된다. 또한, TC-WSD-Sentiment(텍스트 분류, 의미 중의성 해소, 감정 분석)에 대해서도 학습한다.
마지막으로, statistical parsing(통계적 파싱)과 word2vec을 활용한 deep learning neural text classification(딥러닝 신경망 텍스트 분류) 기술을 배우며, 자연어 처리 응용 분야도 학습한다. 여기에는 statistical machine translation(통계적 기계 번역) 및 neural machine translation(신경망 기계 번역)을 포함한 기계 번역, information extraction(정보 추출), automatic speech recognition(음성 인식, ASR), text-to-speech(텍스트 기반 음성 합성), spoken language understanding(음성 언어 이해), dialog management(대화 관리), information retrieval(정보 검색), question answering(질문 응답 시스템), summarization(요약), 그리고 deep learning NLP application architecture(딥러닝 NLP 응용 아키텍처)와 같은 최신 응용 기술들을 다룬다. 이 과정에서는 실제 데이터와 문제를 기반으로 다양한 응용 기법을 이해하고 활용할 수 있게 된다.
수업 안내 사항
- 교재
- Jacob Eisenstein. "Natural Language Processing" (2018, draft)
- Jurafsky, D. and J. H. Martin. "Speech and Language Processing" PrenticeHall. (2009, 2nd edition) or (2019, 3rd edition)
- Yoav Goldberg. "A Primer on Neural Network Models for Natural Language Processing"
- Manning, C. D., Schütze, H. "Foundations of Statistical Natural Language Processing" The MIT Press. (1999)
- 기타 주요 학술 회의 Proceedings (ACL, NAACL, COLING, ACM SIGIR, Interspeech/ASRU/SIGDIAL, NeurIPS, AAAI, IJCAI)
- 중간고사 35% / 기말고사 35% / 과제 30%
- 2차례의 파이썬을 이용한 자연어 처리 실습 과제 있을 예정.
- 기타 자료:
'academic blog > 소 잃고 물 붓기' 카테고리의 다른 글
Week 1-1 | 2024-2 AIGS523 통계적 자연어처리 (0) 2024.09.02 Week 1-1 | 2024-2 AIGS501 변환론 (0) 2024.09.02 2024-2 AIGS501 변환론 (0) 2024.09.02 Seminar 15 | 2024-1 AIGS800A 인공지능세미나A (0) 2024.05.29 Seminar 14 | 2024-1 AIGS800A 인공지능세미나A (0) 2024.05.24