자연어 처리(Natural Language Processing)
* 딥 러닝을 이용한 자연어 처리 입문
https://wikidocs.net/book/2155
* NLP의 기본 절차와 Lexical Analysis
https://ratsgo.github.io/natural%20language%20processing/2017/03/22/lexicon/
* 언어학(linguistics, philology)
음운론(Phonology) - 말소리
형태론(Morphology) - , 단어와 형태소
통사론(syntax) - 문법
의미론(Senmantics) - 맥락/담화
어휘분석(lexcical analysis) (낱말, 단어)
- 품사 (POS, Part of speech) 결정
- Named entity recognition - 고유명사 인식
- 상호참조(co-reference)는 선행 단어/구를 현재 단어/구와 비교해 같은 개체인지를 결정
- 의존관계 분석(basic dependencies) - 단어간의 의존관계
문장 분리(sentence splitting),
단어 분리(tokenize),
Morphological analysis (=Text Normaization)
- 단어를 일반적인 형태로 변경
- stemming : 단어의 축약형의 변경
- stem=어간
writ는 어형 writes, writing, written의 어간이다.
- lemmatization : 품사의 기본형으로 변경
lemma=단어의 기본형
Loved => Lov(stemming) , Love(lemmatization)
포스태깅 (POS tagging) - 품사 인식
//-------------------------
스테밍 알고리즘(stemming algorithms , stemmers)
Porter : 기본
Snowball(Porter2) - porter 알고리즘을 개선
Lancaster (Paice-Husk) - porter보다 aggressive
//-------------------------------------
불용어(stopword)
- 분석할때 의미가 없는 단어들
- Stop Word English List
https://countwordsfree.com/stopwords
- 한글 불용어(stopword)
https://bab2min.tistory.com/544
'Code' 카테고리의 다른 글
[윈도우] WebView2 (0) | 2020.09.30 |
---|---|
[정규식] 단어 AND, OR 연산 (0) | 2020.09.21 |
영영사전 API (0) | 2020.09.02 |
VC Code 터미널 기본 코드 페이지 바꾸기 (0) | 2020.08.09 |
[Electron] 소스 파일이 변경되면 자동 재시작 하도록 설정 하기 (0) | 2020.08.08 |