연구/형태소 분석

Github 꼬꼬마 repository is in private.

락끄 2014. 8. 15. 06:45

꼬꼬마 저작권이 학교에 있기에 마음대로 코드를 공유하거나 하면 안될 것 같다.

아직까지는 별 문제가 없었지만, 향후에는 문제가 될 여지가 있기에 private으로 전환했다.

이를 위해서 매달 7,000원을 지불하기로 큰 결심을 했다.


이전에 아래와 같은 큰 개선 항목들을 도출했었다.

일정은 없고 러프하게 항목만 도출하였는데, 

3번에 대해서만 JFlex를 이용해서 automata를 직접 작성해서 만드는 것으로 개선을 1차적으로 완료했다.


1) 사전 관리를 위한 새로운 프로젝트 생성

2) 사전 Compile & Loading 통합

3) Tokenizer 성능 개선 (품질 및 속도)

4) 확률 모델 처리 모듈 오류 수정

5) Lucene Wrapper 개발

6) Socialization


기존 성능의 문제가 확률 모델에서 오는 것들이 있는데,

HMM의 변형을 사용하는 현재 상태에서는 더이상 개선의 여지가 크지는 않을 것 같다.

따라서, Conditional Random Field를 적용해 볼까 생각중이다.

하지만, 이를 위해서는 전체 구조를 새로 만들어야 하며, 기존의 구조적 성능상 장점들을 살릴 수 있는 방안들을 마련해야할 것 같아서 고민 중이다.

어쨌든, 관련 논문도 있고 하니 한단계씩 차근차근 수행하면서 개선해 볼까 생각중이다.


관련 작업들은 아래의 것들이 필요하지 않을까 생각중이다.

1) CRF + 기존 꼬꼬마 특성 결합 방안

2) CRF를 위한 sejong 말뭉치 기반 학습 데이터 구축

3) 변환 사전 생성

4) 성능 검증 및 최적화


CRF와 관련하여 maximum entropy 등 관련 잘들과 함께 과정을 쭉 정리하면 좋을 것 같다.