꼬꼬마 저작권이 학교에 있기에 마음대로 코드를 공유하거나 하면 안될 것 같다.
아직까지는 별 문제가 없었지만, 향후에는 문제가 될 여지가 있기에 private으로 전환했다.
이를 위해서 매달 7,000원을 지불하기로 큰 결심을 했다.
이전에 아래와 같은 큰 개선 항목들을 도출했었다.
일정은 없고 러프하게 항목만 도출하였는데,
3번에 대해서만 JFlex를 이용해서 automata를 직접 작성해서 만드는 것으로 개선을 1차적으로 완료했다.
1) 사전 관리를 위한 새로운 프로젝트 생성
2) 사전 Compile & Loading 통합
3) Tokenizer 성능 개선 (품질 및 속도)
4) 확률 모델 처리 모듈 오류 수정
5) Lucene Wrapper 개발
6) Socialization
기존 성능의 문제가 확률 모델에서 오는 것들이 있는데,
HMM의 변형을 사용하는 현재 상태에서는 더이상 개선의 여지가 크지는 않을 것 같다.
따라서, Conditional Random Field를 적용해 볼까 생각중이다.
하지만, 이를 위해서는 전체 구조를 새로 만들어야 하며, 기존의 구조적 성능상 장점들을 살릴 수 있는 방안들을 마련해야할 것 같아서 고민 중이다.
어쨌든, 관련 논문도 있고 하니 한단계씩 차근차근 수행하면서 개선해 볼까 생각중이다.
관련 작업들은 아래의 것들이 필요하지 않을까 생각중이다.
1) CRF + 기존 꼬꼬마 특성 결합 방안
2) CRF를 위한 sejong 말뭉치 기반 학습 데이터 구축
3) 변환 사전 생성
4) 성능 검증 및 최적화
CRF와 관련하여 maximum entropy 등 관련 잘들과 함께 과정을 쭉 정리하면 좋을 것 같다.