연구/형태소 분석

Java로 구현한 형태소 분석기 beta

락끄 2008. 2. 11. 17:08

구현한 형태소 분석기를 공개하고자 맘 먹은지 한참이 됐지만, 여러가지 이유로 공개를 미뤄왔었다.

  1. 과연 이걸 사용할 사람이 있을것인가?
  2. 테스트가 미진한데, 결과는 제대로 나올 것인가?
  3. 성능이 나올 것인가?

위의 세 가지가 나에게 공개에 대해서 확답을 주지 못했다. 사실 1번은 별 문제되진 않았지만, 2,3 번 때문에 계속 고민하고 있었다. 사실 사전 정비와 같이 추가로 계획하고 있던 일들을 마치고 공개하고자 했지만, 계속해서 미루고 있어서 이를 해결하고, 고민도 마무리가 되고 공개하는건 불가능해보인다.

그래서 문제가 있고, 아직 고민하고 있지만, 일단은 소스를 간단히 정리해서 공개한다.
사전자료가 이곳 저곳에서 긁어모은 것이라 출처도 일정치 않고, 주요 정보들이 아니라 말뭉치만 있으니 그리 문제되진 않을 것 같다.

eclipse로 작업하고 있어서 프로젝트 폴더를 통째로 압축해서 첨부한다.

이전 버젼은 삭제합니다.

관련 글은 연구실 홈페이지에 업데이트 하고 있지만, 언제 끝날지는 장담 못하겠다. ^^;;
Implementing Typo and Spacing Tolerant Korean Morpheme Analyzer

간단히 테스트 해보기 위해서는 eclipse로 프로젝트를 불러 들여서 MorphemeAnalyzer 에 있는 main()함수를 실행하면 된다.

아래의 예는 띄어쓰기 없이 간단히 다음 문장을 넣어서 테스트한 결과이다.
"나는무엇을먹고사는사람이더냐"
띄어쓰기가 안되어 있기에 가능한 결과들을 쭈욱 만들어가다가 적합한 결과를 반환하는데, 최종 결과는 원하는 형태로 딱 나오진 않는다. 그치만 수정하기도 어렵고, 방법이 있다고 해도 많은 자료들을 이용해야 해서 아직은 적용하지 못하고 있다.

PS. 자세한 내용을 알고 싶은 분은 메일로 문의 주세요.
추가해서 블로그 업데이트 하겠습니다. (왠지 없을 듯... ^^)