연구/형태소 분석

형태소 분석기 데모

락끄 2008. 2. 15. 09:40

형태소 분석기 코드를 정리해서 간단히 데모가 동작하도록 설치했다. 그와 동시에 코드를 다시 한번 훑어봤는데, 역시나 정리해야할 것들이 너무나 많다.

  • 몇몇 경험적 지식(heuristic)을 적용했는데, 정규화된 형태로 코드에 적용되어 있지 않다. 한번 구조를 바꾸면 해야할 일이 너무 많기 때문에 쉽게 손대고 있진 못하지만, 어쨌든 단순 선후 조건이 아닌 어휘의 위치 정보를 반영할 수 있는 형태로 적용해야겠다. Shallow Parsing을 적용하면 결과가 더 좋아질 것 같은데, 수집해야할 정보와 변경해야할 코드가 너무 많아 쉽사리 손대지 못하겠다. ㅠ.ㅜ
  • 사전 정보를 많이 모아놨으나, 정리해서 올리지 못하니 모으나 마나이다. 꼭 잘 정리해서 올려야겠지만, 당장 코가 석자라 여유가 없긴하다. 그래도 일단 사전 정리해야한다는 것을 기억하자.
  • 코드를 공개하긴 했지만, 코드에 대한 설명이나 개발 환경설정등에 대한 설명이 너무 없어서 너무 불친절하다는 생각이 든다. 시간 나는대로 틈틈히 정리해서 다른 사람들에게 많은 도움이 될 수 있도록 해야겠다.

사실 공개하고자 했던건 데모이다. 여기로 가면 간단한 형태소 분석 결과를 확인할 수 있다. 항상 켜져있다는 보장은 못하겠지만, 한동안은 켜놓을 생각이고, 학교 서버가 정리되면 좀더 안정되게 데모가 진행되게 할 생각이다. 많이 미흡하지만, 그래도 도움이 되었으면 좋겠다.

몇몇 논문들과 글들을 참조해서 품사 정보를 정의해서 분석하도록 하는데, 좀 복잡하다. -_-;. 형태소 분석을 하고자 하면 정말 너무 할게 많다. -_-;

너무너무너무, 갈길이 멀지만, 차근히 해보자!

누군가 이 글을 볼지 모르겠지만, 아래 글의 파일을 수정해서 올렸다.
불필요한 파일들을 삭제하고, 불필요한 라이브러리들도 없앴다. 연구실에서 작업할 때 다른 것들과 같이 사용하느라 썼던 것인데, 형태소 분석기만 있을 때에는 별로 필요 없다.

그리고, 원래 1.1 버젼이었는데, 사실 1.1이라고 한 건 연구실에서 사용할 때 1.0이라고 해서 연구실 내에서 release한게 있고, 그걸 내가 수정해서1.1이라고 했는데, 다시 보니 영 1.0이 될 수 없을 듯 하다. 일단 0.9로 하고 좀더 맘에 들면 그 때 1.0으로 재업해야겠다.