연구/형태소 분석2008. 2. 15. 09:40

형태소 분석기 코드를 정리해서 간단히 데모가 동작하도록 설치했다. 그와 동시에 코드를 다시 한번 훑어봤는데, 역시나 정리해야할 것들이 너무나 많다.

  • 몇몇 경험적 지식(heuristic)을 적용했는데, 정규화된 형태로 코드에 적용되어 있지 않다. 한번 구조를 바꾸면 해야할 일이 너무 많기 때문에 쉽게 손대고 있진 못하지만, 어쨌든 단순 선후 조건이 아닌 어휘의 위치 정보를 반영할 수 있는 형태로 적용해야겠다. Shallow Parsing을 적용하면 결과가 더 좋아질 것 같은데, 수집해야할 정보와 변경해야할 코드가 너무 많아 쉽사리 손대지 못하겠다. ㅠ.ㅜ
  • 사전 정보를 많이 모아놨으나, 정리해서 올리지 못하니 모으나 마나이다. 꼭 잘 정리해서 올려야겠지만, 당장 코가 석자라 여유가 없긴하다. 그래도 일단 사전 정리해야한다는 것을 기억하자.
  • 코드를 공개하긴 했지만, 코드에 대한 설명이나 개발 환경설정등에 대한 설명이 너무 없어서 너무 불친절하다는 생각이 든다. 시간 나는대로 틈틈히 정리해서 다른 사람들에게 많은 도움이 될 수 있도록 해야겠다.

사실 공개하고자 했던건 데모이다. 여기로 가면 간단한 형태소 분석 결과를 확인할 수 있다. 항상 켜져있다는 보장은 못하겠지만, 한동안은 켜놓을 생각이고, 학교 서버가 정리되면 좀더 안정되게 데모가 진행되게 할 생각이다. 많이 미흡하지만, 그래도 도움이 되었으면 좋겠다.

몇몇 논문들과 글들을 참조해서 품사 정보를 정의해서 분석하도록 하는데, 좀 복잡하다. -_-;. 형태소 분석을 하고자 하면 정말 너무 할게 많다. -_-;

너무너무너무, 갈길이 멀지만, 차근히 해보자!

누군가 이 글을 볼지 모르겠지만, 아래 글의 파일을 수정해서 올렸다.
불필요한 파일들을 삭제하고, 불필요한 라이브러리들도 없앴다. 연구실에서 작업할 때 다른 것들과 같이 사용하느라 썼던 것인데, 형태소 분석기만 있을 때에는 별로 필요 없다.

그리고, 원래 1.1 버젼이었는데, 사실 1.1이라고 한 건 연구실에서 사용할 때 1.0이라고 해서 연구실 내에서 release한게 있고, 그걸 내가 수정해서1.1이라고 했는데, 다시 보니 영 1.0이 될 수 없을 듯 하다. 일단 0.9로 하고 좀더 맘에 들면 그 때 1.0으로 재업해야겠다.

Posted by 락끄

댓글을 달아 주세요

  1. 방금 서비스 잠시 보고 왔습니다. ^^ 멋지네요 ~~ 혼자 다 구현하신 건가요? 쉽지 않은 작업일텐데, 고생하셨네요...

    2008.02.15 10:00 [ ADDR : EDIT/ DEL : REPLY ]
    • 사실 기존에 좀 있는 자료와 소스를 활용하긴 했지만, 새로 태어났죠. ^^

      2008.02.17 22:51 신고 [ ADDR : EDIT/ DEL ]
  2. 사전 구축부터 쉽지 않은 작업이었을텐데 수고많으셨네요..

    2008.02.17 20:48 [ ADDR : EDIT/ DEL : REPLY ]
    • 사전 모으고 관리하는건 지금도 힘든 것 같아요.^^ 사전이 한번 업그레이드 되면 소스도 한바탕 뒤집어져서... ^^ 담번에 예정된 작업이 있긴 한데, 언제 끝날지는 모르겠네요~

      2008.02.17 22:51 신고 [ ADDR : EDIT/ DEL ]
  3. 지나가다

    사전 자료 양이 꽤 많더군요.
    어디서, 혹은 어떻게 구하셨는지요?
    국럽국어원 자료실에 쓸만한 자료들이 좀 있습니다.
    6개 사전 수록어 목록과 단어 사용 빈도 조사한 자료가 그것입니다.
    (6개 사전 수록어 목록은 품사 정보가 없다는 것이 많이 아쉬운 부분입니다.)

    2008.03.04 16:44 [ ADDR : EDIT/ DEL : REPLY ]
    • 기본적인 자료들은 국립 국어원 자료실에서 가지고 온 것입니다. 알고리즘이 빈도나 그런 것들을 이용하지 않기 때문에 빈도 자료를 활용하진 않습니다. 품사는 이곳저곳에서 발췌해서 채운 것입니다. 아직 부족한 것이 많죠.^^

      2008.03.06 12:30 신고 [ ADDR : EDIT/ DEL ]
  4. 안녕하세요. irgroup에서 보고 들어와본지 서너번이 넘어가네요 ㅎ
    건방진 이야기 일지 모르겠습니다만... 라이선스 조항이 없는거 같아서요. 저도 검색서비스를 혼자지만 준비하고 있는 중이라 형태소 분석기에 많은 관심이 있습니다. 라이선스에 관해 알려주시면 많은 도움이 되겠습니다. 너무 겸손하셔서 묻기가 겁나네요. ㅠㅜ 즐거운 하루 되세요!

    2008.03.05 09:55 [ ADDR : EDIT/ DEL : REPLY ]
    • 라이센스는 아직 생각해보지 않았습니다. 아무래도 오픈 소스이다보니 연구용으로는 자유롭게 써도 될텐데, 상업적인 목적이라면 어떻게 해야할지 모르겠네요.

      2008.03.06 13:17 신고 [ ADDR : EDIT/ DEL ]
  5. 박그니

    안녕하세요. 형태소 분석기 대단하네요 ㅎㅎ
    루씬에서 한글 색인어 추출 하려고 분석기들을 찾던중에 이곳을 발견하게 되었습니다. 소스를 실행 해 봤는데요 좋은것 같네요 ^-^
    여기서 명사 부분만 색인어 추출 하려면 어떻게 해야 될까요?
    어느 클래스 부분을 손봐야 될지요?? ㅎㅎ

    2008.03.17 01:07 [ ADDR : EDIT/ DEL : REPLY ]
    • 안녕하세요. 관심 가져주셔서 감사합니다.
      테스트 코드를 확인하시면 쉽게 아실 수 있을겁니다.
      분석 결과에는 품사도 포함하고 있으므로 명사에 해당하는 것들을 추출하시면 될 것 같습니다. 빈도나 이런 것들을 고려하기 위해서는 다른 처리가 필요한데, 이는 직접 추가하셔야 할 것 같습니다.

      2008.03.17 14:16 신고 [ ADDR : EDIT/ DEL ]