형태소분석기 3

형태소 분석기 0.9.1 배포 및 라이센싱

형태소 분석기에 대한 다양한 문의가 오고, 몇몇 분들이 라이센스에 대한 문의를 해주셔서 이를 정리하고자 한다. 정리하면서 몇 가지 이상한 분석 결과를 만들어내는 것들을 수정해서 재배포 한다. 1. Korean Morpheme Analyzer V0.9.1 by therocks. 이전 버젼들은 모두 삭제해서 지금 올라가는 것을 사용하는 것을 권장한다. * 수정된 점 1) 부정확한 띄어쓰기 추가 개선 '검색서비스를' 과 같은 문장을 처리할 때, 속도를 향상시키기 위해서 앞부분에서 적당히 검색결과가 나오면 띄어쓰기 처리를 해주고 다음 문자열들을 처리하도록 하였는데, 검색(명사)+서(조사)+[ ]+비(명사) 가 되는 순간 잘라버려서 서비스가 정상적으로 추출되지 않는 문제가 있었는데, 이를 5글자 이후에 처리하도록..

Java로 구현한 형태소 분석기 beta

구현한 형태소 분석기를 공개하고자 맘 먹은지 한참이 됐지만, 여러가지 이유로 공개를 미뤄왔었다. 과연 이걸 사용할 사람이 있을것인가? 테스트가 미진한데, 결과는 제대로 나올 것인가? 성능이 나올 것인가? 위의 세 가지가 나에게 공개에 대해서 확답을 주지 못했다. 사실 1번은 별 문제되진 않았지만, 2,3 번 때문에 계속 고민하고 있었다. 사실 사전 정비와 같이 추가로 계획하고 있던 일들을 마치고 공개하고자 했지만, 계속해서 미루고 있어서 이를 해결하고, 고민도 마무리가 되고 공개하는건 불가능해보인다. 그래서 문제가 있고, 아직 고민하고 있지만, 일단은 소스를 간단히 정리해서 공개한다. 사전자료가 이곳 저곳에서 긁어모은 것이라 출처도 일정치 않고, 주요 정보들이 아니라 말뭉치만 있으니 그리 문제되진 않을 ..

공개된 형태소 분석기가 필요하다!

상당히 오래 전부터 형태소 분석기를 구현하고 있었다. 초기에는 단지 문서에 대한 색인어를 추출하기 위해서 색인어 추출기를 만들었었는데, 그러다 보니 형태소 분석기가 필요하다는 생각이 들어 많은 시행착오 끝에 이를 구현했다. 사실 프로토 타입으로 구문 분석에도 적용하여 Opinion Mining에도 사용해 봤다. 아직은 국내에서 적용되는 Opinion Mining이나 구문 분석보다는 형태소 분석기가 더 어렵고 필요한 기술이라 생각이 든다. 물론 많은 자연어 처리 연구실에서 훌륭한 프로그램을 만들었지만, "공개"되어 사용할 수 있는 것은 없다. 물론 소스 수준에서 공개되어 필요에 따라 소스도 수정할 수 있는 것을 말한다. 실재로 Opinion Mining이나 구문 분석을 해보니 논문에 있는 내용을 적용하는 ..