전체 글 14

Github 꼬꼬마 repository is in private.

꼬꼬마 저작권이 학교에 있기에 마음대로 코드를 공유하거나 하면 안될 것 같다.아직까지는 별 문제가 없었지만, 향후에는 문제가 될 여지가 있기에 private으로 전환했다.이를 위해서 매달 7,000원을 지불하기로 큰 결심을 했다. 이전에 아래와 같은 큰 개선 항목들을 도출했었다.일정은 없고 러프하게 항목만 도출하였는데, 3번에 대해서만 JFlex를 이용해서 automata를 직접 작성해서 만드는 것으로 개선을 1차적으로 완료했다. 1) 사전 관리를 위한 새로운 프로젝트 생성2) 사전 Compile & Loading 통합3) Tokenizer 성능 개선 (품질 및 속도)4) 확률 모델 처리 모듈 오류 수정5) Lucene Wrapper 개발6) Socialization 기존 성능의 문제가 확률 모델에서 오..

다시 살아나는 꼬꼬마

마지막 블로그가 무려 6년 전이다. 학교 졸업 후 꼬꼬마에 대한 개발을 거의 하지 않고 있긴 했지만, 졸업 직전까지 수행한 작업으로 인해서 나름 꼬꼬마의 성능은 많이 향상 되었다.현재 버젼은 최근 마지막 배포 버젼(2011)에 비해서는 확률 모델 개선, 속도 개선 (무려 300배 가량 향상)이 되었다. 하지만 아직도 해야할 일들이 많다. 1) 사전 관리를 위한 새로운 프로젝트 생성아무래도 사전 기반이다보니 사전에 대한 의존성이 큰데, 신조어를 추가해주지 못하다 보니 성능이 떨어지는 부분들이 계속 발견된다. 이를 개선할 수 있도록 사전 관련 프로젝트를 하나 추가해서 독립적으로 개선해 나갈 생각이다. 2) 사전 Compile & Loading 통합꼬꼬마는 사전을 기반으로 후보 탐색을 하기에 사전의 성능에 따..

한글 형태소 분석기 개선 계획

처음으로 형태소 분석기를 만들어보고 개선한지 대략 2년 정도 된 것 같다. 단순 사전을 바탕으로 개발을 해오던 것이 이제는 나름 다양한 기술들을 적용시켰다. 여전히 즉흥적이고, 수작업을 요하는 작업들이 많이 있지만, 다양한 업그레이드 거친 것 같다. 사전 기반 형태소 태깅 동적 프로그래밍 적용 비트 기반 오퍼레이션으로 성능 개선 사전 정리 및 사전의확장성 개선 다른 방법들은 논문을 보고 구현해보면 되는 것들이었는데, 사전을 정비하는 것은 개인이 하기에 너무 힘든 일이고 쏟은 노력이 정말 눈물날 정도였던 것 같다. 일일이 수만 단어들을 보면서 눈 침침해지면서 단일 명사인지 복합명사인지 구분하고 태그 정보도 수정하고, 어휘가 단일 태그를 갖지 않도록 하고 참 많은 노력을 했다. 그러면서 국어에 대한 이해도 ..

형태소 분석기 0.9.1 배포 및 라이센싱

형태소 분석기에 대한 다양한 문의가 오고, 몇몇 분들이 라이센스에 대한 문의를 해주셔서 이를 정리하고자 한다. 정리하면서 몇 가지 이상한 분석 결과를 만들어내는 것들을 수정해서 재배포 한다. 1. Korean Morpheme Analyzer V0.9.1 by therocks. 이전 버젼들은 모두 삭제해서 지금 올라가는 것을 사용하는 것을 권장한다. * 수정된 점 1) 부정확한 띄어쓰기 추가 개선 '검색서비스를' 과 같은 문장을 처리할 때, 속도를 향상시키기 위해서 앞부분에서 적당히 검색결과가 나오면 띄어쓰기 처리를 해주고 다음 문자열들을 처리하도록 하였는데, 검색(명사)+서(조사)+[ ]+비(명사) 가 되는 순간 잘라버려서 서비스가 정상적으로 추출되지 않는 문제가 있었는데, 이를 5글자 이후에 처리하도록..

APM_SETUP6 + Tomcat6.0 연동하기 (for Windows Vista 32bit)

수많은 삽질 끝에 APM_SETUP6.0과 Tomcat6.0을 연동하는데 성공해서 이와 관련된 내용을 정리해서 올리고자 한다. 나와 비슷하게 많은 사람들이 삽질을 할 수 있을 듯 한데, 조금이나마 도움이 되었으면 좋겠다. 먼저 웹에서 받을 수도 있겠지만, 일단 본인이 사용한 파일들을 올려두겠다. 현재 날짜로 (2008년 02월 18일) 최신 릴리즈를 사용한 것들이라 추후에는 사라질 수도 있을 것 같다. 그리고 이전 버젼들과는 파일들이 서로 호환되지 않는다고 하니 파일들의 버젼도 유의해서 확인해야할 것 같다. APM_Setup6 저작권 문제가 있으니 링크를 올려둔다. (사실은 파일 용량이 커서 안올라간다. ^^;) APM_Setup6_2007101200 버젼을 사용해서 http://apmsetup.com/..

연구 2008.02.18

형태소 분석기 데모

형태소 분석기 코드를 정리해서 간단히 데모가 동작하도록 설치했다. 그와 동시에 코드를 다시 한번 훑어봤는데, 역시나 정리해야할 것들이 너무나 많다. 몇몇 경험적 지식(heuristic)을 적용했는데, 정규화된 형태로 코드에 적용되어 있지 않다. 한번 구조를 바꾸면 해야할 일이 너무 많기 때문에 쉽게 손대고 있진 못하지만, 어쨌든 단순 선후 조건이 아닌 어휘의 위치 정보를 반영할 수 있는 형태로 적용해야겠다. Shallow Parsing을 적용하면 결과가 더 좋아질 것 같은데, 수집해야할 정보와 변경해야할 코드가 너무 많아 쉽사리 손대지 못하겠다. ㅠ.ㅜ 사전 정보를 많이 모아놨으나, 정리해서 올리지 못하니 모으나 마나이다. 꼭 잘 정리해서 올려야겠지만, 당장 코가 석자라 여유가 없긴하다. 그래도 일단 사..

Java로 구현한 형태소 분석기 beta

구현한 형태소 분석기를 공개하고자 맘 먹은지 한참이 됐지만, 여러가지 이유로 공개를 미뤄왔었다. 과연 이걸 사용할 사람이 있을것인가? 테스트가 미진한데, 결과는 제대로 나올 것인가? 성능이 나올 것인가? 위의 세 가지가 나에게 공개에 대해서 확답을 주지 못했다. 사실 1번은 별 문제되진 않았지만, 2,3 번 때문에 계속 고민하고 있었다. 사실 사전 정비와 같이 추가로 계획하고 있던 일들을 마치고 공개하고자 했지만, 계속해서 미루고 있어서 이를 해결하고, 고민도 마무리가 되고 공개하는건 불가능해보인다. 그래서 문제가 있고, 아직 고민하고 있지만, 일단은 소스를 간단히 정리해서 공개한다. 사전자료가 이곳 저곳에서 긁어모은 것이라 출처도 일정치 않고, 주요 정보들이 아니라 말뭉치만 있으니 그리 문제되진 않을 ..

가죽공예!! 왕초보 홀로서기 시도하다! - 신권크기의 카드지갑 만들기...

처음 가죽공예를 하고 싶었던 것이 내 구미에 맞는 혹은 다른 사람들이 원하는 모양의 지갑이나 간단한 가죽 제품을 직접 만들고 싶어서 한것인만큼 이번에는 여자친구의 카드지갑을 직접 만들기로 하고, 필요한 것들을 준비하고 작업에 들어갔다. 일반적인 카드 지갑은 카드보다 약간 큰 크기의 것으로 카드를 비닐등에 여러개를 겹쳐서 넣는 형태인데, 장지갑 형태의 카드 지갑을 만들고 싶었다. 물론 지갑보다는 약간 작고, 가지고 다니기는 편한 형태로 말이다. 나름 종이로 먼저 만들어보고 이리저리 구상도 해보고 재료랑 공구는 김학순 가죽공예에서 문의해서 구입했다. 1. 공구 일단 여권 케이스 체험 교실을 해봐서, 카드지갑을 만들때 필요한 최소한의 것만을 준비하고자 했다. 하지만, 생각보다 많은 돈을 공구 구입하는데 썼고,..

취미/가죽공예 2008.02.11

가죽 공예를 배우다~

아주 오래 전부터 지갑이나 다이어리 등을 손수 만들어 보고 싶었다. 우리나라에서는 쉽게 가죽공예를 할 수 있는 곳들이 많지 않았던 것 같은데, 최근에는 인터넷을 통해서 유용한 정보들을 쉽게 접할 수 있는 것 같다. 최근 여자친구의 카드 지갑이 망가져서 새로운 걸 사주려고 인터넷을 뒤지다가 아무리 찾아도 맘에 드는 걸 찾을 수 없어서 이참에 아주 가죽 공예를 배워서 직접 디자인하고 만들어주고 싶었다. 때마침 "김학순 가죽공예"에서 체험 교실을 하기에 "여권지갑"을 만들어보고 가죽 공예를 처음으로 접할 수 있었다. 아침에 서둘러 일어나서 가는바람에 사진기를 못 챙겨 가서 만드는 과정을 찍지는 못했지만, 최종 작품은 사진으로 찍어뒀다. 자기전에 간단히 생각한 이미지를 표현해봤는데, 나름 잘 나온 것 같다. 여..

취미/가죽공예 2008.02.04

음악은 표현일 뿐, 본질은 사랑 --- 'August Rush (어거스트 러쉬)' 를 보고...

토요일 저녁 보고 싶던 어거스트 러쉬를 봤다. 그동안 몇 편의 음악 영화들을 봤지만, 지금껏 본 것들 중에 가장 예술의 본질을 표현하고자 한 영화가 아니었던가 한다. 밴드 음악을 하는 '루이스'와 클래식을 하는 '라일라'가 같은 날 성공적인 공연을 마치고, '보름달'이 잘 보이는 클럽의 옥상에서 우연히 만나 사랑을 시작하게 된다. 다음에 다시 만날 것을 약속하지만, 현실은 그들을 결국 헤어지게 만들고, 라일라는 그들의 사랑으로부터 음악적 감성의 결정체를 잉태하게 된다. 그들을 갈라 놓게 만든 '라일라'의 아버지는 그들의 '아이'마저도 없는 존재로 만들어버리고, 아이는 고아원에서 자란다. 세상 모든 것으로부터 음악을 느끼는 그 순수한 아이는, 본능적으로 자신의 부모가 살아 있고, 보이지 않는 끈에 의해 그..