2013년 2월 12일 화요일

세종대왕님이 정말로 존경스럽습니다.

우리는 그냥 평소에 이렇게 말하고 쓰고 읽고 (한글을) 듣고 하는데, 제가 실용적인 한글 압축 알고리즘을 만드려고 연구를 하던 도중에 놀라운 사실을 발견했습니다.

웬만한 일상한국어에서는 받침이 없는 글자가 전체의 60% 이상을 차지합니다.

덕분에 '받침 플래그를 추가해도 괜찮을 것 같다'는 생각이 들었습니다. 받침 플래그 1비트를 추가하면 오히려 압축이 더 될 것 같습니다.
그리고 메신저에서는 통신어를 잘 쓰니까, 모음 있나 없나 플래그도 추가하면 안... 되겠지요? 그건 좀 그렇네요. 왜냐하면 'ㅋㅋ'나 'ㄴㄴ', 'ㅌㅌ'등을 위해서 나머지 98%가 1비트씩 희생하면 안 되니까요.

근데 경어체를 실험 안 해 봤네요;; 반어체에서는 확실히 60% 이상이더라구요.

추신: 이 글귀를 포함해서, 여기 있는 글자들 중 받침이 없는 글자는 전체의 53.3%입니다. 경어체에서는 약간 줄어드는군요. 그래도 50% 이상이니 뭐...

댓글 없음:

댓글 쓰기