자모단위로 분류하는 알고리즘 구현 -정확도 낮음 jamo 모듈은 글자를 자모단위로 쪼개주는 역할을 한다 아 -> ㅇ + ㅏ 자소서 -> ㅈ + ㅏ + ㅅ + ㅗ + ㅅ + ㅓ 예를 들어 폴더명을 자소서라고 짓는다고 가정 파일이 자기소개서 일경우 당연히 자소서 폴더에 들어간다 하지만 서소자 파일인 경우에도 자모 단위로 쪼개면 ㅅ + ㅓ + ㅅ + ㅗ + ㅈ + ㅏ ㅈ + ㅏ + ㅅ + ㅗ + ㅅ + ㅓ 자모의 개수대로 비교한다면 자소서가 들어가고 해당 위치에 매칭되는 값이 다름을 비교하고 기준치를 자모 수의 50%로 지정한다면 ㅅ + ㅗ = 위치와 글자가 동일 하므로 2개가 같음 자모의 수 6개의 50%인 3개에 미치지 못해 적용을 안시킬 수 있다 하지만 필자는 해당 자모 필터링을 최하위에 둘 예정이라 단..
지난 시간에 파파고 API를 사용하여 번역을 하였는데 일부 고유명사의 경우 한글로 번역이 안되는 결과를 볼 수 있었다. trans = get_translate("Skt") trans 이러한 경우에만 영어 발음 그대로 자모단위 필터링을 해주려고 한다. (예시- 에스케이티) import re def simple_filter(input_text): ENGS = ['a', 'A', 'b', 'B', 'c', 'C', 'd', 'D', 'e', 'E', 'f', 'F', 'g', 'G', 'h', 'H', 'i', 'I', 'j', 'J', 'k', 'K', 'l', 'L', 'm', 'M', 'n', 'N', 'o', 'O', 'p', 'P', 'q', 'Q', 'r', 'R', 's', 'S', 't', 'T..
회사에선 1000개의 문서 10000개의 문서나 파일들이 정리가 안되는 경우가 있다. 개인도 마찬가지이다. 개인이 가지고 있는 파일이나 문서들이 정리가 안되는 모습을 볼 수 있다. 이러한 일들을 AI가 해주면 얼마나 편하고 빠르게 이루어질까의 의문에서 이 프로젝트가 시작되었다. AI를 이용하여 파일 및 문서들을 분류하는 알고리즘을 간력하게 만들 것이다. 문서를 분류하는데 보통 문서의 제목으로 분류를 하거나 문서의 내용으로 분류를 한다. 앞으로 진행할 내용은 제목 기반으로 문서를 분류할 알고리즘을 만들 것이다. 제목 기반 분류 알고리즘은 파일과 문서등 어느 확장자에 상관없이 분류를 할 수 있다 내용 기반 분류 알고리즘 같은 경우에는 한글이나 워드, PDF, 엑셀 등 문서의 내용을 확인해야 하기에 일부 제약..