ngram-heatmap2

텍스트 데이터 종류
대부분 텍스트 데이터, 기타 통계 데이터
ex) 홈페이지 분류체계, FAQ, Q&A, VOC, 콜센터 상담이력, 채팅 스크립트 등등

주택금융공사 데이터를 이용한 분석 케이스 (크롤링)– 홈페이지의 FAQ 데이터
홈페이지에서 쉽게 접근 가능
크롤링을 통해 수집이 가능, 외부에서 원하는 형태로 가공하고 분석 적용이 용이
질문 1개당 1개의 답변셋으로 구성되어 있어서 고객의 질문 빈도를 확인할 수 없다.

– 홈페이지의 상담문의 데이터
홈페이지에서 쉽게 접근 가능
크롤링을 통해 수집이 가능, 외부에서 원하는 형태로 가공하고 분석 적용이 용이
여러 질문 유형과 답변들로 구성되어 고객의 질문 빈도와 질문 패턴을 확인할 수 있다.
(http://voc.hf.go.kr/hf/web/voc/NR_vocList.do?vocCd=1&_m=voc1_list)
홈페이지의 상담문의 데이터 분석
홈페이지 상담 문의 데이터는 어떻게 분석할 수 있을까?- 기존의 분석 방법
문서당 중요 키워드 추출, 단어 카운팅 → 워드 클라우드로 보여주는것, 시각적으로 도움을 받을 수 있다.

ngram-heatmap

문제점)
장표에서만 사용 가능, 간단한 인사이트만 얻을 수 있음
챗봇 분류체계를 만드는 중이었다면 별로 도움이 안됨

– ngram을 이용한 카테고리별 질문 패턴 확인

추가
– 동의어사전 적용 필요
– 한국어 Stemming, Lemmatizing 같은 기능이 있으면..
– 전처리를 했지만 Stopword 불용어 사전 추가 적용도 필요
– Jupyter 이외에 다른데이터 업로드해서 사용가능하게 만들기(electron이나 그냥 웹)