빅데이터 텍스트 분석 사례
01. 네트워크 분석
01.1 특정 기간/키워드로 네이버 기사 크롤링
01.2 “Mecab”을 활용한 명사 형태의 형태소 분석
01.3 추출한 단어들로 동시 출현 빈도수를 도출 후 Gephi로 시각화
01.4 Modularity 방식으로 두 개의 군집을 군집을 군집을 형성 후 각기 다른 색으로 구분
02. 토픽 모델링 분석
02.1 전처리
한국어 처리 패키지인 ‘Konlpy’의 ‘Mecab’을 활용하여 명사를 추출
분석 시 의미를 부여할 필요가 없는 불용어 제거 및 주제와 맞지 않는 모호한 단어 제거
토픽모델링은 추출된 단어를 읽고 토픽을 추정 해야 하기 때문에 편의상 스테밍은 생략
02.2 토픽 모델링
Gensim 패키지를 통한 토픽 모델링
50% 이상 나오는 단어, 5번 이하로 나오는 단어 필터링
02.3 시각화
토픽 6개 중 소비와 관련된 4개의 토픽만 선정
Gensim의 토픽모델링 결과를 시각화하는 pyLDAvis 패키지 사용
https://bigdata.seoul.go.kr/noti/selectPageListTabNoti.do?r_id=P260
서울시 빅데이터 캠퍼스 - 공모전 빅데이터 분석 사례 중
MZ세대 소비 트렌드 분석을 통한 서울시 제로페이 활성화 방안
'공부 > 데이터 전처리, 저장, 분석, 시각화' 카테고리의 다른 글
데이터 분석 툴 (0) | 2022.10.31 |
---|---|
데이터 분석 과정 (0) | 2022.10.31 |