빅데이터 텍스트 분석 사례

Posted by misdomino
2022. 10. 31. 22:40 공부/데이터 전처리, 저장, 분석, 시각화
반응형

01. 네트워크 분석
  01.1 특정 기간/키워드로 네이버 기사 크롤링
  01.2 “Mecab”을 활용한 명사 형태의 형태소 분석
  01.3 추출한 단어들로 동시 출현 빈도수를 도출 후 Gephi로 시각화
  01.4 Modularity 방식으로 두 개의 군집을 군집을 군집을 형성 후 각기 다른 색으로 구분

 

02. 토픽 모델링 분석
02.1 전처리
    한국어 처리 패키지인 ‘Konlpy’의 ‘Mecab’을 활용하여 명사를 추출
    분석 시 의미를 부여할 필요가 없는 불용어 제거 및 주제와 맞지 않는 모호한 단어 제거
    토픽모델링은 추출된 단어를 읽고 토픽을 추정 해야 하기 때문에 편의상 스테밍은 생략

02.2 토픽 모델링 
    Gensim 패키지를 통한 토픽 모델링
    50% 이상 나오는 단어, 5번 이하로 나오는 단어 필터링

02.3 시각화 
    토픽 6개 중 소비와 관련된 4개의 토픽만 선정
    Gensim의 토픽모델링 결과를 시각화하는 pyLDAvis 패키지 사용

 

https://bigdata.seoul.go.kr/noti/selectPageListTabNoti.do?r_id=P260
서울시 빅데이터 캠퍼스 - 공모전 빅데이터 분석 사례 중
MZ세대 소비 트렌드 분석을 통한 서울시 제로페이 활성화 방안

 

반응형

'공부 > 데이터 전처리, 저장, 분석, 시각화' 카테고리의 다른 글

데이터 분석 툴  (0) 2022.10.31
데이터 분석 과정  (0) 2022.10.31