빅데이터 텍스트 분석 사례

Posted by misdomino
2022. 10. 31. 22:40 공부/데이터 전처리, 저장, 분석, 시각화
반응형

01. 네트워크 분석
  01.1 특정 기간/키워드로 네이버 기사 크롤링
  01.2 “Mecab”을 활용한 명사 형태의 형태소 분석
  01.3 추출한 단어들로 동시 출현 빈도수를 도출 후 Gephi로 시각화
  01.4 Modularity 방식으로 두 개의 군집을 군집을 군집을 형성 후 각기 다른 색으로 구분

 

02. 토픽 모델링 분석
02.1 전처리
    한국어 처리 패키지인 ‘Konlpy’의 ‘Mecab’을 활용하여 명사를 추출
    분석 시 의미를 부여할 필요가 없는 불용어 제거 및 주제와 맞지 않는 모호한 단어 제거
    토픽모델링은 추출된 단어를 읽고 토픽을 추정 해야 하기 때문에 편의상 스테밍은 생략

02.2 토픽 모델링 
    Gensim 패키지를 통한 토픽 모델링
    50% 이상 나오는 단어, 5번 이하로 나오는 단어 필터링

02.3 시각화 
    토픽 6개 중 소비와 관련된 4개의 토픽만 선정
    Gensim의 토픽모델링 결과를 시각화하는 pyLDAvis 패키지 사용

 

https://bigdata.seoul.go.kr/noti/selectPageListTabNoti.do?r_id=P260
서울시 빅데이터 캠퍼스 - 공모전 빅데이터 분석 사례 중
MZ세대 소비 트렌드 분석을 통한 서울시 제로페이 활성화 방안

 

반응형

'공부 > 데이터 전처리, 저장, 분석, 시각화' 카테고리의 다른 글

데이터 분석 툴  (0) 2022.10.31
데이터 분석 과정  (0) 2022.10.31

데이터 분석 툴

Posted by misdomino
2022. 10. 31. 22:22 공부/데이터 전처리, 저장, 분석, 시각화
반응형

-----------------

01. 파이썬 - 빅데이터 처리 분석

 

02. R -  빅데이터 처리 분석

-----------------

03. 엑셀(EXCEL) - 데이터 처리 분석

파워 쿼리(Power Query)

   여러 종류의 외부 데이터 소스에서 데이터를 가져온 후,

   필요에 따라 데이터를 정제하거나, 변환 및 재구성할 수 있는 도구


Microsoft Excel용 파워 쿼리 - 데이터 검색, 액세스 및 공동 작업을 돕는 Excel 추가 기능

 

04. SQL - 데이터 추출 관리

-----------------

05. 태블로(Tableau) - 데이터 시각화

 

06. Power BI - 데이터 시각화

-----------------

구글애널리틱스(Google Analytics, GA) - 웹 로그 데이터 분석

 

 

 

https://media.fastcampus.co.kr/knowledge/data-science/data-tool-7/

 

 

반응형

데이터 분석 과정

Posted by misdomino
2022. 10. 31. 22:21 공부/데이터 전처리, 저장, 분석, 시각화
반응형

https://brunch.co.kr/@data/10

https://media.fastcampus.co.kr/knowledge/data-science/data-tool-7/

 

1. 문제 정의 

 

2. 데이터 수집
공개된 공공 데이터를 찾아 활용하거나 크롤링을 통해 데이터를 직접 수집한다.

3. 데이터 전처리
데이터에 문제가 없는지 이상치나 결측치 등을 확인한다.
수집한 데이터를 실제로 분석에 사용할 수 있게끔 처리한다.

4. 데이터 모델링(data modeling)
주어진 개념으로부터 논리적인 데이터 모델을 구성한다.

일반적으로 이를 물리적인 데이터베이스 모델로 환원하여 
고객의 요구에 따라 특정 정보 시스템의 데이터베이스에 반영하는 작업을 포함한다. 
후자의 의미로 흔히 데이터베이스 모델링으로 불리기도 한다.

 

5. 데이터 시각화 및 탐색

 

 

 

반응형

'공부 > 데이터 전처리, 저장, 분석, 시각화' 카테고리의 다른 글

빅데이터 텍스트 분석 사례  (0) 2022.10.31
데이터 분석 툴  (0) 2022.10.31