크롤링(crawling) | 시각화

[웹 크롤링(web crawling)] 영화데이터시각화 3 (원형 그래프)

멈머이 2023. 12. 5. 22:34
728x90

https://coding-heading.tistory.com/69

 

[크롤링(crawling)] 영화데이터수집

크롤링(crawling) 웹상에 존재하는 데이터들을 수집하는 작업 (프로그래밍으로 자동화) 웹 페이지의 html 코드를 가져와서, HTML/CSS 등을 필요한 데이터만 추출하는 기법 Open API(Rest API)를 제공하는 서

coding-heading.tistory.com

위 글부터 이어집니다.

 

### 시각화 라이브러리
import matplotlib.pyplot as plt

### 폰트 설정 라이브러리
from matplotlib import font_manager, rc

### 한글폰트 설정
plt.rc("font", family="Malgun Gothic")

### 마이너스 기호설정
plt.rcParams["axes.unicode_minus"] = False

 

* 글정, 부정, 기타에 대한 원형 그래프 시각화하기
* 비율이 가장 높은 경우 : pink색, 두 번째 : gold색, 세 번째 whitesmoke색으로 표현
* subplot 사용

fig, axs = plt.subplots(5,2, figsize=(15,25))

axs = axs.flatten()

### 빈도 비율별 색상 정의
colors =["pink", "gold", "whitesmoke"]

### 라벨정의
labels_dict = {0 : "부정(1~4점)", 1 : "긍정(8~10점)", 2 : "기타(5~7점)"}

### 긍정 / 부정에대한 원형 그래프 그리기
for title, ax in zip(avg_score.keys(), axs):
    ### 영화별 건수 필터링하기
    num_reviews = len(df_new[df_new["title"] == title])
    #print(f"num_reviews = {num_reviews}") #--------------------------------------------------------확인용

    ### label컬럼의 볌주별로 갯수 필터링하기
    values = df_new[df_new["title"]==title]["label"].value_counts()
    #print(f"values = {values}")     #--------------------------------------------------------확인용

    ### 원형그래프에 표시할 라벨값 정의 하기
    # - 영화별로 긍정 / 부정 / 기타 중에 하나라도 없으면 처리가 필요함
    label_list = df_new[df_new["title"]==title]["label"].unique()
    labels = []
    for k in label_list:
        ### 영화별 실제 존재하는 긍정/부정/기타 라벨 정의하기
        labels.append(labels_dict[k])
    
    ### 각 그래프 제목 넣기
    ax.set_title(f"{title}({num_reviews}명)", fontsize=15)

    ### 원형(pie) 그래프 그리기
    # - 원형그래프에 표시할 라벨 지정
    # - 원형그래프에 표시할 값의 소숫점 자릿수 지정
    # - 원형그래프 각 영역의 색상 지정
    # - 그림자 효과 지정하기
    # - 그래프의 시작위치를 12시 방향으로 돌리기
    ax.pie(values, labels = labels, autopct = "%1.1f%%", colors = colors, shadow=True, startangle=90)

### 이미지 저장하기
plt.savefig("./img/긍정_부정 원형그래프 시각화")

plt.show()

 

* 최종 전처리된 데이터는 파일로 관리하기

* 파일명 df_new.csv, 인덱스는 포함하지 않기
* 저장 위치 : data 폴더

df_new.to_csv("./data/df_new.csv", index=False)

728x90