초보도 따라 하는 파이썬 데이터 시각화 A to Z: 차트 선택부터 실무 적용까지 (with. AI)

초보도 따라 하는 파이썬 데이터 시각화 A to Z: 차트 선택부터 실무 적용까지 (with. AI)

데이터 시각화의 중요성에 대해 모르는 마케터는 없으리라 생각하지만, 어떤 데이터를 어떻게 시각화해야 하는지 모르는 마케터는 있을 것 같습니다. 하지만 괜찮아요. 우리는 생성형 AI로 더 효율적으로 일할 수 있게 된 시대의 마케터니까요. 마케팅 실무에서 데이터 시각화가 어떤 역할을 하는지 실제 사례와 함께 설명해 드리려고 합니다. 프롬프트 예시도 함께 준비했으니 활용해 보세요!

💬 데이터 시각화는 언제, 왜 필요한가?

“그래서 뭐가 잘 된 건가요?”
“다음엔 어디에 더 투자해야 하죠?”

마케팅을 하다 보면 이런 질문을 자주 받게 됩니다. 그러면 우리는 열심히 정리한 엑셀 파일을 열어 수많은 숫자들을 보여주죠. 숫자(데이터)는 객관적인 사실을 담고 있지만 의외로 설득력은 약합니다. 한눈에 들어오지 않아서 핵심을 파악하기 힘들기 때문이에요. 데이터가 설득력을 가지려면 잘 읽히도록 가공하는 과정이 필요하고 이 과정을 ‘데이터 시각화’라고 합니다. 데이터 시각화에서 자주 사용하는 그래프는 Line charts, Bar charts, Pie charts, Scatter charts, Bubble charts 등이 있습니다. 각 차트별 특징과 활용도를 간단히 짚어볼게요.

📈 Line chart

Line charts(선 그래프)는 시간에 따른 데이터 흐름 변화를 확인할 수 있는 차트입니다. 일자별 매출액이나 ROAS 등 시계열 그래프가 필요한 상황에 주로 활용해요. 추세선을 추가하면 시간 흐름에 따른 데이터의 등락을 함께 체크할 수 있습니다.

📈 Bar charts

Bar charts(바 그래프)는 시계열 그래프로도 활용하지만 두 개 이상의 데이터를 동일 선상에 두고 비교할 때 주로 활용합니다. 혹은 누적된 데이터를 총량을 비교할 때 사용하기도 해요.

📈 Pie charts

Pie charts(원형 그래프)는 특정 항목의 비중을 한눈에 보기 좋은 차트입니다. 예를 들어 어떤 상품이 많이 판매되는지, 우리 브랜드의 고객 성별 비중은 어떻게 되는지 등을 표시할 때 좋아요.

📈 Scatter charts

Scatter charts(산점도)는 두 개 축의 데이터의 교차점을 점으로 표시하는 차트입니다. 두 데이터의 상관관계를 시각화할 때 많이 활용해요. 예를 들어 마케팅 예산에 따른 매출 변화에 유의미한 상관관계가 있는지, 있다면 마케팅 예산을 얼마나 투자해야 매출 효율이 가장 좋을지를 시각적으로 표현할 수 있죠.

📈 Bubble charts

Bubble charts(버블 차트)는 3개 이상의 변수를 동시에 비교할 때 사용합니다. 두 개 축으로 데이터를 표시하는 동시에 버블(원)의 크기로 규모까지 보여주기 때문이죠. 예를 들어 광고 채널 별 성과를 보여주고 싶을 때 CPC와 CVR을 두 축에 놓고 버블의 크기를 광고비로, 버블의 색상을 광고 채널로 구분하여 표시할 수 있어요.

🤖 파이썬과 챗지피티로 쉽게 하는 데이터 시각화

데이터 분석을 시작하려면 우선 분석할 데이터가 필요합니다. 보통 CSV 형태가 많을 거예요. 데이터의 출처는 어디라도 좋습니다. 퍼포먼스 매체에서 다운로드한 보고서여도 괜찮고 우리 브랜드몰의 판매 데이터도 좋아요. 데이터 분석은 준비한 데이터를 정제하고 시각화한 뒤에 해석하여 인사이트를 도출하는 순서로 진행합니다. 빠르게 시작해 볼까요?

1️⃣ 파이썬 사용 환경 준비하기

우선 파이썬을 설치해 주세요. 구글에서 파이썬을 검색하면 공식 홈페이지를 확인할 수 있습니다. 최신 버전으로 무료 다운로드할 수 있어요.

만약 파이썬 설치가 불가하다면 Google Colab을 이용하는 방법도 있습니다. 별도의 프로그램 설치 없이 웹 환경에서 구글 아이디로 계정을 연동해 바로 이용할 수 있어 편리해요.

2️⃣ 데이터 정제하기

우리가 흔히 구할 수 있는 데이터는 아마 이렇게 생겼을 겁니다. 마케팅 데이터 보고서라면 조금 더 깔끔할 수도 있지만 예시 이미지와 같은 주문 데이터 등은 조금 지저분한 형태인 경우가 많아요. 숫자와 문자 데이터가 섞여 있고 주소처럼 바로 해석할 수 없는 데이터가 섞여 있어서 정제가 필요하죠. 데이터 정제는 지저분한 컬럼(Column)을 정리하고 데이터의 형식을 맞추어 데이터 분석이 용이하게 하는 과정을 말합니다.

데이터를 정제하기에 앞서 나에게 어떤 데이터가 필요한지 확인해야 해요. 내가 분석하고자 하는 것이 무엇인지에 따라 필요한 데이터와 필요 없는 데이터가 달라지겠죠. 필요 없는 데이터는 과감하게 삭제하고 필요한 데이터는 분석이 가능한 형태로 정리해 두세요.

예를 들어 ’각 지역에서 가장 많이 주문한 상품은 무엇일까? 지역별 구매 1건당 객단가에 차이가 있는가?’를 확인하기 위해 데이터 분석을 진행한다고 가정하겠습니다. 필요한 데이터는 구매 건을 구분할 수 있는 주문 번호, 객단가 확인을 위한 주문 금액, 상품 구분을 위한 상품 번호와 주문 상품명, 지역 구분을 위한 주소 데이터 등이 있겠네요.

CSV 파일로 저장된 브랜드몰의 주문 데이터를 활용해 데이터를 시각화하여 마케팅 인사이트를 도출할 거야. 먼저 컬럼을 정리하고 결측값은 제거해서 분석 가능한 형태로 가공해 줘. (혹은 파이썬 코드를 작성해 줘.)

  1. 배송 메시지 열은 삭제 ← 삭제할 데이터 명시
  2. 주문 상품명에서 옵션은 따로 분리하여 표기 ← 필요한 정제 작업 지시 (1개 셀에 합쳐진 데이터를 분리)
  3. 주소는 2개의 열에 “00시” “00구”로 구분해서 분리 ←필요한 정제 작업 지시 (불규칙한 데이터를 규칙화)

작업 완료 후 파일을 csv 파일로 제공할 것.

[코드 작성 시 주의사항] (파이썬 사용 시 추가하세요)

  1. 한글로 된 문자 데이터를 포함하는 것을 유념하여 코드를 작성할 것.
  2. 데이터 파일을 불러오는 경우, 알맞은 데이터 파일인지 확인할 수 있도록 첫 4개의 행을 출력하는 코드를 포함할 것.
  3. 작업에 필요한 패키지를 설치하는 코드를 반드시 포함할 것.
  4. 작업 완료한 파일을 저장하는 코드를 추가할 것. (파일은 파일을 불러온 경로와 동일한 경로에 저장한다.)

데이터 파일 저장 경로 : C:\Users\컨텐츠\Desktop\파이썬 데이터 시각화 ←데이터 파일이 저장된 경로로 수정하세요.

데이터 파일명 : 실습용_주문데이터.csv ←데이터 파일명으로 수정하세요.

챗지피티(혹은 평소 이용하는 생성형 AI)에 데이터 파일을 첨부하여 위와 같이 데이터 정제를 요청합니다. 만약 데이터가 너무 많아서 챗지피티가 작업을 제대로 처리하지 못한다면, 데이터 정제를 위한 파이썬 코드를 요청하는 것도 방법이에요.

데이터 정제를 위한 코드를 요청하는 경우에는 가지고 있는 데이터 일부를 샘플로 제공하면 좋아요. 더 정확한 코드를 작성할 수 있기 때문에 디버깅(코드의 오류를 해결하는 작업) 과정이 줄거든요. 데이터 파일을 저장하는 코드도 함께 요청해서 정제된 파일을 백업해 두는 것도 잊지 마세요.

3️⃣ 파이썬 실행하기

이제 파이썬을 실행합니다. 챗지피티에 데이터 시각화를 위한 코드 작성을 요청하세요. 이미 정제된 데이터 파일을 확보한 경우에는 데이터 파일을 불러오는 코드 작성을 요청하시고 데이터 파일을 정제해야 하는 경우에는 정제를 위한 코드 작성을 요청합니다.

챗지피티로 정제한 데이터 파일을 불러올 때 사용해 보세요.

  • 파이썬으로 정제된 데이터를 불러오는 코드를 작성해 줘.
  • (파일 경로 삽입)에 저장된 “파일명.csv”을 불러올 것.
  • 데이터가 올바르게 불러졌는지 확인하기 위해 첫 4행을 출력.
  • 시각화를 위해 필요한 패키지가 있다면 설치를 위한 코드를 함께 제시.

4️⃣ 데이터 시각화 요청하기

데이터를 불러오는 것까지 성공했다면 이제 어떤 방식으로 시각화할지 고민해야 합니다. 시간의 흐름이 나타나야 하는 경우, 3개 이상의 변수를 표현해야 하는 경우 등 다양한 케이스가 존재할 텐데요. 어렵게 생각하지 마시고 챗지피티에게 바로 요청하면 됩니다.😉 아래 프롬프트를 참고하세요.

ex. 운영 중인 검색 광고 매체의 성과를 분석할 거야. CTR과 ROAS의 상관관계를 확인하고 싶어.

ex. CTR과 ROAS의 상관관계를 확인할 수 있도록 산점도를 그릴 수 있는 파이썬 코드를 작성해 줘 *어떤 차트가 적절한지 모르겠다면, “적절한 차트를 추천해 줘.”라고 하세요.

  • 데이터의 기준을 명시 *기준을 잘 모르겠다면, 가장 분석하기 좋은 형태로 코드를 제공하되 각 축에 대한 부연 설명을 별도로 덧붙여달라고 요청하세요.
    • ex. CTR을 X축에, ROAS를 Y축에 둘 것
  • 시각적으로 디테일한 요구사항 추가
    • ex. CTR이 5.0% 이상인 경우 점의 색상을 빨간색으로 지정해서 강조
  • 추세선, 특정 조건에 충족하는 데이터값 표기 등 분석에 도움이 되는 요소 추가
    • ex. CTR이 5.0% 이상인 경우 점의 색상을 빨간색으로 지정해서 강조
  • 사용 목적에 따른 디자인 요청 *만약 브랜드 컬러가 정해져 있다면 해당 컬러를 정확하게 명시하여 어울리게 제작해 달라고 요청할 수도 있어요.
    • ex. 보고용으로 사용할 수 있도록 파란색 계열의 깔끔한 스타일로 제작
  • 사용 목적에 따라 저장할 문서 형태 지정
    • ex. PNG 형식으로 (파일 경로)에 저장하는 코드를 추가
  • 챗지피티가 작성해 준 코드를 사용하더라도 원하는 차트가 한 번에 나오지 않을 가능성이 더 높아요.
  • 빠르게 오류를 찾아 디버깅할 수 있도록 “한 단계씩 실행할 수 있도록 코드를 적절히 분절해서 제공해 줘.”라고 한 줄을 추가해 보세요.
  • 챗지피티가 적절히 나눠준 코드를 하나씩 실행하는 과정에서 ERROR 메시지가 발생하면, 해당 부분의 실행 코드와 결괏값을 복사 → 챗지피티에게 재질문하여 오류를 먼저 해결하고 다음 코드로 넘어가면 됩니다.

📁 실무 적용 예시

시각화한 데이터는 설득, 제안, 보고에 고루 사용할 수 있습니다. 에디터가 실무를 진행하며 실제로 활용했던 예시를 통해 설명해 드릴게요.

✔️ CASE 1. 광고 예산 확보하기

광고 예산과 광고 효율의 상관관계를 나타낸 그래프예요. 코로나 사태로 침체기일 때 광고 예산이 감액되는 것을 방어하기 위해 광고 예산의 증감에 따른 ROAS, ROI 변화를 산점도로 정리해 보고 했습니다. 결과적으로 효율적인 광고 운영을 위해 필요한 최소한의 예산 가이드를 잡을 수 있었고 광고 예산도 무사히 확보할 수 있었어요.

✔️ CASE 2. 1년 광고 예산 가이드 잡기

위의 케이스를 응용하면 1년 광고 예산의 전체 가이드를 잡을 때에도 활용할 수 있습니다. 추천하는 차트는 Bubble charts입니다. 광고 성과 데이터를 토대로 월 별(X축), 광고비(Y축), ROAS나 ROI를 버블로 표현하면 월별 광고비 사용량과 효율을 한눈에 파악할 수 있어요. (버블이 클수록 ROAS가 높다는 의미!) 이를 토대로 1년 치 마케팅 캠페인 계획과 필요 예산을 정리해 역으로 제안하면 나의 뛰어난 마케팅 기획력을 어필할 수 있을 거예요.

✔️ CASE 3. 효율적인 광고 매체 운영을 위해 브랜드의 주요 고객 정의하기

고객 데이터를 활용해 우리 브랜드의 주요 고객과 타겟을 분석하면 근거가 탄탄한 매체별 광고 운영 전략을 설립할 수 있습니다. 고객 데이터라고 해서 어렵게 생각할 필요는 없어요. 단순히 주문 데이터 정도만 있어도 충분하거든요.

고객의 연령과 구매 1건당 구매 객단가의 상관관계를 표현한 산점도입니다. 성별의 차이를 함께 확인하기 위해 색상으로 성별을 구분했어요. 점의 개수로 여성 고객의 비중이 높다는 것을 확인할 수 있고 객단가 역시 여성이 더 높습니다. 점이 가장 뭉쳐있는 구간이 있다면 해당 구간이 주요 연령층이 되겠지만, 그래프 상으로는 특정 연령대가 모여있는 현상은 보이지 않네요. 다만 조금 더 높은 객단가를 보여주는 연령은 주로 30-45세입니다.

만약 한정된 예산으로 마케팅 효율을 올려야 하는 상황이라면, 위의 내용을 근거로 30-45세 여성 고객을 주로 타겟팅 할 수 있는 매체를 확보해 마케팅 예산을 많이 할당하는 전략을 제안할 수 있겠네요. 남성 고객은 구매 비중과 객단가가 상대적으로 낮으므로 광고비가 비싼 매체는 효율이 안 나올 가능성이 크니까요. 그러니 여성 고객을 메인으로 공략하고 남성 고객 대상으로는 비교적 광고비 절감이 쉬운 CPC 매체를 주로 이용하거나 객단가가 낮은 20-30대를 필터링하여 즉각적인 효율 개선을 꾀하는 방향으로 캠페인 운영 전략을 제안하는 거죠. 눈에 보이는 근거가 있으니 제안이 수용될 가능성이 높아집니다.

✔️ CASE 4. 새로운 고객을 발굴하여 마케팅 캠페인 제안하기

구매자의 특성(연령, 성별 등)과 시계열 데이터, 그리고 각 특성에 따른 유입 매체 데이터를 중첩하여 비교하면 새로운 잠재 고객을 발굴할 수 있어요. 주로 새로운 캠페인을 제안할 때 많이 사용하는 방법입니다.

좌측의 차트를 볼까요? 24년 3분기까지는 3040의 구매력이 월등했으나 24년 4분기부터 20대의 구매가 급증했음을 알 수 있습니다. 기존 주요 고객층이던 3040에 더해 20대를 추가 공략하면 매출이 오르겠네요. 우측 차트를 통해 각 연령별 유입 매체를 교차로 파악해서 가장 많은 광고비를 투자할 매체를 찾고 어떤 방식으로 예산을 소진할지 정합니다. 차트를 살펴보면 20대는 유튜브를, 3040은 인스타그램을 통해 많이 유입이 되었어요.

이런 분석을 토대로 마케팅 전략을 수립한다면 20대 잠재 고객에게 더 많이 노출될 수 있도록 유튜브 광고를 위한 예산을 추가로 할당하고, 유튜브 크리에이터와 협업하여 PPL 콘텐츠를 제작하자고 제안해 볼 수 있을 겁니다. PPL 콘텐츠는 라이선스를 추가로 확보하여 인스타그램에서 광고 소재로도 활용할 수 있으니 3040도 함께 공략할 수 있다는 점도 강조하면 더 좋겠죠?

✔️ CASE 5. 운영한 캠페인 성과 멋지게 보고하기

이 모든 과정은 결국 멋진 보고를 위한 거였죠. 데이터로 된 보고서에 차트를 추가해서 보고해 보세요. 그저 ROAS가 몇 %고 몇 명이 유입되었으며 전환율은 얼마였는지 늘어놓는 것이 보고가 아니에요. 깊이감 있는 보고는 다음 마케팅 액션을 제안해야 합니다.

좌측 그래프는 ‘어떤 매체를 통해 유입된 고객의 객단가와 재구매율이 높은가’를 표현한 산점도입니다. 네이버 검색광고(NAVER SA)를 통해 유입된 고객의 재구매율과 객단가가 월등히 높은 것을 확인할 수 있죠. 네이버 검색광고를 통해 유입된 고객의 매출 기여도가 높다는 의미로 해석할 수 있습니다. 우측의 히트맵 그래프는 어떤 매체에서 어떤 상품이 많이 팔리는지 보여줘요.

이 두 차트를 교차 분석하면 LTV를 높이기 위해 어떤 매체에 어떤 상품을 주로 광고해야 하는지 판단할 수 있어요. 동일한 비용을 투자했을 때 NAVER SA의 구매 효율이 가장 좋을 것으로 기대되네요. “NAVER SA 매체에서 가장 잘 팔리는 제품의 유입 키워드 5개를 집중적으로 상위에 노출하여 광고 효율이 개선되는지 모니터링하겠습니다. KPI는 CAC(고객 획득 비용)의 절감입니다.”라고 보고해 보세요.

데이터 분석은 생각보다 어렵지 않습니다. 중요한 건 복잡한 기법이 아니라 필요한 만큼만 활용하는 것이죠. 이 글에서 다룬 것처럼 데이터를 정리하고, 시각화하고, 결론을 도출하는 흐름만 잘 익혀도 더 명료한 보고를 할 수 있어요. 생성형 AI가 발전하는 만큼 마케터의 업무도 점점 더 쉬워지고 있어요. 너무 어려워하지 마시고 오늘 보고서에 잘 만든 차트 하나만 추가해 보세요. 더 좋은 평가를 받을 수 있을 겁니다.✨

*외부 필진이 기고한 아티클입니다.

피피 아바타