전체 글 51

2025.01.07- TIL

TIL: 프로젝트 평가 기준 정리오늘은 프로젝트 평가 기준을 체계적으로 정리하며 학습했습니다. 프로젝트 전 과정을 다룰 수 있는 이 기준은 프로젝트의 기획, 데이터 EDA 및 전처리, 모델링 및 평가, 결과 해석, 대시보드 제작 등 전반적인 프로세스를 효과적으로 점검할 수 있도록 구성되어 있습니다.1. 프로젝트 기획목표 및 문제 정의목표가 SMART 기준에 부합하며, 명확하고 구체적으로 설정되었는가?해결하려는 문제가 명확히 정의되었고, 프로젝트 필요성이 잘 드러나는가?데이터 활용 및 실행 계획데이터 활용 및 분석 계획이 구체적이고 실행 가능한가?제안된 분석 방법론이 적합하며, 일정과 마일스톤이 명확한가?기대 효과 및 팀 구성목표 달성 시 기대되는 결과물이 구체적으로 명시되었는가?팀원의 역할 분담이 적합하..

카테고리 없음 2025.01.07

2024.12.19- TIL

1. 집계된 데이터와 비집계 데이터를 혼합할 때 발생하는 오류 해결문제: Tableau에서 집계 함수(SUM, AVG)와 비집계 데이터를 함께 사용할 때 오류 발생.해결 방법: 모든 계산 필드를 집계 함수로 감싸거나, 이미 집계된 필드만 사용하는 방식으로 수정.예: 헤비 유저와 라이트 유저를 나눌 때 SUM([Total Playtime Second]) >= AVG([Total Playtime Second]) 형태로 계산 필드 작성.2. 헤비 유저와 라이트 유저 구분기준:Total Playtime Second가 평균 이상.Pay Amount가 상위 10%인 유저를 헤비 유저로 분류.구현:계산된 필드에서 PERCENTILE 함수와 SUM 함수 사용:plaintext코드 복사IF SUM([Total Playt..

카테고리 없음 2024.12.19

2024.12.17- til

TIL (Today I Learned) - 게임 데이터 분석 및 대시보드 구축 프로젝트  오늘의 배운 점EDA의 중요성: 데이터를 이해하고 파생변수를 만들면 분석 및 모델링의 성능을 높일 수 있음목표 설정과 기획: 데이터를 활용해 실질적인 비즈니스 문제를 해결할 수 있도록 구체적인 목표 설정파생변수 생성: 원본 데이터를 기반으로 유의미한 파생변수를 설계하는 작업이 중요함회귀 모델: 예측 모델을 통해 유저의 행동 패턴과 매출 간의 관계를 파악할 수 있음내일 계획생성된 파생변수를 활용하여 EDA 심화 분석회귀 모델 학습 및 검증 (Linear Regression & Random Forest)대시보드 설계 초안 구체화 및 시각화 진행유저 세그먼트별 인사이트 도출 및 액션 플랜 정리 힘들다,,, 어려워어,,,,

카테고리 없음 2024.12.17

2024.12.16 - til

1. Scatter Plot 만들기오늘은 GDP per Capita와 Happiness Score 간의 관계를 보여주는 Scatter Plot을 만들었다.X축에는 GDP per Capita, Y축에는 Happiness Score를 배치.Region(지역)에 따라 점의 색깔을 다르게 지정해, 지역별 패턴을 시각적으로 비교할 수 있도록 설정했다.처음에는 데이터가 집계되어서 각 Region당 점이 하나만 표시됐지만, 데이터 집계를 해제(Disaggregate Data)한 뒤에는 각 데이터 포인트가 잘 보였다.추가로, 두 변수의 상관관계를 더 잘 이해하기 위해 트렌드 라인(Trend Line)도 추가해봤다. 이걸 통해 지역 간 패턴을 좀 더 명확히 파악할 수 있었다.2. 대시보드 제작하기Scatter Plot과..

카테고리 없음 2024.12.16

2024.12.12 - 아티클스터디

https://medium.com/@calebcho/%EB%B2%88%EC%97%AD-%EB%8D%94-%EB%82%98%EC%9D%80-%EB%8C%80%EC%8B%9C%EB%B3%B4%EB%93%9C-%EB%94%94%EC%9E%90%EC%9D%B8%EC%9D%84-%EC%9C%84%ED%95%9C-10%EA%B0%9C%EB%AA%85-10-rules-for-better-dashboard-design-4fe915895b9c [번역] 더 나은 대시보드 디자인을 위한 10개명: 10 rules for better dashboard design실용적 가이드 (Practical Guide)medium.com요약대시보드의 목적 정의Operational Dashboard분초를 다루는 임무를  하고 있는 사용자들..

카테고리 없음 2024.12.12

2024.12.10 - 머신러닝 개인과제

1. 기초통계 statistics csv 파일을 읽고, 성별 Review Rating 에 대한 평균과 중앙값을 구해주세요. 결과는 소수점 둘째자리까지 표현해주세요.그리고 이에 대한 해석을 간략하게 설명해주세요. import pandas as pdimport numpy as np import scipy.stats as statsfrom datetime import datetime, timedelta 필요한 라이브러리를 불러온 후homework = pd.read_csv('C:/Users/USER/Downloads/데이터분석/머신러닝 개인과제/statistics.csv')homework.head() statistics csv파일을 불러와 homework라는 데이터프레임을 만들어주었습니다.gender_stati..

카테고리 없음 2024.12.10

2024.12.02 - til

오늘 한 일:브라질 지역별 데이터 분석 준비:브라질 주(customer_state)를 5개 지역(region)으로 나누는 파생 변수 생성.각 지역별 평균 배송비, 배송 시간, 상품 무게를 계산해서 데이터를 정리.시각화 작업:Seaborn을 활용해 지역별 평균 배송비를 바 그래프로 시각화.과정 중 발생한 데이터 불일치 에러를 디버깅하고 수정.상관관계 분석:수치형 데이터 간 상관관계를 분석하고 히트맵으로 시각화.어떤 변수들이 밀접하게 관련이 있는지 확인하며 데이터의 패턴을 파악.데이터 정리 및 처리:추가 파생 변수 생성 (delivery_time_diff, volume_cm3 등).결측값을 처리하고, 데이터 분석과 시각화에 적합한 형태로 정리.배운 점:데이터 컬럼 이름이나 타입에 실수가 있으면 시각화 도구에..

카테고리 없음 2024.12.02

2024.11.28 -아티클스터디

https://yozm.wishket.com/magazine/detail/2611/ 머신러닝 : 컴퓨터가 데이터로부터 패턴을 학습하여, 명시적인 프로그래밍이 없이 어떤 예측이나 분류 작업을 수행하는 것인공지능, 머신러닝, 딥러닝인공지능: 인간의 지능을 모방하는 기술을 총칭  머신러닝: 인공지능을 구현하는 방법론 중 하나딥러닝: 머신러닝의 한 종류 / 인공신경망을 기반으로 한 심층 학습 기술머신러닝의 분류와 유형 - 지도학습, 비지도 학습, 강화학습지도학습라벨이 있는 훈련 데이터를 사용하여 모델을 학습시키는 방법/ 입력 데이터와 그에 해당하는 라벨을 머신러닝 모델에 제공하여 입력과 정답간의 관계를 학습시키는 것 ( 분류, 회귀 )비지도 학습라벨이 없는 데이터를 사용하여 데이터에 내재된 구조나 패턴을 발견하..

카테고리 없음 2024.11.28

2024.11.26 - til

오늘은 주택 가격 예측 데이터를 활용해 데이터 전처리와 탐색 작업을 진행했다. 이 과정에서 데이터 분석의 기본적인 테크닉과 라이브러리를 활용하면서 유의미한 인사이트를 도출하기 위한 발판을 마련했다.1. 결측치 처리주요 열의 결측치를 확인하고, 각각 적절한 방식으로 보완했다.LotFrontage는 Neighborhood별 평균값으로 채웠다.결측치가 과도하게 많은 Alley, PoolQC 등의 열은 삭제를 고려했다.MasVnrType, MasVnrArea, Garage 관련 열은 결측치를 별도의 카테고리("None")로 대체하거나 의미 있는 수치로 변경했다.처리 도중 FutureWarning과 chained assignment 관련 경고가 발생했는데, 이를 통해 데이터 프레임 조작 시 주의사항을 배우는 계기..

카테고리 없음 2024.11.26

2024.11.19 - 통계학 기초 6주차

가설검정의 주의점[수업 목표]가설검정의 다양한 주의점에 대해 이해한다이러한 주의점들을 참고하여 가설검정을 진행할 수 있다6.1 재현가능성- 우연히 결과가 나오는 것이 아닌, 항상 일관된 결과가 나오는지 확인 1) 재현가능성이란?재현 가능성동일한 연구나 실험을 반복했을 때 일관된 결과가 나오는지 여부. 연구의 신뢰성을 높이는 중요한 요소ex) 신약을 개발할 때 실험실에서만 효과가 있는 것이 아니라 실제 상황에서도 일관된 결과가 나온다고 믿을 수 있기 때문에 개발 가능한 것최근 p값에 대한 논쟁이 두드러지고 있음p값을 사용하지 않는 것이 좋다.유의 수준을 0.05에서 변경하는 것이 좋다.가설검정 원리상의 문제나 가설검정의 잘못된 사용이 낮은재현성으로 이어진다는 문제 발생최근 논문을 다시 재현해서 실험을 해보..

카테고리 없음 2024.11.19