https://youtu.be/6UerMbGvwZk https://blog.naver.com/data_station/222493268636 CDA(확증적 데이터 분석) 통계적 가설검정 귀무가설 : 대립가설의 반대 (보통가설 / 일반적 상태(의심x)) 대립가설 : 내가 의심하는 상태 / 내가 규명하고자 하는 가설 p.value : 귀무가설이 참일 확률 (0~1) -> 이 값이 낮을수록 귀무가설을 기각 유의수준 : 가설검정 판단의 기준 (보통 0.05) p.value > 0.05 : 귀무가설이 참 (귀무가설 기각 실패) p.value < 0.05 : 대립가설이 참 (귀무가설 기각) ex) 고객 성별에 따라 매출액에 차이가 있는가? - 귀무가설 : 고객 설병에 따라 매출액에 차이가 없을 것이다. - 대립가설 ..
데이터 형식 question = raw.iloc[0] 0번째 행이 질문의 내용이기 때문에 iloc를 이용해서 0번째 행을 question 변수에 할당 answer = raw.drop([0]) 0번째 행은 질문이니까 제거하고 answer에 할당 각각 찍어보면 이렇게 나온다. answer["Q1"].value_counts(normalize = True) * 100 나이에 대한 답변이 담겨있는 Q1을 value_counts를 normalize 해주고 * 100을 하게 되면 25-29 20.081.... 22-24 18.895.... 이런 식으로 비율로 표현이 된다. sns.countplot(data = answer.sort_values("Q1") , x ="Q1" , palette = "Blues_r" ).s..
# 현재 상황 # 8월 2주 차 개강반부터 새로 제작된 3주차 콘텐츠를 듣기 시작했습니다. # 8월 중순부터 웹개발 종합반의 완주율이 크게 떨어진 이유를 밝혀야 합니다 # 8월 중순부터 웹개발 종합반의 완주율이 크게 떨어졌으므로, # 비슷한 시기에 진행한 프로덕트 개선이 영향을 미쳤을 가능성이 있어보입니다 . 우선 데이터는 이런 모습을 가지고 있다. 각각의 개강반(주차)별로 진도율(주차)을 구해서 히트맵을 그려보자. 일단 created_at 컬럼이 문자열이라 datetime 형식으로 바꿔주었다. 포맷을 지정해 주고 pd.to_datetime을 통해 datetime 형식으로 바꿔주고 개강반을 의미하는 start_week 컬럼을 만들어 넣어주었다. 위 사진처럼 개강한 주를 알기 위해 dt.isocalenda..
우선 내가 스스로 한 코드는 이렇다. # csv 파일 불러오기 data = pd.read_csv('done_detail.csv', sep = ',') # 날짜 형식 포맷 format='%Y-%m-%dT%H:%M:%S.%f' # 'done_date_datetime' 이라는 새로운 열을 만들고 'dont_date'를 날짜 타입으로 만들어서 넣어줌 data['done_date_datetime'] = pd.to_datetime(data['done_date'], format = format) #dt.day_name() 을 이용하요 월~일 요일 명명 후 'done_date_weekdata' 라는 열을 만들어서 넣어줌 data['done_date_weekdate'] = data['done_date_datetime']..
대략적인 판다스 사용 흐름 1. Pandas 사용 선언하기 2. 데이터 가져오기 3. 데이터 확인 및 표 읽기 4. 결측치 제거하기 데이터를 불러오고 기본적으로 해야할 것 # 데이터 불러오기 data = pd.read_csv('파일 경로', sep = ',') # 결측값 확인 print(data.isnull().sum()) # 결측값 제거 data = data.dropna() 분석 및 시각화 # 상관계수 구하기 corr = data.corr(method = 'pearson') # 필요없는 데이터 제거, 상관계수가 1이 아닌 데이터만 불러오기 corr = corr[corr.'행 이름' != 1] # 필요 없는 데이터 삭제 corr = corr.drop(['Passengerid'], axis = 'rows'..