728x90
반응형

그녀의 일 10

[Streamlit] 초기세팅 / 데이터브릭스 (databricks) & 스프레드시트 (gspread) 연동

Streamlit 선정 이유 데이터분석가/데이터 사이언티스트라면, 내가 모델링한 결과물을 유관부서와 내용을 공유 할 일이 비일비재 할 거다.나는 매번 [구글 스프레드시트]로 공유했는데, 상품 이미지와 함께 결과물을 봐야 할 때 스프레드시트의 한계에 부딪히게 된다.그러면 [태블로]로 써야지! 했으나, 태블로에 데이터로 로드하고 결국 시각화하는 작업이 필요하다. (팀장님의 푸시로.. 버티다버티다)웹 어플리케이션을 개발하기로 했다. Python으로 개발 가능한 웹 어플리케이션을 찾아보니 정말 많은 패키지가 있었다.> Streamlit, Shiny for python, Gradio, Flask, Dash 등등.. 이 들 중 Streamlit과 Shiny를 고민했는데.. 각각의 장단점은 이렇다고 한다. Strea..

그녀의 일 2024.06.21

[SQL] 리텐션 구하기 | N-Day Retention, Range Retention, Rolling Retention

리텐션이란? 우리가 흔히 사용하는 '쇼핑앱'이나 '여행앱' 등 각종 서비스들은 신규 고객 유치를 위해 각종 마케팅을 하는데요, 이 고객들이 이탈하지 않고 계~~속해서 사용해줘야 서비스가 잘 유지되겠죠? 고객이 서비스를 얼마나 재사용하는가! 를 파악하기 위한 지표가 '리텐션'입니다. 서비스의 리텐션을 산출하기에 앞서 아래 3가지를 우선 정의해야 합니다. a. 이벤트 기준 (어느 기준으로 리텐션을 볼 것인지. 예를 들면 방문이나 주문) b. 리텐션 정의 (어떻게 리텐션을 산출할것인지) c. 리텐션 주기 (유저의 사용 빈도에 따라 주단위로 할건지, 월단위로 할건지) 이는 서비스 지향점에 따라, 목적에 따라 각기 다른 방식으로 정의해서 보곤합니다. 저희는 주로 살펴보는 '방문' 리텐션으로, 리텐션 정의와 리텐션..

그녀의 일 2023.04.25

T-Test 검정 | 일표본T검정, 독립표본T검정, 대응표본T검정 (Python)

안녕하세요. 그녀입니다.👩🏻‍🏫 데이터 분석에 필요한 통계를 주제로 몇 가지 포스팅 해보려 합니다~ 그 중 첫번째는 T-Test 검정인데요, 실무에서 A/B Test나 Switchback test진행 시, 기본적으로 사용하는 통계기법이기에 이참에 저도 한 판 정리를 해보려고 합니다!! 1. t-test는 언제쓰죠? 가설의 독립변수가 범주형이고, 종속변수가 연속형일 때 사용 할 수 있는 검정 방식인데요. t-test는 두 개의 표본 평균간의 차이를 검정합니다! 검정한다는 뜻은 평균간의 차이가 유의미한지 통계적으로 확인하는 과정이다 라고 이해하시면 됩니다. 2. 무엇을 검정하나요? 모집단의 분산이나 표준편차를 알지 못 할 때, 모집단을 대표하는 표본으로부터 추정된 분산이나 표준편차를 가지고 검정하는 방법입니..

그녀의 일 2023.04.07

기초 통계 용어 정리 | 귀무가설, 대립가설, 유의수준, p-value

안녕하세요. 그녀입니다! 👩🏻‍🏫 통계 분석이라 하면 t-test, 회귀분석 등등 많이 들어보셨을텐데, 통계 분석을 하기에 앞서 가장 기본이 되는 개념을 놓치고 있으면 가설 수립과 해석이 의미가 없습니다. 그래서 통계 분석하기 전에, 초보자 분들을 위해 기초 통계 용어를 정리해보려고 합니다! 통계 분석 절차 통계 분석은 아래의 절차대로 진행되는데요. 가설 설정 유의수준 결정 (α) 측정지표 선정 통계 분석 수행 해석 자 그런데.. 가설..? 유의수준..? p-value? 이게 뭔지!! 모르시겠다구요? 아래 내용 살펴봐주세요! 1. 가설 설정 통계 검정을 할 땐, 사전에 가설 (귀무가설과 대립가설)을 아래와 같이 정의합니다. 내가 무엇을 확인하기 위해 통계 검정을 하는지 기준이 있어야 하니까요! 귀무가설..

그녀의 일 2023.04.07

Swtichback test란?

DoorDash Dispatch 팀에서 하는 일 dasher가 적절한 배달을 하는 것 예측 (언제 픽업, 도착 할지) -> time estimation 묶음 배송 -> stacking 가격 변화와 함께, 수요공급 균형을 위한 전략 수립 -> dynamic pricing 실험과 시뮬레이션은 위 문제들을 해결하는데 중요함 그러나, 이는 offline에서의 AB Test에선 가능했으나, online에선 network effect로 인해 한계가 있음 예시. SOS pricing 설명 : 수요 폭발 시 배달 수수료 인상으로, 수요 공급 조절 (리텐션, 배달 시간) 실험 방법 A/B Test : 고객(혹은 배달 건) 분류이므로 서로 영향 받음. 통제군과 실험군이 완전히 독립적이라 볼 수 없음 (=spillover ..

그녀의 일 2023.03.23

Apach Kafka 란? | producer, consumer, topic, partition 용어 설명

Apach Kafka 란 실시간으로 기록 스트림을 게시, 구독, 저장 및 처리할 수 있는 분산형 데이터 스트리밍 플랫폼 장점 1 : 복제기능으로 서버 이슈에도 데이터 손실없이 복구가능 장점 2 : 처리량이 높아 빅데이터 처리에 유용 (broker, partition) 용어 설명 producer : 데이터를 카프카에 보내는 역할 대용량의 클릭 로그를 실시간으로 카프카 topic에 생성 (저장) broker로 데이터 전송 할 때 전송 성공 여부 알 수 있음 consumer : 토픽 내 파티션에 저장된 데이터를 가져가는 역할 (=polling) partition offset 위치 기록 : 중단 및 손실되어도 기록된 위치 이후로 작업하면 됨 consumer group을 통해 병렬 처리 consumer group..

그녀의 일 2023.03.16

머신러닝 프로세스 한 번에 처리하기 | Pipeline, make_pipeline

파이프라인 (Pipeline) 은 전처리의 각 단계, 모델 생성, 학습 등을 포함하는 여러 단계의 머신러닝 프로세스를 한 번에 처리할 수 있는 클래스로, 머신러닝의 sklearn 라이브러리에 내장되어 있습니다. 변환기 (Transformer) 전처리 작업 파이프라인의 경우에는 변환기 (Transformer) 들로만 구성 데이터셋을 기반으로 일련의 모델 파라미터들을 추정 fit_transform() 추정기 (Estimator) 전체 프로세스 파이프 라인의 경우에는 여러 개의 변환기와 함께 마지막에 추정기 넣음 데이터셋을 변환하는 추정기 fit() 1. pipe = [ 변환기, 추정기] pipeline(pipe, verbose = True)​ 2. make_pipeline(변환기, 추정기) 샘플 import..

그녀의 일 2023.03.09
728x90
반응형