[KR] Hydra를 활용해서 Config 관리 효과적으로 해보자

데이터 사이언스, 머신러닝 프로젝트를 수행하기 위해서는 다양한 파라미터를 실험하는 과정이 동반됩니다. 이번 글에서는 파라미터와 설정값을 간결하게 관리하고 사용할 수 있게 도와주는 Hydra에 대해 알아보도록 하겠습니다. 1. Hydra란 Hydra는 페이스북에서 오픈소스로 공개한 프레임워크로, 어플리케이션에서 사용하는 여러가지 설정값을 관리할 수 있는 기능을 제공합니다. 직접 사용해본 Hydra는 아주 명확한 특징을 가지고 있습니다. 모든 설정 및 파라미터 값은 config.yaml로 관리하고 계층적으로 설정 그러한 와중에 command-line을 통해서 오버라이딩(overriding) 가능 한번의 명령어로 각각 다른 값을 대입하여 다중 실행 가능 이렇게 설명해도 와닿지 않을 수가 있겠죠....

November 7, 2021 · 3 min · Wonyoung Seo

[KR] 주피터노트북만 써왔던 당신을 위한 클린코드 소개서

주피터노트북을 벗어나보자 데이터 분석 공부를 시작하는 분들 중 90% 이상은 주피터 노트북을 활용하는 데에서 출발하셨을 것입니다. 주피터 노트북은 데이터 분석 결과를 빠르게 확인할 수 있고 있다는 점에서 아주 간편하고 입문자들에게는 진입장벽이 낮은 도구입니다. 하지만 주피터노트북 형태의 코드는 정리가 되어있지 않으면 코드가 뒤죽박죽 섞일 수 있고, 재사용이 힘들어 유지보수를 하거나 협업을 하는 관점에서는 활용도가 매우 떨어집니다. 이런 상황에서 기술적인 방법론이 아닌, 클린코드에 대한 감을 잡을 수 있도록 가이드 형식의 내용을 정리해보았습니다....

September 11, 2021 · 4 min · Wonyoung Seo

[KR] 정규표현식 기본 개념과 파이썬 re 패키지

1. 정규표현식이란 Regular Expression (또는 Regex) 특정한 규칙을 가진 문자열의 집합을 표현하는 데 사용하는 형식 언어. (Wikipedia) 2. 정규표현식의 구조 /PATTERN/FLAG / : 정규표현식임을 알리는 기호. 정규표현식의 시작과 끝에 위치함. PATTERN 정규표현식으로 찾고자하는 문자열의 패턴 FLAG 옵션 3. 정규표현식, 표현의 종류 3.1. 그룹과 범위 group and ranges | OR, 또는 () 그룹 지정 복수의 패턴을 하나의 그룹으로 묶어 찾는 식으로 사용할 수 있음 예시) gray 또는 grey 를 찾고자 할 때 /gr(a|e)y/gm URL 패턴을 찾고자 할 때 /(http|https):// ....

April 22, 2021 · 3 min · Wonyoung Seo

[KR] Python으로 구글 스프레드시트 연동하기 (ft. gspread)

0. Motivation Who’s Good에서는 ESG리서쳐와 분석가/개발자 간에 데이터를 주고 받는 일이 매우 빈번하다. 특히 기업 관련 뉴스 데이터와, 다양한 소스로부터 수집하는 ESG 관련 데이터에 대한 QC를 진행하고 결과를 DB에 적재하는 과정이 있다. 엑셀에서 작업한 데이터를 저장하고, 슬랙으로 전달하는 여러 단계와 여러 사람들을 거치다 보니 주고받은 파일명이 뒤죽박죽인 아주 원초(?)적인 문제부터, 데이터가 언제 업데이트 되었는지 추적이 불가능한 상황도 발생하면서 마음 한 켠에 찝찝함이 남아있는 나날이 계속 되었다. 언제 어디선가 불시에 문제가 생기지는 않을까 하는 두려움....

April 12, 2020 · 4 min · Wonyoung Seo