목록Python (2)
공부한 것 꼭꼭 씹어먹기
요즘은 새로 시작해보는 툴이 갑자기 많아졌습니다. 저는 갑자기 airflow도 다뤄야만 합니다. airflow는 무엇일까요? 에어플로우는 workflow management tool 입니다. 업무흐름을 관리하는 도구라는 뜻이죠. 아래 설명처럼 에어플로우는 프로그래밍 방식으로 워크플로우를 작성하고 스케줄링(예약)하고 관리(모니터링)하는 오픈 소스입니다. Apache Airflow is an open source platform to programmatically author, schedule, and monitor workflows. 간단히 말해서, 코드로 업무를 자동화할 수 있는 툴입니다. 주로 데이터 분야에서 많이 쓰이는 데요, 예를 들면 매일 경쟁사 데이터를 우리 회사의 데이터베이스에 넣어야 한다면?..
파이썬 판다스로 csv파일 읽기 최근에 갑자기 파이썬을 쓸 일이 생겼습니다. pandas라는 파이썬 라이브러리도 함께 말이죠. Python용 pandas 라이브러리는 데이터 형식 지정, 탐색적 데이터 분석 수행, 모델링 및 기계 학습에 사용할 데이터 준비에 매우 유용합니다. 그래서 빅데이터 분석 작업에 가장 많이 쓰이는 라이브러리가 pandas입니다. 빅데이터의 소스 데이터로 많이 쓰이는 csv파일은 가장 일반적인 파일 형식 중 하나로 엑셀 스프레드 시트와 같은데요. 쉼표로 구분된 값을 저장하는 csv파일은 데이터 유형과 같은 것에 대해 걱정할 필요 없이 기본적으로 .csv 파일로 작업할 수 있도록 합니다. Python에서 이러한 csv 파일을 사용하기 위해 pandas 라이브러리는 pd.read_csv..