파이썬팁

AWS Sagemaker 초보자를 위한 개념과 실습(4) - Feature engineering

팁뚠이 2022. 4. 30. 20:09
728x90

팁뚠이 입니다. 지난 시간에는 github에서 데이터를 받아, aws에 설치하는 과정과 앞으로 머신러닝을 하는 전체 과정에 대해 소개하고, 순서도를 통해 가시적으로 파악해봤습니다. 이제는 전체 과정 중 첫 번째로 데이터에 대한 특질 분석(Feature Engineering) 과정을 수행하도록 하겠습니다. 특질 분석은 데이터 분석에 있어 가장 중요한 과정 중에 하나인데, 딥러닝이 아닌 머신러닝에선 특질에 대해 학습을 하기 때문에, 사전에 특질에 대한 정보가 필요합니다. 예를 들면, 사과의 모양은 동그랗고, 색깔은 빨갛고, 꼭지가 달려있다는 것을 토대로 특질을 모양, 색깔, 꼭지 여부 3가지로 잡을 수 있습니다. 데이터에서도 이러한 특질을 잡을 수 있게 해주는 게 특질 분석 과정입니다. 오늘의 내용을 미리 요약하면 아래와 같습니다. 

 

  1. 데이터셋을 S3 버킷에 업로드 한다.

 

AWS Sagemaker에는 이러한 특질 분석이 편리하게 할 수 있도록, Data Wrangler 서비스가 있고, Amazon Sagemaker Feature 서비스를 통해 추출된 특질을 저장하고 공유할 수 있습니다. 그러나, 개인적으로 지금 포스팅을 보시는 대부분의 이용자 분들은 기본적으로 파이썬을 다루실 줄 아시고, 주피터 노트북에서 수행하는 것에 대해 무리가 없으시기 때문에, 기존에 하시던 방식인 pandas와 numpy를 이용하도록 하겠습니다. 특질 분석 서비스들이 이용은 편리한데, 아무래도 자유도가 떨어지고, 범용성을 고려하더라도 직접 코딩하는 게 낫고 익숙하기 때문에, pandas와 numpy를 이용하도록 하겠습니다. 

 

 1. 아래의 url에 접속하여, 파일을 다운로드합니다. 

https://sagemaker-sample-data-us-west-2.s3-us-west-2.amazonaws.com/autopilot/direct_marketing/bank-additional.zip

2. 다운로드한 파일의 압축을 풉니다. AWS Console로 접속하여 S3를 검색하여 접속합니다. 

 

3. S3에 접속하면, sagemaker-studio-* 버킷이 생성되어 있습니다. 해당 버킷을 클릭하시기 바랍니다.

 

4. 업로드(Upload) 버튼을 누릅니다. 

 

5. 업로드 페이지에서 압축을 푼 bank-additional 폴더를 드래그 앤 드롭으로 넣습니다. 

 

 

6. Files and folders란에 업로드한 폴더가 보입니다. 

 

7. 하단에 업로드 버튼을 클릭하시기 바랍니다. 

 

8. 업로드가 끝나면, 초록색 띠에 업로드 성공(Upload succeeded) 표시가 뜹니다. 닫기(close)를 누르시기 바랍니다. 

 

9. s3 버킷에 해당 파일들이 업로드되었는지 확인할 수 있습니다. 

 

10. bank-additional 폴더를 클릭하면 하위에 3개의 파일이 있는 것을 확인 할 수 있습니다. 

 

Amazon S3는 Simple Storage Service의 약자로 간단히 말해 온라인 저장공간입니다. 장점이 가격이 매우 매우 저렴합니다. 그리고, 안정성도 훌륭하고 속도도 빠른 편입니다. 무엇보다 AWS 다른 서비스들과 연계가 되는 가장 범용적인 데이터 공간이다 보니, AWS 서비스 이용 시 필수로 사용합니다. AWS를 사용하지 않더라도, 내부 파일 관리용으로 사용하는 기업도 많습니다. 이번 시간에는 특질 분석에 필요한 데이터를 다운로드하고 S3에 업로드하는 과정을 했고, 다음 시간에는 pandas, numpy를 활용하여, 특질 분석을 하도록 하겠습니다. 

728x90