728x90

pandas 3

AWS Sagemaker 초보자를 위한 개념과 실습(5) - Feature Engineering

팁뚠이입니다. 지난 시간에는 데이터 분석에 필요한 특질 분석(Feature Engineering) 과정의 개념을 설명드리고, AWS의 저장공간 S3에 데이터를 업로드하는 과정을 실습해봤습니다. 지난 시간에도 전달드렸지만, AWS에서 특질 분석을 하는 방법은 총 3가지로 Data Wrangler, Numpy and Pandas, Sagemaker Processing 세 가지 방식입니다. 그중에서 편리한 방법은 Data Wrangler이나, 자유도가 떨어지기 때문에 일반적인 코딩을 하시는 분들은 익숙한 파이썬 Numpy와 pandas를 사용해서 하시는 게 좋습니다. 그럼 Numpy와 pandas를 사용해서 특질 분석을 수행하도록 하겠습니다. 금일 실습 내용 Amazon Sagemaker Studio note..

파이썬팁 2022.05.08

AWS Sagemaker 초보자를 위한 개념과 실습(4) - Feature engineering

팁뚠이 입니다. 지난 시간에는 github에서 데이터를 받아, aws에 설치하는 과정과 앞으로 머신러닝을 하는 전체 과정에 대해 소개하고, 순서도를 통해 가시적으로 파악해봤습니다. 이제는 전체 과정 중 첫 번째로 데이터에 대한 특질 분석(Feature Engineering) 과정을 수행하도록 하겠습니다. 특질 분석은 데이터 분석에 있어 가장 중요한 과정 중에 하나인데, 딥러닝이 아닌 머신러닝에선 특질에 대해 학습을 하기 때문에, 사전에 특질에 대한 정보가 필요합니다. 예를 들면, 사과의 모양은 동그랗고, 색깔은 빨갛고, 꼭지가 달려있다는 것을 토대로 특질을 모양, 색깔, 꼭지 여부 3가지로 잡을 수 있습니다. 데이터에서도 이러한 특질을 잡을 수 있게 해주는 게 특질 분석 과정입니다. 오늘의 내용을 미리 ..

파이썬팁 2022.04.30

파이썬 속도를 빠르게 numpy 브로드캐스트를 사용하기

팁뚠이 입니다. 많은 분들이 알고 계시지만 파이썬은 인터프리터(interpreter) 언어로 대화형 방식입니다. 이러다 보니 C언어나 자바에 비해 속도가 많이 느립니다. 실제로도 필드에선 파이썬은 데이터 분석, 알고리즘 개발용으로 사용하고 iot 나 H/W에 담을 때는 C언어나 자바로 변환하여 사용합니다. 물론 클라우드를 사용한다면 도커를 활용하여, 이 부분이 해소가 됩니다만 모든 곳에 클라우드가 들어갈 순 없기 때문에, 파이썬을 사용하려면 속도를 고려하지 않을 수 없습니다. 그러나, C언어나 자바의 경우 상대적으로 익히기 어려운 언어이고, AI나 특정 필드에 있어선 파이썬만큼 라이브러리가 잘 구축되어 있지 않습니다. 결국엔 파이썬을 써야 하는 인구는 계속 늘고 있는 상황에서 파이썬을 활용해 최대한 속도..

파이썬팁 2022.04.16
728x90