728x90

파이썬팁 11

AWS Sagemaker 초보자를 위한 개념과 실습(5) - Feature Engineering

팁뚠이입니다. 지난 시간에는 데이터 분석에 필요한 특질 분석(Feature Engineering) 과정의 개념을 설명드리고, AWS의 저장공간 S3에 데이터를 업로드하는 과정을 실습해봤습니다. 지난 시간에도 전달드렸지만, AWS에서 특질 분석을 하는 방법은 총 3가지로 Data Wrangler, Numpy and Pandas, Sagemaker Processing 세 가지 방식입니다. 그중에서 편리한 방법은 Data Wrangler이나, 자유도가 떨어지기 때문에 일반적인 코딩을 하시는 분들은 익숙한 파이썬 Numpy와 pandas를 사용해서 하시는 게 좋습니다. 그럼 Numpy와 pandas를 사용해서 특질 분석을 수행하도록 하겠습니다. 금일 실습 내용 Amazon Sagemaker Studio note..

파이썬팁 2022.05.08

AWS Sagemaker 초보자를 위한 개념과 실습(4) - Feature engineering

팁뚠이 입니다. 지난 시간에는 github에서 데이터를 받아, aws에 설치하는 과정과 앞으로 머신러닝을 하는 전체 과정에 대해 소개하고, 순서도를 통해 가시적으로 파악해봤습니다. 이제는 전체 과정 중 첫 번째로 데이터에 대한 특질 분석(Feature Engineering) 과정을 수행하도록 하겠습니다. 특질 분석은 데이터 분석에 있어 가장 중요한 과정 중에 하나인데, 딥러닝이 아닌 머신러닝에선 특질에 대해 학습을 하기 때문에, 사전에 특질에 대한 정보가 필요합니다. 예를 들면, 사과의 모양은 동그랗고, 색깔은 빨갛고, 꼭지가 달려있다는 것을 토대로 특질을 모양, 색깔, 꼭지 여부 3가지로 잡을 수 있습니다. 데이터에서도 이러한 특질을 잡을 수 있게 해주는 게 특질 분석 과정입니다. 오늘의 내용을 미리 ..

파이썬팁 2022.04.30

AWS Sagemaker 초보자를 위한 개념과 실습(3) - github, Machine Learning

팁뚠이 입니다. 지난 시간에 sagemaker의 기본 세팅에 대해 설명드렸습니다. 잊으신 분들은 한 번 더 보시고 오시는 걸 추천합니다. 오늘은 이어서, github에서 필요 데이터를 다운로드하고(git clone), AWS의 머신러닝 전 과정에 대해 브리핑하는 이론 내용을 다룹니다. Github에서 데이터 분석에 필요한 원본 데이터를 다운 받는다. AWS Sagemaker를 활용한 Machine Learning(머신러닝) 전체 과정에 대해 브리핑합니다. AWS Sagemaker뿐 아니라 aws는 UI 업데이트가 잦다 보니, 현재 화면과는 다소 차이가 있을 수 있음을 전달드립니다. 우선 실행 전에 지난 시간에 설정하고 생성했던, Sagemaker 노트북 화면을 띄우고 시작하겠습니다. 1. Launch T..

파이썬팁 2022.04.27

AWS Sagemaker 초보자를 위한 개념과 실습(2)

팁뚠이 입니다. 1탄에 이어서 2탄 진행합니다. 2탄은 우선 본 내용으로 넘어가기 전에, AWS Sagemaker의 실행과 기본 개념들을 익히고, 사진을 보면서 따라 하는 작업입니다. 지난 1탄의 내용을 복습하시고, 2번째 내용을 따라 하시길 바랍니다. AWS는 200여 개가 넘는 서비스를 가지고 있다 보니, AWS 직원들도 전부 알진 못하는 경우가 발생할 정도입니다. 개별 필드의 전문가들은 개별 서비스만 전문이다 보니, 두루두루 알긴 어렵습니다. 본 내용도 AWS를 활용해서 AI를 할 수 있는 내용으로만 최소한의 서비스로만 구성하였습니다. 실제로 비즈니스에 적용할 때에는 더 고려할 내용이 많지만 처음에는 이 정도만 익혀도 과분하다 생각합니다. 이번에 다룰 내용은 아래와 같습니다. Sagemaker St..

파이썬팁 2022.04.22

AWS Sagemaker 초보자를 위한 개념과 실습(1)

팁뚠이 입니다. 많은 분들이 클라우드, AI, 빅데이터 등을 공부합니다. 특히 AI를 공부하는 분들은 구글 코랩이나 본인의 데스크톱을 활용해서 코딩을 하고 실험을 합니다. 실제 필드로 나오게 되면 사업에 접목해야 하기 때문에, 구글 코랩이나 본인 데스크톱에서 생성한 코드를 클라우드에 올려서 구동을 해야 합니다. IoT까지 연계를 해야 하고, 서버도 클라우드로 생성해야 하고, 주기적으로 추론 동작도 해야 하고, 재학습도 주기를 설정해야 하고, 각종 기술들이 필요합니다. 그래서 필드에선 Fully-connected 플랫폼을 사용하는 데, 말 그대로 이 모든 기능들이 포함된 클라우드입니다. 주로 AWS Sagemaker, MS AZURE, Google GCP 등이 꼽히는 데, 점유율로는 aws가 가장 높고, ..

파이썬팁 2022.04.21

통계 부트스트랩(Bootstrap) 개념 파이썬을 이용해 알아보기

팁뚠이 입니다. 통계학에서 부트스트랩(Bootstrap)이 1970년대에 개발되어, 당시엔 혁명적이었습니다. 80, 90년대에도 굉장히 대단한 이론으로 꼽히고, 현재에도 머신러닝, 여론조사 등 많은 부분에서 사용되는 혁명적인 이론입니다. 부트스트랩이 읽기만 해선 쉬운 데, 생각보다 감이 안 오는 경우가 많아서 다른 블로그들을 찾아봤는 데 대부분 읽어보면 내용은 좋은 데, 워낙 어렵게 썼고, 수식과 영어가 남발되는 경향이 있습니다. 용어에도 익숙하지 않은 데, 이렇게 어렵게 쓰면 전공자가 아니고선 바로 이해가 되지 않겠구나 생각이 들어서 본 포스팅을 작성합니다. 부트스트랩은 표본에서 다시 표본을 만들 수 있는 기술이다. 부트스트랩은 통계학에서 손꼽히는 굉장히 우수한 기술입니다. 표본에서 다시 표본을 만든다..

파이썬팁 2022.04.18

통계 중심극한정리 개념 파이썬 코드로 이해하기

팁뚠이 입니다. 머신러닝, 딥러닝을 연구 개발하시는 분들은 필수로 선형대 수학과 확률과 통계학을 기본으로 공부를 합니다. 대부분의 내용이 대학교 학부 때 수강하거나 고등학교 입시 때 배운 내용이다 보니 기억이 가물가물한 경우가 있고, 특히 확률과 통계의 경우 고등학교 때 공식만 암기 후 수능을 치는 분들이 많았습니다. 그러다 보니, 실제로 인공지능에서 적용 시, 개념적 이해가 어려워 적용이 힘든 경우가 많습니다. 그래서 이번엔 통계에서 가장 중요한 이론 중 하나인 중심 극한 정리를 개념적으로 간단히 소개하고, 파이썬 코드로 이해하는 포스팅을 합니다. 우선 중심 극한 정리의 정의부터 알아보겠습니다. 중심 극한 정리 표본 크기가 30 이상이면, 표본 평균의 분포는 정규분포를 따른다. 통계에 있어서 가장 중요..

파이썬팁 2022.04.17

파이썬 속도를 빠르게 numpy 브로드캐스트를 사용하기

팁뚠이 입니다. 많은 분들이 알고 계시지만 파이썬은 인터프리터(interpreter) 언어로 대화형 방식입니다. 이러다 보니 C언어나 자바에 비해 속도가 많이 느립니다. 실제로도 필드에선 파이썬은 데이터 분석, 알고리즘 개발용으로 사용하고 iot 나 H/W에 담을 때는 C언어나 자바로 변환하여 사용합니다. 물론 클라우드를 사용한다면 도커를 활용하여, 이 부분이 해소가 됩니다만 모든 곳에 클라우드가 들어갈 순 없기 때문에, 파이썬을 사용하려면 속도를 고려하지 않을 수 없습니다. 그러나, C언어나 자바의 경우 상대적으로 익히기 어려운 언어이고, AI나 특정 필드에 있어선 파이썬만큼 라이브러리가 잘 구축되어 있지 않습니다. 결국엔 파이썬을 써야 하는 인구는 계속 늘고 있는 상황에서 파이썬을 활용해 최대한 속도..

파이썬팁 2022.04.16

파이썬 클래스 상속 개념 잡기

팁뚠이 입니다. C언어는 포인터를 쓰고 부터 새로운 언어가 되듯이 파이썬은 클래스를 쓰면서 새로운 언어가 됩니다. 클래스를 안 써도 함수만으로도 충분히 구현이 가능한데, 왜 사용하는 지에 답은 C언어도 포인터를 사용하지 않고도 함수로 구현가능하다는 점으로 답을 드리고 싶습니다. 이미 많은 문헌과 기술자료에서 파이썬 클래스를 왜 사용하는 지에 대해선 언급했으니, 그 중에서 어려운 개념인 상속에 대해 얘기해보도록 하겠습니다. 클래스 상속: 기반 클래스의 기능을 물려받음 상속의 정의는 1) 뒤를 이음, 2) 한 사람이 사망한 후에 재산이나 권리, 의무의 일체를 물려받는다. 입니다. 여기서 클래스 상속은 기반이 되는 클래스의 기능을 하위 클래스에서 물려 받는 것입니다. 클래스가 사망을 하지는 않으니, 정의 중에..

파이썬팁 2022.04.08

파이썬 _과 __은 무슨 의미를 가질까요? public, private 속성

팁뚠이 입니다. JAVA나 C++ 등의 언어를 오래 쓰다 파이썬을 접하게 된 분들은 생각보다 간편하다란 느낌을 갖지만 한편으론 이렇게 지정을 하는 게 없으니 디버깅 할 때 힘들겠다란 생각을 지울 수 없습니다. 파이썬이 인터프리터 언어이다 보니, 많은 부분을 지정하지 않아도 자동으로 처리하는 부분이 있습니다. 사용의 편리함은 있지만 추후 디버깅이나 운영 시엔 문제가 되는 부분이 발생합니다. 그중 하나가 public과 private 입니다. 외부에서 접근하여 수정이 가능한 지 여부에 따라 나뉘게 되는 데, _, __ 밑줄이 변수나 메서드 앞에 등장하면 이게 무엇인 가 하고 어색한 경우가 많습니다. 한 번 알아보도록 하겠습니다. public: _(밑줄)로 시작하지 않는 속성 및 메소드 외부에서 접근 및 수정이..

파이썬팁 2022.04.03
728x90