知/job지식 22

Weight initialization

목차 열기" data-ke-type="html">HTML 삽입미리보기할 수 없는 소스처음이 중요새로운 인공지능을 구성하고 학습 시 맨 처음 파라미터(가중치와 편향)는 어떻게 설정해야 할까?가중치의 최종값이 음수일지 양수일지 모르는 상황이라 모든 가중치는 0으로 설정하면 모두가 잘 찾아갈 수 있을 것 같다.하지만 모든 가중치가 같은 값을 가지면 위 링크의 w1이 x1에 영향을 받고 w2는 x2에 영향을 받는 것 같이 w에 관련 없이 입력에 따라 가중치가 업데이트를 가지는 경우도 있지만, 층이 깊어질 때 w에 영향을 받는다면 아예 학습이 안되거나 모두가 같은 값으로 업데이트가 될 수 있다.  0에 가깝게모두가 0이되면 학습이 안되니 매우 가깝게 랜덤으로 만들면 되지 않을까? 해서 정규분포의 모양 또는 평균이..

知/job지식 2024.05.15

Resnet 직관

개요이번 글에서는 Resnet이라 불리고 CNN의 도약으로 깊은 신경망을 구성할 수 있도록 된 Resnet에 대해 알아보자.먼저 이름이 어떻게 유래했는지 보자.ResNet의 논문명은 Deep Residual Learning for image Recognition 이다.Residual의 Res와 Network의 합성으로 ResNet이 나오게 되었다.Vanishing gradient(기울기 소실)깊은 신경망을 구성할 수 있게 되었다면 왜 그 이전에는 신경망을 깊게 쌓지 못했는지 파악하자.먼저 훈련을 진행하기 위해서는 변수의 영향력(미분값)을 측정해야한다. 역전파의 과정으로 Chain Rule에 따라 입력값에 가까워 질 수록 곱해지는 값이 많아진다. Activation Function이 Sigmoid라 생각해..

知/job지식 2024.05.05

CNN(Convolution Neural Network)

목차 열기" data-ke-type="html">HTML 삽입미리보기할 수 없는 소스 개요MLP에서 미처 말하지 못했지만, MLP같이 완전히 서로 연결되어 있는 Fully Conneted Layer이라 한다. 이것의 단점은 훈련할 파라미터(가중치와 편향)의 개수가 많다는 것이다. 입력의 개수를 N이라 했을 때 레이어의 퍼셉트론 개수를 O라 하면 (N+1) O가 파라미터의 수이다. 인풋이 이미지라고 생각해 보면 입력의 개수는 가로세로 256X256이어도 이미지는 색이 존재해 3채널(R,G,B)로 있어 256X256X3개이다. 퍼셉트론의 수가 곧 분석 도구의 개수이니 초반부터 개수를 줄이기 힘들다. 이를 극복할 방법중 하나로 CNN을 사용할 수 있다. 합성곱 신경망이라고도 부르는 CNN은 2개의 차원(가로,..

知/job지식 2024.05.02

활성화함수(Activation Function)

개요이번 글에서는 활성화 함수의 종류에 대해 이야기하겠다.활성화 함수의 역할은 선을 비선형으로 만드는 것으로 목적이다. 종류SigmoidtanhReLULeakyReLU 이전 예시로 사용한 Sigmoid의 특징부터 이야기하자어떤 입력값이든 0~1사이의 값으로 결과를 압축해 주는 역할을 한다. 이중분류에서는 마지막 아웃풋에서도 사용한다. 뉴런의 firing rate를 잘표현하다는데 그건 무슨 의미인지 모르겠다.  Activation Function Thinking PointSigmoid는 현재 잘 안쓰인다. 왜 그럴까? 다음과 같은 문제점들이 있다. 기울기 죽이기(Killing gradients)역전파(BackPropagation) 진행 시 중요한 건 미분의 값이다. Sigmoid의 입력값이 엄청 크거나 작..

知/job지식 2024.04.27

MLP(Multi-Layer Perceptron)의 직관

개요이번 MLP의 모습이나 용어보다 각 퍼셉트론의 역할과 왜 층을 쌓는지에 대해 이야기하겠다. 인공지능의 학습 포스트의 예시에서 알 수 있듯이 단 하나의 Perceptron으로도 판단을 내릴 수 있다. 하지만 한 번 접어 선을 구부리는 것으로는 더 복잡한 모양을 표현하기 어렵다. 예로 XOR gate를 만들기 위해 활성화함수를 Sigmoid만 사용해 하나의 Perceptron으로 만들 수 있을까?결론부터 말하면 불가능이다.   왜 하나만으로 불가능일까먼저 가정이 Sigmoid라는 Activation Function만 사용하는 것이다. Sigmoid는 선을 구부리면서 값의 최대 최솟값을 0~1 값으로 고정할 수 있으며 확률로 계산 가능하기 때문에 사용한다. 물론 Activation Function을 XOR..

知/job지식 2024.04.24