109 -117 projection에 관련한 설명

          114 – 117 least squared approximation

116 – 124 coordinates

          coordinate with respect to a basis

          invertible change of basis matrix

          transformation with respect to a basis         

          change coordinates system to help find transformation matrix 

https://youtu.be/Hhc96U_HvQE

image

매트릭스 dot 연산에서 association property (rule)이 성립하는 것을 보여준다. 

(AB)C = A(BC)와 같다. 단 교환 법칙은 성립하지 않는다. AB는 BA와 같이 않다.

https://youtu.be/oMWTMj78cwc

image
image

매트릭스의 사이즈가 일단 dot연산이 가능한지 확인해야하고 가능하다면

아래와 같이 분배법칙이 성립한다. 그러나 교환 법칙은 성립하지 않는다. 

A(B+C) = AB+AC이다. (B+C)A = BA+CA이다. AB와 BA는 서로 같지 않다.

https://youtu.be/xKNX8BUWR0g

image

set Y의 모든 원소가 function의 images인경우 surjective function이라고 한다.

set Y에 남는 원소가 있다면 surjective function이 아니다. X에는 남는원소가 있을 수도 있다. X의 두개원소가 하나의 Y 원소에 대응되어도 surjective function이 될수 있다.

X의 원소 하나가 Y 원소 하나에 대응하는 경우 injective fucntion (one to one) 이라고 한다. 이때 Y에는 남는 원소가 있어도 상관없다. 다만 X의 모든 원소는 단하나의 Y원소에 대응해야 한다.

https://youtu.be/QIU1daMN8fw

image
image

함수 f 가 동시에 surjective, injective 한 경우에만 invertibility가 가능하다. 

https://youtu.be/eR8vEdJTvd0

image

위 그림은 column space of A가 Rm이고 이것의 reduced row echelon form이 모든 행에서 pivot entry를 가질때 trasformation이 surjective가 된다는 것을 보여주고 있다. 이를 다른 말로 Rank(A)가 행수가 되어야 한다는 이야기를 아래 그림이 보여주고 있다.

image
image

https://youtu.be/1PsNIzUJPkc

image

https://youtu.be/M3FuL9qKTBs

image
image

Ax = b 형태를 homogeneous system이라고 한다. 

image

위의 그림은 모든 Ax = b 형태의 시스템의 solution x는 xp + xn의 형태를 가지는 것을 설명한다.

image

https://youtu.be/Yz2OosyMTmY

image
image

invertible이 되기위해서는 정방행렬이어야 한다. 또 A를 reduced row echelon form으로 바꾸면 identity가 되어야 한다.

https://youtu.be/mr9Tow8hpCg

image

transformation T가 linear transformation인경우 T의 inverse도 linear transformation이다. 

https://youtu.be/6DpzCKJBsz0

image

reduced row echelon form으로 변형하는 과정 하나 하나는 transformation의 과정이다. 위 그림에서는 하나의 transformation은 하나의 matrix transformation으로 표현되고 있다. S1, S2, S3는 일련의 transformation matrix이다. reduced row echelon form 을 통한 최종 목표 형태는 identity이다. 그러므로 S1S2S3A = I라고 표현할수 있다. 

https://youtu.be/r9aTLTN16V4

image

reduced row echelon form 형태로 만드는 과정이 inverse matrix를 얻어내는 과정이다.

https://youtu.be/eEUK_ThrHuQ

image

ad-bc = 0 이면 inversible하지 않게 된다. ad-bc 가 0 이 아니면 inversible하다.

https://youtu.be/0c7dt2SQfLw

image

R3에서 Determinant를 구하는 과정을 보여주고 있다.

https://youtu.be/H9BWRYJNIv4

image

n * n 일반 matrix의 determinant를 구하는 과정을 보여주고 있다.

https://youtu.be/nu87kfmwNfU

image

위와 같은 방법으로 determinant 를 구할때 맨상단 첫번째 row를 꼭 사용해야 하는 것은 아니다. 다른 row를 선택해서 계산해도 결과는 같다. 그러므로 0이 많이 들어 있는 row를 선택해서 계산하는 것이 조금 수월하다.

https://youtu.be/4xFIi0JF2AM

image

sarrus법칙을 이용해 간단히 determinant를 구할수 있다. / 방향으로 곱한 값들의 합에서 방향으로 곱합 값들을 빼면 된다.

https://youtu.be/32rdijPB-rA

Determinant when row multiplied by scalar | Matrix transformations | Linear Algebra | Khan Academy

image
image

https://youtu.be/VrB3LaSD_uo

Determinant when row is added | Matrix transformations | Linear Algebra | Khan Academy

image
image




https://youtu.be/gYv8sttBIqs

Duplicate row determinant | Matrix transformations

image

matrix에서 두개의 rows를 서로 swap한 경우 swap하기 전의 determinatns에서 바뀐 determinants는 부호가 바뀌게 된다. 

image

rref가 Identity가 되면 matrix는 invertible하다고 할수 있다. 중복된 row를 가진 matrix는 rref가 identity가 될수 없으므로 invertible하지 않다. matrix가 invertible하지 않는 경우 determiant는 0값이다. 

image
image
image
image
image

위의 그림의 경우 no spam 그룹에는 Buy 와 Cheap이 동시에 들어간 단어가 없다. 

그렇지만 아래와 같이 간단히 0 %라고 단정할수는 없다. 자료의 수가 적어서 없을수 있지만 자료의 수가 많아지면 있을수 있기 때문이다. 

probability theory를 이용해서 확률을 가정할수 있다. 위의 예시의 경우 buy가 들어간 no spam 이메일의 발생확률과 cheap이 들어간 no spam 이메일의 발생확률의 곱으로 둘다가들어간 이메일의 발생확률을 얻을수 있으며 확률과 no spam 이메일 전체 갯수의 곱으로 예상 buy와 cheap이 동시에 들어간 이메일 수를 구할수 있다. 이때 buy와 cheap이 서로 independent하다는 naive한 가정을 기반하고있다. 그래서 이름이 naive bayes인것이다. 

image
image
image
image
image
image

Naive Beyes 에서는 Buy와 Cheap이 완전히 독립된 항목이라고 가정하고 확률 계산을 한다. 

image
image
image
image
image
image
image

위 그림에서 밑변은 P(B)를 구하는 부분이며. Total Probability Theorem https://youtu.be/8odFouBR2wE?t=208 를 이용한 부분이다. 

image
image

jacob-cs:

train data에서 무작위로 n’ 갯수 만큼의 elements를 뽑아서 (중복 가능) 하나의 모델을 만든다. 이런 과정을 m 번 거치게 되며 결과적으로 m개의 다른 모델들이 만들어진다. 이렇게 만들어진 모델들의 결과값의 평균값으로 Y를 만들게 된다.

n’는 일반적으로 n의 1/6보다 작은 값을 선택한다.