차원
표의 열의 관점
vs
데이터 포함 관계의 관점
으로 나누어 볼 수 있다.
표의 열의 관점이라고 해보자.
관측치가 5개인 다음과 같은 데이터가 있는데 5개의 점으로 표현해보자
만약에 습도라는 변수를 추가하면 다음과 같이 될 것이다. 3차원으로!
결국 관측치는 N차원 공간의 한 점이고
변수의 개수는 공간의 차원수가 될 것이다.
데이터를 기하학적으로 표현할 수 있게 된다는 것은
데이터의 가까운 정도를 정밀하게 숫자로 나타낼 수 있게 된다는 것이다.
이번엔 차원을 데이터 포함 관계의 관점으로 바라봐 보자.
데이터 포함관계는 배열의 깊이와 관련이 있다.
아이리스 데이터를 보자
열이 4개니까 4차원이다.
관측치 하나를 코드로 표현해보자.
하나의 배열에 값이 들어가 있는 모양을 1차원이라고 한다.
x1의 shape을 출력해보면 숫자가 1개이다. 그래서 1차원이다.(숫자가 4인건 4개의 요소를 가지고 있다는 의미)
다른 관측치도 나타낼 수 있고 표는 관측치들의 모음으로 표현할 수 있다.
즉 배열의 깊이가 2가 되었고, shape 를 출력하면 두 개의 숫자가 들어있다.
이걸 2차원 형태라고 부른다.
따라서 여기선 배열의 깊이 = 차원수 라고 볼 수 있겠다.
이 얘기들을 이미지 분류에 적용을 시킬 수 있다.
흑백의 이미지는 데이터 하나가 2차원 형태를 가진다.
이 예시는 가로 세로 각각 2픽셀로 되어있다.
이미지를 두개더 추가해보자
이미지들을 모아 이미지셋을 만들어보자.
이 이미지셋은 배열의 깊이가 하나 더 깊어졌기 때문에 3차원 형태가 되겠다.
결론적으로 데이터 형태 관점으로, x1은 1차원이고 img1은 2차원이지만
데이터 공간의 관점으로는 둘다 4차원 공간에 한 점으로 표현할 수 있는 관측치이다.
이렇게 여러 차원 형태로 구성되어 있는 데이터의 모습을 tensor 라고 한다
마지막으로 차원의 개념을 되짚어보자.
참고 : 봉수골 개발자 이선비 유튜브