이차형식

by Ariel Daley

이차형식의 행렬 표현

이차형식(quadratic form)이란, 벡터공간 \( \mathbb{R}^n \)의 임의의 벡터 \(\mathbf{x} = (x_1, x_2, \dots, x_n)^T\)에 대해 실수 값을 반환하는 함수로, 보통 다음과 같이 정의된다.

\[ Q(\mathbf{x}) = \sum_{i=1}^n \sum_{j=1}^n c_{ij}\, x_i x_j. \]

이와 같이 정의된 이차형식은 행렬 표기법을 사용하여, 적당한 \(n \times n\) 행렬 \(A\)를 이용해

\[ Q(\mathbf{x}) = \mathbf{x}^T A\, \mathbf{x} \]

의 형태로 나타낼 수 있다. 하나의 이차형식 \(Q\)를 나타내는 행렬 \(A\)의 선택은 유일하지 않지만, 내적공간에서의 기하학적 해석이나 대각화 등과 관련하여 보통 \(A\)가 대칭행렬인 경우를 선호한다.

정의 1. (대칭 행렬에 의한 이차형식의 표현)

벡터공간 \( \mathbb{R}^n \)의 이차형식 \(Q(\mathbf{x})\)가 주어졌을 때, 함수 \(Q: \mathbb{R}^n \to \mathbb{R}\)를

\[ Q(\mathbf{x}) = \mathbf{x}^T A\, \mathbf{x} \]

로 나타내는 \(n \times n\) 행렬 \(A = (a_{ij})\) 중, \(A\)가 대칭, 즉 \(A = A^T\)인 경우를 \(Q(\mathbf{x})\)의 대칭 행렬 표현이라고 한다. 만약 원래의 계수 \(c_{ij}\)가 주어졌다면, 일반적으로 \(a_{ij}\)는 다음과 같이 정의하여 \(A\)를 대칭행렬로 만든다.

\[ a_{ij} = \frac{c_{ij} + c_{ji}}{2} \quad (1 \le i \le n ,\, 1 \le j \le n). \]

이 경우, \(Q(\mathbf{x})\)는 \(\mathbf{x}^T A\, \mathbf{x}\)로 유일하게 표현된다.

정리 1. (대칭 행렬을 이용한 이차형식의 유일성)

임의의 이차형식 \(Q(\mathbf{x}) = \mathbf{x}^T A\, \mathbf{x}\)에 대해, \(A\)가 대칭행렬일 때 그 표현은 유일하다. 즉, 동일한 이차형식을 나타내는 두 대칭 행렬 \(A\)와 \(B\)가 있다면 \(A = B\)이다.

증명

두 대칭 행렬 \(A\)와 \(B\)에 대하여, \(\mathbf{x}^T A\, \mathbf{x} = \mathbf{x}^T B\, \mathbf{x}\)가 모든 \(\mathbf{x} \in \mathbb{R}^n\)에 대해 성립한다고 가정하자. 그러면 \(\mathbf{x}^T (A - B)\, \mathbf{x} = 0\)이다. 대칭 행렬 \(A-B\)에 대해 모든 \(\mathbf{x}\)에 대해 이차형식이 0이므로, \(A-B\)는 영행렬이어야 한다. 따라서 \(A = B\)이다.

보기 1.

\(\mathbb{R}^2\)에서 이차형식 \[ Q(x,y) = 3x^2 + 4xy + 5y^2 \] 을 생각하자. 이차형식을 행렬로 표현하기 위해, 일반적으로 \[ Q(x,y) = \begin{pmatrix} x & y \end{pmatrix} A \begin{pmatrix} x \\ y \end{pmatrix} \] 의 형태를 갖도록 \(A\)를 결정한다. 원래 계수는 \(c_{11}=3\), \(c_{12}=4\), \(c_{21}\)도 4 (일반적으로 \(c_{12}\)와 \(c_{21}\)가 동일하다고 가정), \(c_{22}=5\)이다. 대칭행렬 \(A\)는 \[ A = \begin{pmatrix} 3 & \frac{4}{2} \\[4pt] \frac{4}{2} & 5 \end{pmatrix} = \begin{pmatrix} 3 & 2 \\[4pt] 2 & 5 \end{pmatrix}. \] 따라서 \(Q(x,y) = \begin{pmatrix} x & y \end{pmatrix} \begin{pmatrix} 3 & 2 \\ 2 & 5 \end{pmatrix} \begin{pmatrix} x \\ y \end{pmatrix}\)로 표현된다.

보기 2.

\(\mathbb{R}^3\)에서 다항식 \(Q(x,y,z) = 2x^2 + 3y^2 + 4z^2 + 2xy + 2xz + 4yz\)에 대해, 이차형식의 행렬 표현을 구하자. 원래 계수는 각 항에 대해 다음과 같다.

  • \(x^2\) 항의 계수: 2,
  • \(y^2\) 항의 계수: 3,
  • \(z^2\) 항의 계수: 4,
  • \(xy\) 항의 계수: 2,
  • \(xz\) 항의 계수: 2,
  • \(yz\) 항의 계수: 4.

대칭 행렬 \(A\)의 각 원소는 \(a_{ii} = c_{ii}\)이고, \(a_{ij} = \frac{c_{ij}+c_{ji}}{2}\) ( \(i\neq j\))로 결정된다. 따라서,

\[ A = \begin{pmatrix} 2 & \frac{2}{2} & \frac{2}{2} \\ \frac{2}{2} & 3 & \frac{4}{2} \\ \frac{2}{2} & \frac{4}{2} & 4 \end{pmatrix} = \begin{pmatrix} 2 & 1 & 1 \\ 1 & 3 & 2 \\ 1 & 2 & 4 \end{pmatrix}. \]

이 행렬 \(A\)를 이용하면, \[Q(x,y,z) = \begin{pmatrix} x & y & z \end{pmatrix} A \begin{pmatrix} x \\ y \\ z \end{pmatrix}\]로 표현된다.

이와 같이, 이차형식은 적절한 대칭행렬을 이용하여 행렬 형태로 표현되며, 이 표현은 이차형식의 해석 및 후속 대각화, 최적화 문제 등 다양한 응용에 중요한 기초 자료를 제공한다.

대칭행렬을 통한 이차형식의 대각화

이차형식 \(Q(\mathbf{x})\)는 일반적으로 \(Q(\mathbf{x}) = \mathbf{x}^T A \mathbf{x}\)의 형태로 표현된다. 여기서 \(A\)는 \(n\times n\) 행렬이며, 이차형식의 기하학적 해석과 분석을 위해 \(A\)는 대칭행렬로 변환하여 사용한다. 실수 대칭행렬은 직교대각화가 가능하므로, 내적공간의 정규직교 기저를 이용하여 \(A\)를 대각행렬로 표현할 수 있다.

즉, 실수 대칭행렬 \(A\)에 대해 스펙트럴 정리에 따라 가역 정규직교 행렬 \(Q\)가 존재하여

\[ Q^T A Q = D, \]

를 만족한다. 여기서 \(D\)는 대각행렬로, 대각 원소는 \(A\)의 고윳값 \(\lambda_1,\lambda_2,\dots,\lambda_n\)이다. 이제 변수 변환 \(\mathbf{y} = Q^T \mathbf{x}\)를 적용하면, 이차형식은

\[ Q(\mathbf{x}) = \mathbf{x}^T A \mathbf{x} = \mathbf{y}^T D \mathbf{y} = \lambda_1 y_1^2 + \lambda_2 y_2^2 + \cdots + \lambda_n y_n^2. \]

이와 같이 대각화된 이차형식은 각 항이 독립적인 제곱항의 합으로 표현되어, 원래의 이차형식이 갖는 기하학적 특성(예를 들어, 양의 정부호성, 부정부호성, 또는 정의되지 않음 등)을 명확하게 분석할 수 있게 한다.

정리 2. (대칭행렬을 이용한 이차형식의 대각화)

실수 대칭행렬 \(A\)에 의해 정의된 이차형식 \(Q(\mathbf{x}) = \mathbf{x}^T A \mathbf{x}\)는, 가역 정규직교 행렬 \(Q\)를 이용하여 \[ Q(\mathbf{x}) = \lambda_1 y_1^2 + \lambda_2 y_2^2 + \cdots + \lambda_n y_n^2 \] 으로 표현할 수 있다. 여기서 \(\mathbf{y} = Q^T\mathbf{x}\)이며, \(\lambda_1,\lambda_2,\dots,\lambda_n\)는 \(A\)의 고윳값이다.

증명

실수 대칭행렬 \(A\)는 스펙트럴 정리에 따라 정규직교 기저를 구성할 수 있다. \(A\)의 고유벡터들을 열벡터로 모아 구성한 정규직교 행렬 \(Q\)에 대하여 \(Q^T A Q = D\)가 대각행렬 \(D\)를 이룬다. 변수 변환 \(\mathbf{y} = Q^T\mathbf{x}\)를 적용하면, \[\mathbf{x}^T A \mathbf{x} = \mathbf{x}^T Q D Q^T \mathbf{x} = \mathbf{y}^T D \mathbf{y}\] 이고, 이는 대각행렬 \(D\)의 각 대각 원소 \(\lambda_i\)에 대해 \(\lambda_i y_i^2\)의 합으로 나타난다.

보기 3.

\(\mathbb{R}^2\)에서 이차형식 \[ Q(x,y) = 4x^2 + 4xy + y^2 \] 을 고려하자. 이 이차형식은 다음 대칭행렬에 의해 표현된다. \[ A = \begin{pmatrix} 4 & 2 \\ 2 & 1 \end{pmatrix}. \] 특성다항식 \[\begin{aligned} \det(A-\lambda I) &= (4-\lambda)(1-\lambda) - 4 \\[6pt] &= \lambda^2 - 5\lambda \\[6pt] &= \lambda(\lambda-5) = 0 \end{aligned}\] 에서, 고윳값은 \(\lambda_1=0\)와 \(\lambda_2=5\)이다.

적절한 정규직교 기저를 구성하면, \(A\)는 정규직교 행렬 \(Q\)를 통해 \[Q^T A Q = \begin{pmatrix} 0 & 0 \\ 0 & 5 \end{pmatrix}\]로 대각화된다. 변수 변환 \(\mathbf{y} = Q^T \mathbf{x}\)에 의해 이차형식은

\[ Q(x,y) = 0\cdot y_1^2 + 5\,y_2^2 \] 과 같이 표현된다. 즉 \(Q(x,y)\)는 적절한 좌표계에서 \(5\,y_2^2\)으로 표현되어, 이차형식의 성질을 명확하게 보여준다.

보기 4.

\(\mathbb{R}^3\)에서 이차형식 \[ Q(x,y,z) = 2x^2 + 2y^2 + 4z^2 + 4xz \] 를 고려하자. 이 이차형식은 다음과 같은 대칭행렬 \(A\)로 표현된다. \[ A = \begin{pmatrix} 2 & 0 & 2 \\ 0 & 2 & 0 \\ 2 & 0 & 4 \end{pmatrix}. \] 스펙트럴 정리에 따라 \(A\)는 정규직교 행렬 \(Q\)에 의해 대각화되어, \(Q^T A Q = D\)가 된다.

그러면 변수 변환 \(\mathbf{y} = Q^T \mathbf{x}\)를 통해, 이차형식은 \[ Q(x,y,z) = \lambda_1 y_1^2 + \lambda_2 y_2^2 + \lambda_3 y_3^2 \] 으로 표현된다. 이와 같이, 대칭행렬 \(A\)를 직교대각화하면 이차형식의 복잡한 상호작용(예: 혼합항 \(4xz\))이 제거되고, 단순한 제곱항의 합으로 정리되어, \(Q\)의 본질적인 성질(예: 정의, 부정, 반정의 등)이 명확히 드러난다.

대칭행렬을 통한 이차형식의 대각화는 주어진 이차형식을 단순한 형태(주성분 형식)로 변환하여, 해석과 응용을 용이하게 하는 중요한 도구이다. 이 방법은 최적화, 통계, 물리학 등 다양한 분야에서 핵심적인 역할을 한다.

이차형식을 활용한 이차곡선의 판별

이차형식은 2차원에서 “이차곡선”을 나타내는 방정식을 분석하여, 해당 곡선이 타원(ellipse)인지, 쌍곡선(hyperbola)인지, 포물선(parabola)인지를 판별하는 데 직접적으로 활용할 수 있다.

2변수 \((x,\,y)\)에 대해 다음과 같은 형태의 이차방정식을 생각하자.

\[ Q(x,y) \;=\; ax^2 + bxy + cy^2 + dx + ey + f \;=\; 0. \]

여기서 \(\displaystyle Q(x,y)\)의 이차항들 \(ax^2 + bxy + cy^2\)는 이차형식 부분으로, 행렬로 표현하면

\[ A = \begin{pmatrix} a & \frac{b}{2}\\[4pt] \frac{b}{2} & c \end{pmatrix} \quad\Longrightarrow\quad \mathbf{x}^T\,A\,\mathbf{x} \;=\; ax^2 + bxy + cy^2. \]

이 행렬 \(A\)를 대칭행렬로 보고 대각화하거나 고윳값을 구하면, 이차곡선의 유형을 판별할 수 있다. 요약하면 다음과 같은 기준을 사용한다.

  • \(\det(A)\)와 \(\mathrm{trace}(A)\) 등을 통한 판별: \(\det(A) = ac - \left(\tfrac{b}{2}\right)^2 ,\) \(a + c = \mathrm{trace}(A)\). 예를 들어, \(\det(A)\neq 0\)이면 원뿔곡선이 타원(또는 쌍곡선) 형태이고, \(\det(A)=0\)이면 포물선일 가능성이 있다.
  • 정확한 유형 판별: 대각화(또는 고윳값 계산)로 이차항을 단순화한다. 만약 양의 고윳값 2개가 존재하면 타원형(elliptic) 곡선(원 포함)이다. 만약 고윳값 부호가 서로 다르면 쌍곡선(hyperbola)이다. 만약 고윳값 중 하나가 \(0\)이고 다른 하나가 \(0\)이 아니면 포물선(parabola)이다.

실제로는 상수항 \(\displaystyle f\) 및 선형항 \(dx + ey\) 등을 포함한 전형적 이차곡선 방정식 \[ ax^2 + bxy + cy^2 + dx + ey + f = 0 \] 을, 먼저 평행이동하거나 회전하여 간단한 좌표계로 변환하면(이 과정이 이차형식을 대칭행렬로 대각화하는 것과 같다), 곡선의 형태가 명확히 드러난다. 예컨대, 다음과 같은 경우를 생각할 수 있다.

  • \( ax^2 + bxy + cy^2 = 1\) 같은 순수이차식에서 \(\det(A)\)와 부호 등을 통해 타원·쌍곡선 구분한다.
  • 일차항이나 상수항이 있으면, \(\mathbf{x} = \mathbf{x_0} + P\mathbf{y}\) 꼴의 변환을 통해 중심을 맞추거나 회전좌표계를 적용하여 방정식을 단순화한다.

이처럼 2차원에서의 이차형식을 다루는 방법은, “행렬의 고윳값을 구하고 대각화하는 작업이 좌표변환하는 작업과 동치”라는 사실과 직접적으로 대응하여, 이차곡선의 형태를 분류하는 중요한 수단이 된다.

3차원 공간에서의 이차곡면

비슷한 논리로, 3변수 \((x,y,z)\)에 대한 이차방정식 \(\displaystyle Q(x,y,z) = 0\) 은 “이차곡면(quadric surface)”을 나타낸다. 예로는 타원체(ellipsoid), 쌍곡면(hyperboloid), 포물면(paraboloid) 등이 있다. 마찬가지로 이차형식을 행렬로 표현한 뒤, 고윳값과 고유벡터(직교대각화)를 활용하여 적절한 선형변환(회전축) 및 평행이동(중심 맞춤)을 수행하면, 곡면의 표준형 방정식을 얻을 수 있고, 곡면의 기하학적 형태를 판별할 수 있다.

결국, 2차원 이차곡선부터 3차원(또는 고차원) 이차곡면까지, 이차형식을 어떻게 대각화하고 해석하느냐에 따라 해당 도형의 기하학적 성질을 효율적으로 분류하고 분석할 수 있게 된다.

이계도함수 판정법에의 활용

이차형식은 이변수(또는 다변수) 실함수의 극값을 판정할 때 사용하는 이계도함수 판정법과 직접적으로 연결된다. 구체적으로, 다변수함수 \(f(x,y)\)의 국소적 최소·최대·안장(saddle)점을 판별할 때 등장하는 \(\nabla^2 f\) (이른바 Hessian 행렬)은 함숫값 변화의 이차근사(quadratic approximation)를 나타내는 행렬이며, 이는 곧 이차형식의 행렬 표현과 동일한 역할을 한다.

Hessian 행렬과 이차형식

이변수함수 \(f(x,y)\)에 대하여, Hessian(헤세) 행렬은 다음과 같이 정의된다.

\[ H_f(x,y) = \begin{pmatrix} \dfrac{\partial^2 f}{\partial x^2} & \dfrac{\partial^2 f}{\partial x \partial y}\\[6pt] \dfrac{\partial^2 f}{\partial y \partial x} & \dfrac{\partial^2 f}{\partial y^2} \end{pmatrix}. \]

임의의 점 \((x_0,y_0)\) 부근에서, \(f\)를 테일러 전개하면 2차항 부분이 다음과 같은 형태로 나타난다. \[ \dfrac12 \begin{pmatrix} \Delta x & \Delta y \end{pmatrix} \,H_f(x_0,y_0)\, \begin{pmatrix} \Delta x \\ \Delta y\end{pmatrix} \] (계수 1/2은 테일러 전개에 따라 붙을 수 있으나, 보통 큰 영향은 없다.) 즉, Hessian 행렬은 미분학에서 말하는 \[(\Delta x,\Delta y) \mapsto \Delta^2 f\]를 나타내는 이차형식의 행렬 표현이라고 볼 수 있다.

이계도함수 판정법과 이차형식

고전적인 이계도함수 판정법에 따르면, 어떤 점 \((x_0,y_0)\)가 정칙함수 \(f\)의 임계점(즉 1계 도함수가 0)일 때, Hessian 행렬 \(H_f(x_0,y_0)\)가 양의 정부호(positive definite)이면 국소최소, 음의 정부호(negative definite)이면 국소최대, 정부호가 아니면(부정정 indefinite) 안장점이 된다는 결론을 얻는다. 이를 행렬판별로 표현하면 다음과 같다.

\(H_f(x_0,y_0)\)의 주대각원소와 행렬식(\(\det\))을 통해 양·음 정부호성을 판단하는 공식은 다음과 같다.

  • \(a = f_{xx}(x_0,y_0),\, \Delta = \det(H_f(x_0,y_0))\).
  • \(a>0\) 그리고 \(\Delta>0\) \(\implies\) 양의 정부호 \(\implies\) 국소최소.
  • \(a<0\) 그리고 \(\Delta>0\) \(\implies\) 음의 정부호 \(\implies\) 국소최대.
  • \(\Delta<0\) \(\implies\) 부정정 \(\implies\) 안장점.
  • \(\Delta=0\) 등 미묘한 경우는 추가 분석이 필요.

이렇게 Hessian 행렬을 “2×2 대칭행렬”로 보고, 그 이차형식 \((\Delta x,\Delta y)^T H_f(x_0,y_0) (\Delta x,\Delta y)\)의 양·음 여부를 판별하는 것이 극값 결정의 핵심이다. 결국, 이계도함수 판정법은 이차형식이 “양의 정부호/음의 정부호/부정정” 중 어느 것인지를 판별하는 문제로 귀결된다.

\(n\)변수 함수의 극값

이를 일반화하여 \(f:\mathbb{R}^n \to \mathbb{R}\)의 상황에서도 Hessian 행렬 \(H_f(\mathbf{x}_0)\)가 \(n\times n\) 대칭행렬이 되며, 그 고윳값들이 전부 양수이면 국소최소, 전부 음수이면 국소최대, 부호가 섞여 있으면 안장점이라는 식으로 해석 가능하다. 이 또한 이차형식(노름·정부호 판정)과 밀접한 관련을 보인다.

정리하자면, “이차형식의 정부호성(positive/negative definiteness) 판단”은 미분학의 이계도함수 판정법과 사실상 동일한 문제이며, Hessian이라는 대칭행렬의 고윳값을 통해 2차 근사가 국소 최소·최대·안장성을 결정하게 된다. 이는 이차형식의 행렬 표현과 직교대각화 등을 통해 더욱 체계적으로 접근할 수 있다는 점에서, 다변수 미분학의 핵심 결과와 선형대수학이 자연스럽게 연결되는 예시이다.