케일리-해밀턴 정리

by Ariel Daley

케일리-해밀턴 정리

케일리-해밀턴 정리는 행렬의 고윳값과 특성다항식이 밀접하게 연관되어 있음을 강력하게 보여 주는 결과로, “어떤 행렬의 특성다항식이 행렬 자체에 대해서도 성립한다”는 내용을 담고 있다. 이를 통해 행렬에 대한 고차 다항식 분석, 최소다항식(minimal polynomial) 연구, Jordan 표준형 등의 이론이 깔끔하게 전개될 수 있다.

행렬다항식의 개념

행렬다항식(matrix polynomial)이란, 스칼라 변수 \(\lambda\) 대신 어떤 정사각행렬 \(A\)를 대입하여 정의된 다항식을 말한다. 예컨대, 스칼라 다항식이 \[ p(\lambda) = a_0 + a_1 \lambda + a_2 \lambda^2 + \cdots + a_m \lambda^m \] 이라면, 여기에 \(\lambda\)를 \(n\times n\) 행렬 \(A\)로 치환하여, \[ p(A) = a_0 I + a_1 A + a_2 A^2 + \cdots + a_m A^m \] 으로 정의한다. 이때 \(I\)는 \(n\times n\) 단위행렬이다. 행렬과 스칼라의 큰 차이점은 행렬곱셈이 일반적으로 비가환(non-commutative)이라는 점이지만, \(\lambda I\)는 어떤 행렬과도 가환한다는 성질 덕분에 다항식 정의가 일관되게 성립한다.

케일리-해밀턴 정리의 진술

\(n \times n\) 행렬 \(A\)의 특성다항식 \(\chi_A(\lambda)\)를 다음과 같이 정의하자. \[ \chi_A(\lambda) = \det(\lambda I - A) \] 이는 \(\lambda\)에 대한 \(n\)차 다항식이며, 다음과 같은 형태로 쓸 수 있다. \[ \chi_A(\lambda) = \lambda^n + c_{n-1}\lambda^{n-1} + \cdots + c_1 \lambda + c_0. \] 케일리-해밀턴 정리(Cayley–Hamilton theorem)는 다음을 말한다.

정리 1. (케일리-해밀턴 정리)

행렬 \(A\)의 특성다항식을 \(\chi_A(\lambda)\)라 할 때, 행렬다항식으로서 \(\chi_A(A)\)를 계산하면 반드시 영행렬이 된다. 즉, \[ \chi_A(A) = O \] 가 성립한다.

이는 간단히 말해 “행렬 \(A\)의 특성다항식은 행렬 \(A\) 자신을 근으로 갖는다”라고 표현할 수 있다.

보기 1.

2×2 행렬 \[ A = \begin{pmatrix} 2 & 1 \\ 0 & 2 \end{pmatrix} \] 를 생각하자. 이 행렬의 특성다항식은 \[ \chi_A(\lambda) = (2-\lambda)^2. \] 케일리-해밀턴 정리에 따르면 \(\chi_A(A)=O\)가 되어야 하므로, \[ (2I - A)^2 = O \] 를 직접 계산하여 확인할 수 있다.

실제로, \[ 2I - A = \begin{pmatrix} 2 & 0 \\ 0 & 2 \end{pmatrix} - \begin{pmatrix} 2 & 1 \\ 0 & 2 \end{pmatrix} = \begin{pmatrix} 0 & -1 \\ 0 & 0 \end{pmatrix}. \] 이를 한 번 더 곱하면 \[ (2I - A)^2 = \begin{pmatrix} 0 & -1\\ 0 & 0 \end{pmatrix} \begin{pmatrix} 0 & -1\\ 0 & 0 \end{pmatrix} = \begin{pmatrix} 0 & 0\\ 0 & 0 \end{pmatrix}, \] 즉 영행렬이 되므로 \(\chi_A(A) = (2I - A)^2 = O\)임을 확인할 수 있다.

보기 2.

3×3 상삼각행렬 \[ C = \begin{pmatrix} 3 & 2 & 0\\ 0 & 3 & 1\\ 0 & 0 & 1 \end{pmatrix}. \] 의 특성다항식은 \(\chi_C(\lambda) = (3-\lambda)^2(1-\lambda)\). 케일리-해밀턴 정리에 따르면 \[ (3I - C)^2(1I - C) = O \] 를 만족해야 한다.

확인 방법으로, 먼저 \((3I - C)\)와 \((1I - C)\)를 각각 계산한다: \[ 3I - C = \begin{pmatrix} 3 & 0 & 0\\ 0 & 3 & 0\\ 0 & 0 & 3 \end{pmatrix} - \begin{pmatrix} 3 & 2 & 0\\ 0 & 3 & 1\\ 0 & 0 & 1 \end{pmatrix} = \begin{pmatrix} 0 & -2 & 0\\ 0 & 0 & -1\\ 0 & 0 & 2 \end{pmatrix}, \] \[ 1I - C = \begin{pmatrix} 1 & 0 & 0\\ 0 & 1 & 0\\ 0 & 0 & 1 \end{pmatrix} - \begin{pmatrix} 3 & 2 & 0\\ 0 & 3 & 1\\ 0 & 0 & 1 \end{pmatrix} = \begin{pmatrix} -2 & -2 & 0\\ 0 & -2 & -1\\ 0 & 0 & 0 \end{pmatrix}. \] 그리고 \((3I - C)^2\cdot(1I - C)\) 를 이어서 곱해 보면 실제로 영행렬이 됨을 확인할 수 있다.

이 예시에서, 고윳값이 3(중복도 2)와 1이므로, \(\chi_C(\lambda)=(3-\lambda)^2(1-\lambda)\). 케일리-해밀턴 정리에 의거해 \(\chi_C(C)=O\)가 성립한다는 것을 직접 곱셈 과정을 통해 검증 가능하다. 또한 이 행렬은 삼각형 형태라서 고윳값이 대각원소라는 점과 “케일리-해밀턴에서 말하는 특성다항식을 행렬에 대입하면 0이 된다”는 사실이 잘 드러난다.

동반행렬

케일리-해밀턴 정리를 이해하거나 증명할 때 자주 쓰는 방법 중 하나가 동반행렬(companion matrix)을 활용하는 것이다. 예컨대, \(n\)차 다항식 \[ p(\lambda) = \lambda^n + a_{n-1}\lambda^{n-1} + \cdots + a_1 \lambda + a_0 \] 에 대응하여 다음과 같은 \(n\times n\) 행렬 \(C\)를 생각한다. \[ C = \begin{pmatrix} 0 & 0 & \cdots & 0 & -a_0 \\ 1 & 0 & \cdots & 0 & -a_1 \\ 0 & 1 & \cdots & 0 & -a_2 \\ \vdots & \vdots & \ddots & \vdots & \vdots \\ 0 & 0 & \cdots & 1 & -a_{n-1} \end{pmatrix}. \] 이 행렬 \(C\)를 “동반행렬”이라 하며, 계산해 보면 \(\chi_C(\lambda)=p(\lambda)\)가 된다. 즉, \(C\)의 특성다항식이 원래의 스칼라 다항식과 동일하다는 사실을 통해, 케일리-해밀턴 정리를 동반행렬의 경우에 먼저 증명한 뒤, 임의의 행렬로 일반화하는 흐름을 구성할 수 있다.

케일리-해밀턴 정리의 증명 스케치

이 정리의 여러 증명 방법 중, 수반행렬(adjunct matrix)을 활용하는 표준적인 접근을 자세히 살펴보자. 핵심 아이디어는 \(\lambda I - A\)의 행렬식을 \(\chi_A(\lambda)\)로 놓고, 이 행렬의 “양변 곱셈” 관계를 행렬다항식 관점에서 해석하는 것이다.

  1. 특성다항식 정의와 수반행렬의 관계
    먼저, 행렬식이 0이 아닐 때 행렬의 역행렬을 구할 때 사용하는 보조 개념인 수반행렬(adjunct matrix)을 복습하자. 임의의 \(n\times n\) 행렬 \(M\)에 대해, \[ \mathrm{adj}(M) \;=\; (\text{cofactor matrix})^\top \] 로 정의하며, 다음 관계가 성립한다. \[ M \,\mathrm{adj}(M) \;=\; \mathrm{adj}(M)\,M \;=\; \bigl(\det M\bigr) \, I. \] 케일리–해밀턴 정리 증명에서 핵심적으로 사용될 점은, \[\det(\lambda I - A) \;=\; \chi_A(\lambda)\] 라는 사실과, 수반행렬이 \[ (\lambda I - A)\,\mathrm{adj}(\lambda I - A) \;=\; \chi_A(\lambda)\, I \] 형태로 나타난다는 것이다 (행렬식이 0이어도 수반행렬이 정의 가능하며, 이 관계는 일반 행렬에 대한 전개 과정에서 성립한다).
  2. \(\lambda\)를 행렬 \(A\)로 치환하기
    \(\lambda I - A\)에서 \(\lambda\)가 스칼라일 때는 당연히 \(\mathrm{rank}(\lambda I - A)\) 등을 고려해 \(\chi_A(\lambda)\)의 근을 구한다. 하지만 케일리–해밀턴 정리는 “\(\lambda\to A\)”라는 치환을 통해 \(\chi_A(\lambda)\)를 행렬다항식으로 바꾼다. 즉, \(\lambda\) 대신 \(\lambda I\) 꼴을 생각하여, \[ \lambda I - A \quad\Longrightarrow\quad A I - A = A - A = O \] 로 대입할 수 있다. 이것이 자연스러운 이유는 \(\lambda I\)가 어떤 행렬과도 교환 가능(commute)하기 때문이다.
  3. 식 \((\lambda I - A)\,\mathrm{adj}(\lambda I - A)\)를 전개하기
    다음 관계를 살펴보자. \[ (\lambda I - A)\,\mathrm{adj}(\lambda I - A) \;=\; \bigl(\det(\lambda I - A)\bigr)\,I \;=\; \chi_A(\lambda)\,I. \] 이는 행렬식과 수반행렬 정의에 따른 공식이다. 이제 케일리–해밀턴 정리에 해당하는 식\[\chi_A(A)=O\]를 얻기 위해, \(\lambda\)를 단순히 “스칼라”가 아니라 “행렬 \(A\)”로 치환해 보자: \[ (A I - A)\,\mathrm{adj}(A I - A) \;=\; \chi_A(A)\, I. \] 왼쪽에서 \(\;A I - A = A - A = O\) (영행렬)이므로, 왼쪽 전체 곱이 영행렬이 된다. 결과적으로 \[ \chi_A(A)\, I = O. \] 이는 \(\chi_A(A) = O\)임을 의미한다.

요약하자면, “\(\det(\lambda I - A)\)에 의한 수반행렬 곱셈이 \(\chi_A(\lambda)\,I\)를 준다”는 사실을 행렬다항식 관점에서 \(\lambda\to A\) 대입으로 확장할 때, \((A-A)\operatorname{adj}(A-A)=O\)가 되어야 하므로 \(\chi_A(A)=O\)임을 보이는 구조가 이 증명의 뼈대이다. 이로써 행렬의 특성다항식이 행렬 자신을 영으로 만든다는 케일리–해밀턴 정리가 증명된다.

최소다항식

케일리-해밀턴 정리를 통해, \(\chi_A(A)=O\)임을 알게 되었지만, 실제로 그보다 ‘차수가 더 낮은’ 다항식도 행렬 \(A\)를 영행렬로 만들 수 있는 경우가 있다. 이런 맥락에서 정의되는 것이 최소다항식(minimal polynomial)이다. 최소다항식은 행렬(또는 선형연산자)에 대해, “가장 낮은 차수”로서 행렬을 영행렬화(annihilate)하는 다항식을 뜻하며, 선형연산자의 구조(특히 Jordan 표준형)와 직접적으로 연결된다.

최소다항식의 개념

행렬 \(A\)에 대하여, 다음 집합을 고려한다.

\[ \mathcal{I}_A = \{\, p(\lambda)\in\mathbb{F}[\lambda]\;\mid\; p(A)=O \}. \]

즉, \(\mathcal{I}_A\)는 “행렬 \(A\)를 대입하면 영행렬이 되는 모든 다항식”의 집합이다. 이 집합은 유한차원 다항식 환에서 아이디얼(ideal)을 이룬다. 이 중에서 차수가 가장 작고, 최고차항 계수가 1(=단위원소)인 다항식이 있다면, 이를 그 행렬의 최소다항식(minimal polynomial)이라고 부른다.

정의 1. (최소다항식)

행렬 \(A\)에 대하여, \(p(A)=O\)를 만족하는 (즉 \(A\)의 영행렬화) 단위다항식 중에서 차수가 가장 작은 다항식 \(m_A(\lambda)\)를 \(\displaystyle A\)의 최소다항식이라고 부른다. 즉,

\(m_A(A) = O,\)  \(\deg(m_A)\)가 가능한 한 최소,  \(m_A\)의 최고차항 계수가 1

을 만족시키는 다항식 \(m_A (\lambda )\)를 \(A\)의 최소다항식이라고 부른다.

케일리-해밀턴 정리에 의하면, \(\chi_A(\lambda)\in \mathcal{I}_A\)이므로 \(\mathcal{I}_A\neq\{\mathbf{0}\}\)이다. 따라서 최소다항식은 반드시 존재한다. 또한, 최소다항식은 유일하다(만약 다항식 중에 더 낮은 차수로 영행렬화하는 것이 있으면 차수가 최소가 아니게 되고, 최고차항 계수가 다르면 간단한 스칼라 배 조정으로 동일시 가능하기 때문이다).

최소다항식의 성질

정리 2.

행렬 \(A\)의 최소다항식 \(m_A(\lambda)\)는 특성다항식 \(\chi_A(\lambda)\)를 나누는 약수(divisor)가 된다. 즉, \[ \chi_A(\lambda) = m_A(\lambda)\, q(\lambda) \,\,\, \text{for some} \,\,\, q(\lambda)\in \mathbb{F}[\lambda]. \]

증명 스케치 케일리-해밀턴 정리에 의해 \(\chi_A(A)=O\)이므로, \(\chi_A\in \mathcal{I}_A\). 한편 \(\mathcal{I}_A\)는 이데알 구조를 가지며, 그 안에 “차수가 가장 작은 다항식”이 최소다항식 \(m_A\)이다. 따라서 \(\chi_A(\lambda)\)와 \(m_A(\lambda)\)가 서로 같은 이데알 내에 속하므로, 다항식 환에서 \[ \chi_A(\lambda) = m_A(\lambda)\, q(\lambda) \] 형태가 성립해야 한다.

이 결과로부터, \(\deg(m_A)\le \deg(\chi_A)\)가 자명히 되어, 고윳값 및 Jordan 표준형 분석에서 최소다항식의 차수가 여러 특징적 사실을 이끈다.

다음으로 동반행렬과 최소다항식의 관계를 살펴보자.

“동반행렬(companion matrix)”은 어떤 일변수 다항식 \(p(\lambda)\)를 특성다항식과 동일하게 갖게 하는 행렬인데, 실제로 동반행렬의 최소다항식도 그 다항식과 같다는 성질이 알려져 있다. 즉,

\[ p(\lambda)=\lambda^n + a_{n-1}\lambda^{n-1} + \dots + a_1\lambda + a_0 \] 일 때, 그 동반행렬 \(C\)의 최소다항식은 \(p(\lambda)\) 그 자체가 된다. 이는 직관적으로, 동반행렬에 어떤 낮은 차수 다항식을 적용해도 영행렬이 되지 않는 구조를 갖기 때문이다.

정리 3.

\(\displaystyle p(\lambda)=\lambda^n + \dots + a_0\)의 동반행렬 \(C\)를 생각하면, 그 최소다항식 \(m_C(\lambda)\)는 \(p(\lambda)\)와 동일하다. 즉, \(\chi_C(\lambda)=p(\lambda)\)이면서 동시에 \(m_C(\lambda)=p(\lambda)\).