Wir erweitern in diesem Kapitel den Begriff der Ableitung, um auch Funktionen auf (offenen Teilmengen von) [latex]\mathbb {R}^n[/latex] nach [latex]\mathbb {R}^m[/latex] zu erlauben. Diese sind für verschiedene [latex]n \in \mathbb {N}[/latex] und auch verschiedene Dimensionen [latex]m\in \mathbb {N}[/latex] des Zielraums von Nützen, weshalb wir in dieser Hinsicht keine Einschränkungen treffen wollen. Ist beispielsweise eine Funktion [latex]f: U \to \mathbb {R}^m[/latex] für [latex]U \subseteq \mathbb {R}^n[/latex] und [latex]n,m \geq 1[/latex] gegeben, so könnte man sich für Folgendes interessieren.

Ist [latex]m = 1[/latex] und [latex]n[/latex] beliebig, so kann man sich zum Beispiel fragen, ob [latex]f[/latex] ein Minimum oder ein Maximum annimmt. Weiter möchte man für [latex]n =2[/latex] manchmal einen Graphen von [latex]f[/latex] zeichnen, der dann eine Fläche im [latex]\mathbb {R}^3[/latex] darstellt. Beispielsweise ist der Graph der Funktion [latex](x,y)^t \in B_1(0) \subseteq \mathbb {R}^2 \mapsto \sqrt {1-x^2-y^2} \in \mathbb {R}[/latex] gerade die obere Hemisphäre der Sphäre [latex]\mathbb {S}^2 = \left \lbrace {(x,y,z) \in \mathbb {R}^3} \mid {x^2+y^2+z^2 = 1}\right \rbrace[/latex].
Ist [latex]n =1[/latex] und [latex]m[/latex] beliebig, so behandelt man Wege im [latex]\mathbb {R}^m[/latex], zu welchen verschiedene Begriffe von Interesse sind (Geschwindigkeit, Krümmung, Wegintegrale und so weiter).
Sind [latex]m=n[/latex] beliebig, so lässt sich [latex]f[/latex] als Vektorfeld auffassen. Ein solches Vektorfeld lässt sich beispielsweise als Krafteinwirkung auffassen, womit man sich vielleicht für die Arbeit des Kraftfelds entlang eines Weges interessieren könnte.
Ist immer noch [latex]m=n[/latex] beliebig, so ist [latex]f[/latex] möglicherweise ein Koordinatenwechsel. Wichtige konkrete Beispiele dafür wären Polarkoordinaten im [latex]\mathbb {R}^2[/latex], Zylinderkoordinaten im [latex]\mathbb {R}^3[/latex] oder sphärische Koordinaten im [latex]\mathbb {R}^3[/latex]. (Wir werden allgemeine derartige glatten Koordinatensysteme im nächsten Kapitel betrachten.)
Sind [latex]m[/latex] und [latex]n[/latex] beliebig, so kann [latex]f[/latex] ein Gleichungssystem der Form [latex]f(x) = 0[/latex] definieren, zu denen man die Lösungsmenge untersuchen will. Beispielsweise stellen die Lösungen von [latex]f(x) = 0[/latex] für [latex]f: \mathbb {R}^3 \to \mathbb {R}^2, (x,y,z)^t \mapsto (x^2+y^2+z^2 - 1,(x-\frac {3}{2})^2 +y^2+z^2-1)[/latex] einen Kreis im [latex]\mathbb {R}^3[/latex] dar. (Lösungsmengen derartiger glatter Gleichungssysteme ergeben oft Beispiele für den Begriff der Teilmannigfaltigkeit, den wir ebenso im nächsten Kapitel besprechen werden.)

10.1 – Die Ableitung

Wir betrachten im Folgenden Funktionen [latex]f: U \to \mathbb {R}^m[/latex], wobei [latex]m,n\geq 1[/latex] und der Definitionsbereich [latex]U[/latex] eine Teilmenge von [latex]\mathbb {R}^n[/latex] ist. Wir möchten nun kurz die Eigenschaften des Definitionsbereiches [latex]U[/latex] ansprechen, die dieser haben soll oder kann.

10.1.1 – Der Definitionsbereich

Bis auf weiteres wird [latex]U \subseteq \mathbb {R}^n[/latex] eine offene Teilmenge sein, wobei wir, wenn nicht spezifisch anders angegeben, sowohl auf [latex]\mathbb {R}^n[/latex] als auch auf [latex]\mathbb {R}^m[/latex] die Euklidsche Norm [latex]\| {\cdot }\| = \| {\cdot }\| _2[/latex] verwenden werden (und verwendet haben). Offenheit von [latex]U[/latex] wird es uns erlauben, Punkte in [latex]U[/latex] von allen Richtungen annähern zu können. Auch wenn es nicht immer explizit erwähnt ist, wird [latex]U[/latex] im Folgenden stets nicht-leer sein.

Zusätzlich zur Annahme, dass [latex]U[/latex] offen ist, werden wir mitunter auch folgende Eigenschaften benötigen.

[latex]U[/latex] ist zusammenhängend, falls sich [latex]U[/latex] nicht als disjunkte Vereinigung zweier offener, nicht-leerer Teilmengen von [latex]U[/latex] schreiben lässt (siehe Abschnitt 9.2.3).
[latex]U[/latex] ist wegzusammenhängend, falls es zu je zwei Punkten [latex]x_0,x_1\in U[/latex] einen Weg in [latex]U[/latex] gibt, der [latex]x_0[/latex] und [latex]x_1[/latex] verbindet (siehe Definition 9.46).
[latex]U[/latex] ist sternförmig, falls es ein Zentrum [latex]z \in U[/latex] gibt, so dass für alle [latex]x \in U[/latex] und [latex]t \in [0,1][/latex] auch [latex](1-t)z + tx \in U[/latex] ist.
[latex]U[/latex] ist konvex, falls für alle [latex]x_0,x_1 \in U[/latex] und [latex]t \in [0,1][/latex] auch [latex](1-t)x_0 + tx_1 \in U[/latex] ist.

Wir haben bereits in Proposition 9.49 gesehen, dass Zusammenhang und Wegzusammenhang für offene Mengen in [latex]\mathbb {R}^n[/latex] äquivalent sind. Wir bemerken, dass sternförmige Teilmengen von [latex]\mathbb {R}^n[/latex] automatisch wegzusammenhängend sind, da sich je zwei Punkte [latex]x_0,x_1[/latex] durch Aneinanderhängen der Geradensegmente zwischen [latex]x_0[/latex] und einem Zentrum [latex]z[/latex] (wie oben) und zwischen [latex]z[/latex] und [latex]x_1[/latex] verbinden lassen. Weiter ist jede konvexe Teilmenge sternförmig (jeder Punkt in [latex]U[/latex] lässt sich als Zentrum wählen). Umgekehrt braucht eine wegzusammenhängende Menge (auch wenn sie offen ist) nicht sternförmig zu sein und eine sternförmige Menge nicht konvex zu sein (finden Sie hier elementare Beispiele).

In Analogie zu Intervallen sind wir unter anderem an wegzusammenhängenden offenen Mengen interessiert, da wir zeigen werden, dass differenzierbare Funktionen mit Ableitung Null auf einem derartigen Gebiet konstant sind.

Definition 10.1

Ein Gebiet in [latex]\mathbb {R}^n[/latex] ist eine nicht-leere, offene, zusammenhängende Teilmenge von [latex]\mathbb {R}^n[/latex].

10.1.2 – Lineare Abbildungen

Wir schreiben [latex]e_1,\ldots ,e_m[/latex] für die Standardbasis des [latex]\mathbb {R}[/latex]-Vektorraums [latex]\mathbb {R}^m[/latex], das heisst, für jedes [latex]j \in \left \lbrace {1,\ldots ,m} \right \rbrace[/latex] ist

[latex]
\begin{aligned}[]e_j = (0,0,\ldots ,0,\underset {\underset {j}{\uparrow }}{1},0,\ldots ,0)^t\end{aligned}
[/latex]

der Vektor, der in der [latex]j[/latex]-ten Zeile eine Eins und sonst überall nur Nulleinträge besitzt. Wie Sie bereits aus der Linearen Algebra I wissen, sind lineare Abbildungen [latex]A: \mathbb {R}^n \to \mathbb {R}^m[/latex] durch die Eigenschaft

[latex]
\begin{aligned}[]A(ax+by) = aA(x) + bA(y)\end{aligned}
[/latex]

für alle [latex]a,b \in \mathbb {R}[/latex] und [latex]x,y\in \mathbb {R}^n[/latex] definiert. Des Weiteren können diese eindeutig durch eine Matrix in [latex]\operatorname {Mat}_{m,n}(\mathbb {R})[/latex] beschrieben werden, wobei die [latex]j[/latex]-te Spalte der Matrix gerade [latex]A(e_j)[/latex] ist.

Des Öfteren werden wir nicht so sehr auf die Unterscheidung zwischen der linearen Abbildung und ihrer Matrixdarstellung bestehen und die Abbildung [latex]A: \mathbb {R}^n \to \mathbb {R}^m[/latex] mit ihrer Darstellungsmatrix [latex]A \in \operatorname {Mat}_{m,n}(\mathbb {R})[/latex] bezüglich der Standardbasis identifizieren.

Der Spezialfall [latex]m = 1[/latex] ist noch erwähnenswert. In diesem Fall lässt sich eine lineare Abbildung [latex]A: \mathbb {R}^n \to \mathbb {R}[/latex] auch als ein inneres Produkt mit einem fest gewählten Vektor [latex]v \in \mathbb {R}^n[/latex] interpretieren, so dass [latex]A(x) = \left \langle {x}, {v} \right \rangle[/latex] für alle [latex]x \in \mathbb {R}^n[/latex] gilt. Dies erlaubt eine geometrische Interpretation der Abbildung.

Übung 10.2

Die Menge der linearen Abbildungen [latex]\mathbb {R}^n \to \mathbb {R}[/latex] nennt sich auch der Dualraum [latex](\mathbb {R}^n)^\ast[/latex] von [latex]\mathbb {R}^n[/latex]. Zeigen Sie, dass die Abbildung [latex]v \in \mathbb {R}^n \mapsto \left \langle {\cdot }, {v} \right \rangle \in (\mathbb {R}^n)^\ast[/latex] linear und bijektiv ist wie oben behauptet, wobei [latex]\left \langle {\cdot }, {v} \right \rangle[/latex] zu [latex]v\in \mathbb {R}^n[/latex] die lineare Abbildung [latex]x \in \mathbb {R}^n \mapsto \left \langle {x}, {v} \right \rangle \in \mathbb {R}[/latex] bezeichnet. Für welche [latex]x[/latex] in [latex]\mathbb {S}^{n-1}=\left \lbrace {x\in \mathbb {R}^n} \mid {\| {x}\| _2=1}\right \rbrace[/latex] ist [latex]\left \langle {x}, {v} \right \rangle[/latex] maximal (oder minimal)?

10.1.3 – Definitionen

Das Hauptziel bei der Definition der Ableitung für reellwertige Funktionen auf Teilmengen von [latex]\mathbb {R}[/latex] (Definition 7.1) war Funktionen (lokal) durch Geraden — auch affin lineare Funktionen von [latex]\mathbb {R}[/latex] nach [latex]\mathbb {R}[/latex] genannt — approximieren zu können. Genauso möchten wir nun für Funktionen [latex]U \to \mathbb {R}^m[/latex] mit [latex]U \subseteq \mathbb {R}^n[/latex] vorgehen. Dabei ist eine affin lineare Funktion [latex]F:\mathbb {R}^n \to \mathbb {R}^m[/latex] durch [latex]F(x) = y_0 + L(x)[/latex] für alle [latex]x \in \mathbb {R}^n[/latex] gegeben, wobei ein Punkt [latex]y_0 \in \mathbb {R}^m[/latex] und eine lineare Abbildung [latex]L:\mathbb {R}^n \to \mathbb {R}^m[/latex] fest gewählt sind.

Definition 10.3: Totale Ableitung

Sei [latex]U \subseteq \mathbb {R}^n[/latex] offen und [latex]f: U \to \mathbb {R}^m[/latex] eine Funktion. Dann heisst [latex]f[/latex] bei [latex]x_0 \in U[/latex] differenzierbar (oder ableitbar), falls es eine lineare Abbildung [latex]L: \mathbb {R}^n\to \mathbb {R}^m[/latex] gibt, so dass

[latex]
\begin{aligned}[]f(x_0+h) = f(x_0) + L(h) + \alpha _f(x_0,h)\end{aligned}
[/latex]

und [latex]\alpha _f(x_0,h) = o(\| {h}\| )[/latex] für [latex]h \to 0[/latex] oder äquivalenterweise

[latex]
\begin{aligned}[]\lim _{h \to 0} \frac {\| {f(x_0+h) - f(x_0) - L(h)}\| }{\| {h}\| } = 0\end{aligned}
[/latex]

gilt. Die lineare Abbildung [latex]L[/latex] wird die totale Ableitung, das Differential oder die Tangentialabbildung genannt und als [latex]\thinspace {\rm {D}}_{x_0} f[/latex], [latex]\thinspace {\rm {d}} f(x_0)[/latex], [latex]\thinspace {\rm {D}} f(x_0)[/latex] oder auch [latex]f'(x_0)[/latex] geschrieben. Weiter heisst [latex]f[/latex] differenzierbar, falls [latex]f[/latex] bei jedem Punkt in [latex]U[/latex] differenzierbar ist.

In diesem Zusammenhang wird, wie schon zuvor, [latex]h = \triangle x[/latex] das Inkrement des Arguments und [latex]\triangle f(x_0,h) = f(x_0+h)-f(x_0)[/latex] das Inkrement der Funktion genannt. Wir bemerken, dass auf Grund der Offenheit von [latex]U[/latex] für [latex]x_0\in U[/latex] und jedes hinreichend kleine [latex]h\in \mathbb {R}^d[/latex] ebenso [latex]x_0+h\in U[/latex] gilt und damit in der Tat [latex]f(x_0+h)[/latex] definiert ist. Es empfiehlt sich, die totale Ableitung als den linearen Teil der besten affinen Approximation [latex]x_0+h\mapsto f(x_0)+\thinspace {\rm {D}}_{x_0}f h[/latex] der Funktion zu sehen. Insbesondere wird dadurch die Analogie zur Differenzierbarkeit einer Funktion auf [latex]\mathbb {R}[/latex] in Definition 7.1 sichtbar (siehe insbesondere (7.2)). Wir bemerken noch, dass Differenzierbarkeit in [latex]x_0[/latex] Stetigkeit in [latex]x_0[/latex] impliziert (wieso?).

Abbildung 10.1 – Für eine Funktion [latex]f:\mathbb {R}^2\to \mathbb {R}[/latex] entspricht die beste affine Approximation der Tangentialebene des Graphen, der wiederum eine Fläche im [latex]\mathbb {R}^3[/latex] darstellt.

Applet 10.4: Tangentialebene

Wir stellen wie bereits in obigem Bild die Tangentialebenen für die Graphen von zwei Funktionen [latex]f:\mathbb {R}^2\to \mathbb {R}[/latex] dar. Des Weiteren werden die partiellen Ableitungen und Richtungsableitungen in Definition 10.5 visualisiert. Gibt es zu jedem Punkt eine Richtungsableitung die verschwindet?

Für [latex]v\in \mathbb {R}^m[/latex] hat die konstante Abbildung [latex]f(x)=v\in \mathbb {R}^m[/latex] für alle [latex]x\in \mathbb {R}^n[/latex] bei jedem Punkt die totale Ableitung [latex]0\in \operatorname {Mat}_{m,n}(\mathbb {R})[/latex]. Eine affine Abbildung [latex]f(x)=v+A(x)\in \mathbb {R}^m[/latex] für alle [latex]x\in \mathbb {R}^n[/latex] und eine vorgegebene Matrix [latex]A\in \operatorname {Mat}_{m,n}(\mathbb {R})[/latex] hat hingegen die Ableitung [latex]D_{x}f=A[/latex] für alle [latex]x\in \mathbb {R}^n[/latex] (wieso?).

Wie bereits betont, darf man bei der Bewegung [latex]h \to 0[/latex] im [latex]\mathbb {R}^n[/latex] keinerlei Einschränkungen vornehmen. Schränken wir die Bewegung dennoch auf Geraden ein (so dass das Inkrement des Arguments die Form [latex]h=sv[/latex] für [latex]s\in \mathbb {R}[/latex] und einen festen Vektor [latex]v \in \mathbb {R}^n[/latex] hat), so ergibt sich folgender neuer Begriff.

Definition 10.5: Ableitung entlang eines Vektors

Sei [latex]U \subseteq \mathbb {R}^n[/latex] eine offene Teilmenge und [latex]f: U \to \mathbb {R}^m[/latex] eine Funktion. Die Ableitung von [latex]f[/latex] entlang eines Vektors [latex]v \in \mathbb {R}^n[/latex] ist an einer Stelle [latex]x_0 \in U[/latex] durch

[latex]
\begin{aligned}[]\partial _v f(x_0) = \lim _{s \to 0} \frac {f(x_0+sv)-f(x_0)}{s}\end{aligned}
[/latex]

definiert, falls der Grenzwert existiert. Falls [latex]\| {v}\| =1[/latex] gilt, so spricht man auch von der Richtungsableitung in der Richtung [latex]v[/latex] bei [latex]x_0[/latex].

Im Spezialfall, wo [latex]v = e_j[/latex] für ein [latex]j \in \left \lbrace {1,\ldots ,n} \right \rbrace[/latex] ist, wird der obige Grenzwert

[latex]
\begin{aligned}[]\partial _j f(x_0) = \partial _{e_j}f(x_0) =\lim _{s \to 0} \frac {f(x_0+se_j)-f(x_0)}{s}\end{aligned}
[/latex]

auch die partielle Ableitung in der [latex]j[/latex]-ten Koordinate (oder der Variable [latex]x_j[/latex]) bei [latex]x_0[/latex] genannt, falls er existiert. Wir schreiben mitunter auch [latex]\frac {\partial f}{\partial x_j}(x_0)[/latex] oder [latex]\partial _{x_j}f(x_0)[/latex]. Existiert die partielle Ableitung in der [latex]j[/latex]-ten Koordinate an jedem Punkt in [latex]U[/latex], so erhält man also eine Funktion [latex]\partial _jf: U \to \mathbb {R}^m[/latex].

Die partielle Ableitung (und die Richtungsableitung entlang eines beliebigen Vektors) ist also eine Ableitung nach einer der unabhängigen Variablen, wobei alle anderen Variablen quasi als Konstanten erachtet werden. Zum Beispiel existieren für die Funktion [latex]f: \mathbb {R}^3 \to \mathbb {R}[/latex] mit [latex]f(x,y,z) = x(y^2+\sin (z))[/latex] für [latex]x,y,z \in \mathbb {R}[/latex] die partiellen Ableitungen bezüglich allen Koordinatenrichtungen und sind gegeben durch

[latex]
\begin{aligned}[]\partial _x f(x,y,z) &= y^2 +\sin (z)\\ \partial _y f(x,y,z) &= 2xy\\ \partial _z f(x,y,z) &= x \cos (z)\end{aligned}
[/latex]

für alle [latex](x,y,z)^t \in \mathbb {R}^3[/latex], da wir einfach alle uns bekannten Regeln aus Abschnitt 7.1.2 anwenden können.

Existiert die totale Ableitung, so lässt sich diese mittels folgender Proposition mit partiellen Ableitungen und Ableitung entlang beliebigen Vektoren in Verbindung bringen.

Proposition 10.6: Matrixdarstellung des totalen Differentials

Sei [latex]U \subseteq \mathbb {R}^n[/latex] offen und sei [latex]f: U \to \mathbb {R}^m[/latex] bei [latex]x_0 \in U[/latex] differenzierbar. Dann existiert für jedes [latex]v \in \mathbb {R}^n[/latex] die Ableitung von [latex]f[/latex] entlang [latex]v[/latex] und es gilt

[latex]
\begin{aligned}[]\partial _v f (x_0) = \thinspace {\rm {D}}_{x_0}f(v).\end{aligned}
[/latex]

Insbesondere ist die totale Ableitung [latex]\thinspace {\rm {D}}_{x_0} f[/latex] eindeutig durch die partiellen Ableitungen bestimmt und es gilt

[latex]
\begin{aligned}[]\thinspace {\rm {D}}_{x_0} f= (\partial _1 f(x_0),\ldots ,\partial _n f(x_0)) \in \operatorname {Mat}_{m,n}(\mathbb {R}),\end{aligned}
[/latex]

wobei letzteres auch die Jacobi-Matrix von [latex]f[/latex] bei [latex]x_0[/latex] genannt wird.

Beweis

Nach Annahme existiert die totale Ableitung [latex]\thinspace {\rm {D}}_{x_0} f[/latex] und es gilt

[latex]
\begin{aligned}[]f(x_0+h) = f(x_0) + \thinspace {\rm {D}}_{x_0}f (h) + o(\| {h}\| )\end{aligned}
[/latex]

für [latex]h \to 0[/latex]. Wir setzen [latex]h = sv[/latex] für [latex]s \to 0[/latex] und [latex]v \in \mathbb {R}^n[/latex], womit gilt

[latex]
\begin{aligned}[]\partial _v f(x_0) = \lim _{s \to 0} \frac {f(x_0+sv)-f(x_0)}{s} = \lim _{s \to 0} (\thinspace {\rm {D}}_{x_0} f (v) + o(1)) = \thinspace {\rm {D}}_{x_0} f (v).\end{aligned}
[/latex]

Also existiert die Ableitungen von [latex]f[/latex] entlang dem (beliebigen) Vektor [latex]v[/latex] bei [latex]x_0[/latex]. Insbesonderen existieren alle partiellen Ableitung von [latex]f[/latex] bei [latex]x_0[/latex] und die partielle Ableitung in der [latex]j[/latex]-ten Richtung für [latex]j \in \left \lbrace {1,\ldots ,n} \right \rbrace[/latex] stellt die [latex]j[/latex]-te Spalte der Matrix [latex]\thinspace {\rm {D}}_{x_0} f[/latex] dar, wie behauptet. ∎

Interessant wäre auch die Umkehrung von Proposition 10.6; unter anderem da a priori nicht klar ist, wie man die Existenz einer totalen Ableitung in konkreten Situationen nachweisen kann. Wie wir sehen werden, existiert unter gewissen, nicht allzu starken Annahmen, eine solche Umkehrung.

Wie schon im Eindimensionalen gelten auch hier Summen- und Produktregel, wie folgende Übung zeigt.

Wichtige Übung 10.7: Summen- und Produktregel

Sei [latex]U \subseteq \mathbb {R}^n[/latex] offen und seien [latex]f_1,f_2: U \to \mathbb {R}^m[/latex] Funktionen. Angenommen [latex]f_1[/latex] und [latex]f_2[/latex] sind differenzierbar bei [latex]x_0 \in U[/latex].

Zeigen Sie, dass [latex]f_1 + f_2[/latex] bei [latex]x_0[/latex] differenzierbar ist und
[latex]
\begin{aligned}[]\thinspace {\rm {D}}_{x_0} (f_1+f_2) = \thinspace {\rm {D}}_{x_0} f_1 +\thinspace {\rm {D}}_{x_0} f_2\end{aligned}
[/latex]

erfüllt.
Sei jetzt [latex]m=1[/latex]. Zeigen Sie, dass [latex]f_1 \cdot f_2[/latex] bei [latex]x_0[/latex] differenzierbar ist und
[latex]
\begin{aligned}[]\thinspace {\rm {D}}_{x_0} (f_1f_2)= f_2(x_0) \thinspace {\rm {D}}_{x_0} f_1 + f_1(x_0) \thinspace {\rm {D}}_{x_0} f_2\end{aligned}
[/latex]

erfüllt.
Nun nehmen wir stattdessen an, dass bloss die Ableitungen [latex]\partial _v f_1[/latex], [latex]\partial _v f_2[/latex] entlang [latex]v \in \mathbb {R}^n[/latex] existieren. Formulieren und beweisen Sie für diese Ableitung analoge Aussagen wie in (i) und (ii).

Landau-Notation: Wir merken an dieser Stelle kurz an, dass keine formale Definition der oben verwendeten Landau-Symbole (siehe zum Beispiel Definition 10.3) gegeben wurde, da dies nur eine kleine Anpassung der Diskussionen in den Abschnitten 5.6 und 8.6.1 darstellt. Beispielsweise ist für eine Funktion [latex]f:U \to \mathbb {R}^m[/latex] auf einer offenen Menge [latex]U \subseteq \mathbb {R}^n[/latex] und [latex]x_0 \in U[/latex]

[latex]
\begin{aligned}[]f(x) = o(\| {x-x_0}\| )\end{aligned}
[/latex]

für [latex]x \to x_0[/latex], falls [latex]\frac {\| {f(x)}\| }{\| {x-x_0}\| }[/latex] für [latex]x \to x_0[/latex] gegen Null geht.

10.1.4 – Reduktion der Dimension

Es wäre von Vorteil, wenn wir die Differenzierbarkeit einer Funktion von [latex]\mathbb {R}^n[/latex] nach [latex]\mathbb {R}^m[/latex] auf die Differenzierbarkeit reellwertiger Funktionen von [latex]\mathbb {R}[/latex] nach [latex]\mathbb {R}[/latex] zurückführen könnten. Denn dann würden uns sämtliche Hilfsmittel aus den Kapiteln 7 und 8 zur Verfügung stehen. Hierbei ist die Reduktion der Dimension des Zielraumes auf [latex]m=1[/latex] eine Charakterisierung.

Lemma 10.8: Differenzierbarkeit via Komponenten

Sei [latex]U \subseteq \mathbb {R}^n[/latex] offen und [latex]f:U \to \mathbb {R}^m[/latex] eine Funktion. Dann ist [latex]f[/latex] genau dann bei [latex]x_0 \in U[/latex] differenzierbar, wenn die Komponenten [latex]f_k = \pi _k \circ f[/latex] für jedes [latex]k \in \left \lbrace {1,\ldots ,m} \right \rbrace[/latex] bei [latex]x_0[/latex] differenzierbar sind. In diesem Fall gilt

[latex]
\begin{aligned}[]\thinspace {\rm {D}}_{x_0} f = \begin{pmatrix}\thinspace {\rm {D}}_{x_0} f_1 \\ \vdots \\ \thinspace {\rm {D}}_{x_0} f_m\end{pmatrix}.\end{aligned}
[/latex]

Beweis

Wir beweisen nur eine der beiden Implikationen und überlassen die zweite den Leserinnen und Lesern (Übung 10.9). Angenommen [latex]f_k[/latex] ist für jedes [latex]k \in \left \lbrace {1,\ldots ,m} \right \rbrace[/latex] bei [latex]x_0[/latex] differenzierbar. Dann gilt für [latex]k \in \left \lbrace {1,\ldots ,m} \right \rbrace[/latex]

[latex]
\begin{aligned}[]f_k(x_0+h) = f_k(x_0) + \thinspace {\rm {D}}_{x_0} f_k (h) + \alpha _k(x_0,h)\end{aligned}
[/latex]

für gewisse Funktionen [latex]\alpha _k[/latex] mit [latex]\alpha _k(x_0,h) = o(\| {h}\| )[/latex] für [latex]h \to 0[/latex]. Daraus folgt aber

[latex]
\begin{aligned}[]f(x_0+h) = \begin{pmatrix}f_1(x_0+h) \\ \vdots \\ f_m(x_0+h)\end{pmatrix} = \begin{pmatrix}f_1(x_0) \\ \vdots \\ f_m(x_0)\end{pmatrix} + \begin{pmatrix}\thinspace {\rm {D}}_{x_0} f_1 \\ \vdots \\ \thinspace {\rm {D}}_{x_0} f_m\end{pmatrix} h + \alpha (x_0,h),\end{aligned}
[/latex]

wobei

[latex]
\begin{aligned}[]\alpha (x_0,h) = \begin{pmatrix}\alpha _1(x_0,h) \\ \vdots \\ \alpha _m(x_0,h)\end{pmatrix} = o(\| {h}\| )\end{aligned}
[/latex]

für [latex]h \to 0[/latex] gilt. Also ist [latex]f[/latex] differenzierbar und es gilt die behauptete Formel für [latex]\thinspace {\rm {D}}_{x_0} f[/latex]. ∎

Übung 10.9

Beweisen Sie die zweite Richtung in Lemma 10.8.

Die Reduktion der Existenz der totalen Ableitungen auf die Existenz der partiellen Ableitung ist etwas schwieriger und im Allgemeinen schlicht nicht möglich. Betrachten wir beispielsweise die Funktion [latex]f: \mathbb {R}^2 \to \mathbb {R}[/latex] gegeben durch
[latex]
\begin{aligned}[]\label{eq:komischefunktion} f(x,y) = \left \lbrace \begin{array}{cl} \frac {xy}{\sqrt {x^2+y^2}} & \text {falls } (x,y)^t \in \mathbb {R}^2 \setminus \left \lbrace {0} \right \rbrace \\ 0 & \text {falls } (x,y)^t = 0\end{array} \right .\end{aligned}
[/latex]
für [latex](x,y)^t \in \mathbb {R}^2[/latex], so existieren beide partiellen Ableitungen [latex]\partial _xf[/latex], [latex]\partial _yf[/latex] auf ganz [latex]\mathbb {R}^2[/latex], aber die totale Ableitung [latex]\thinspace {\rm {D}}_0 f[/latex] existiert trotzdem nicht. Denn für [latex]x = y[/latex] gilt [latex]f(x,y) = \frac {|x|}{\sqrt {2}}[/latex] (wieso impliziert dies, dass die Ableitung nicht existiert?).

Nimmt man jedoch etwas schönere Eigenschaften (als die blosse Existenz) der partiellen Ableitungen an, so erhält man folgende Aussage.

Satz 10.10: Existenz der totalen Ableitung

Sei [latex]U \subseteq \mathbb {R}^n[/latex] offen und [latex]f:U \to \mathbb {R}^m[/latex] eine Funktion. Falls für jedes [latex]j \in \left \lbrace {1,\ldots ,n} \right \rbrace[/latex] die partielle Ableitung [latex]\partial _j f[/latex] auf ganz [latex]U[/latex] existiert und eine stetige Funktion definiert, so ist [latex]f[/latex] auf ganz [latex]U[/latex] differenzierbar.

Es empfiehlt sich an dieser Stelle zu überprüfen, dass das Beispiel in (10.1) die Stetigkeitsvoraussetzung des Satzes nicht erfüllt.

Abbildung 10.2 – Illustration des Beweis von Satz 10.10 für [latex]n = 2[/latex]. Der Term [latex]f(x+h)-f(x)[/latex] lässt sich mittels des Hilfspunktes [latex]x+h_2e_2[/latex] als Summe der beiden Ausdrücke [latex]f(x+h)-f(x+h_2e_2)[/latex] und [latex]f(x+h_2e_2)-f(x)[/latex] schreiben. Diese sind aber jeweils Differenzen von Auswertungen von [latex]f[/latex] bei Punkten, die sich jeweils nur in einer Koordinate unterscheiden. Dies erlaubt die Anwendung des Mittelwertsatzes der eindimensionalen Differentialrechnung.

Beweis

Auf Grund von Lemma 10.8 können wir [latex]m=1[/latex] annehmen. Für [latex]x \in U[/latex] und hinreichend kleine [latex]h = (h_1,\ldots ,h_n)^t \in \mathbb {R}^n[/latex] gilt dann

[latex]
\begin{aligned}[]f(x+h)-f(x) &= f(x_1+h_1,x_2+h_2,\ldots ,x_n+h_n) - f(x_1,x_2+h_2,\ldots ,x_n+h_n)\\ &\quad \quad +f(x_1,x_2+h_2,x_3+h_3\ldots ,x_n+h_n) - f(x_1,x_2,x_3+h_3\ldots ,x_n+h_n)\\ &\quad \quad +\ldots +f(x_1,\ldots ,x_{n-1},x_n+h_n) - f(x)\\ &= \partial _1 f(x_1+\xi _1(h),x_2+h_2,\ldots ,x_n+h_n)h_1\\ &\quad \quad +\partial _2 f(x_1,x_2+\xi _2(h),x_3+h_3,\ldots ,x_n+h_n)h_2\\ &\quad \quad +\ldots +\partial _n f(x_1,\ldots ,x_{n-1},x_n+\xi _n(h))h_n,\end{aligned}
[/latex]

wobei für jedes [latex]j \in \left \lbrace {1,\ldots ,n} \right \rbrace[/latex] nach dem Mittelwertsatz (Theorem 7.29) ein Zwischenpunkt [latex]\xi _j(h)[/latex] zwischen [latex]0[/latex] und [latex]h_j[/latex] gewählt wurde. Wegen Stetigkeit der partiellen Ableitungen können wir nun in obigen Ausdrücken stattdessen die partiellen Ableitungen bei [latex]x[/latex] betrachten. Tatsächlich gilt für

[latex]
\begin{aligned}[]\alpha (x,h) &= \big (\partial _1 f(x_1+\xi _1(h),x_2+h_2,\ldots ,x_n+h_n) - \partial _1 f(x)\big )h_1 \\ &\quad \quad + \big (\partial _2 f(x_1,x_2+\xi _2(h),x_3+h_3,\ldots ,x_n+h_n)-\partial _2 f(x)\big )h_2\\ &\quad \quad +\ldots +\big (\partial _n f(x_1,\ldots ,x_{n-1},x_n+\xi _n(h))-\partial _nf(x)\big )h_n,\end{aligned}
[/latex]

nach den Annahmen des Satzes und wegen [latex]\frac {|h_k|}{\| {h}\| }\leq 1[/latex] für alle [latex]h\in \mathbb {R}^n[/latex] und [latex]k\in \{ 1,\ldots ,n\}[/latex] die Asymptotik

[latex]
\begin{aligned}[]\lim _{h \to 0} \frac {\alpha (x,h)}{\| {h}\| } =0.\end{aligned}
[/latex]

Daher ist schlussendlich

[latex]
\begin{aligned}[]f(x+h) - f(x) = \partial _1f(x)h_1 + \ldots + \partial _nf(x)h_n + \alpha (x,h) = Lh + \alpha (x,h),\end{aligned}
[/latex]

wobei [latex]L = (\partial _1 f(x),\ldots ,\partial _nf(x)) \in \operatorname {Mat}_{1,n}(\mathbb {R})[/latex]. Also ist [latex]f[/latex] bei [latex]x[/latex] differenzierbar und da [latex]x\in U[/latex] beliebig war, ist [latex]f[/latex] also differenzierbar. ∎

Definition 10.11

Wir nennen eine Funktion [latex]f:U \to \mathbb {R}^m[/latex] auf einer offenen Teilmenge [latex]U \subseteq \mathbb {R}^n[/latex] stetig differenzierbar, wenn [latex]f[/latex] differenzierbar ist und die Ableitung

[latex]
\begin{aligned}[]x \in U \mapsto \thinspace {\rm {D}}_x f \in \operatorname {Mat}_{m,n}(\mathbb {R})\end{aligned}
[/latex]

stetig ist.

Nach Satz 10.10 und Proposition 10.6 ist [latex]f:U \to \mathbb {R}^m[/latex] genau dann stetig differenzierbar, wenn alle partiellen Ableitungen von [latex]f[/latex] existieren und stetig sind. Kombinieren wir die Aussagen dieses Abschnitts so können wir die Differenzierbarkeit vieler Abbildungen [latex]f[/latex] von [latex]U\subseteq \mathbb {R}^n[/latex] nach [latex]\mathbb {R}^m[/latex] beweisen. Die Ableitung [latex]D_xf[/latex] ist in diesem Fall immer eine lineare Abbildung von [latex]\mathbb {R}^n[/latex] nach [latex]\mathbb {R}^m[/latex], die wir, wie bereits erwähnt, mit der Jacobi-Matrix in [latex]\operatorname {Mat}_{mn}(\mathbb {R})[/latex] (bestehend aus allen partiellen Ableitungen) identifizieren.

Beispiel 10.12

Sei [latex]f:\mathbb {R}^2\to \mathbb {R}^2[/latex] definiert durch [latex]f:\begin{pmatrix}x\\ y\end{pmatrix}\mapsto \begin{pmatrix}x^2-\cos (xy)\\ y^4-\exp (x)\end{pmatrix}[/latex]. Die totale Ableitung oder Jacobi-Matrix von [latex]f[/latex] bei [latex]\begin{pmatrix}x\\ y\end{pmatrix}[/latex] ist dann gegeben durch

[latex]
\begin{aligned}[]\begin{pmatrix}2x+\sin (xy)y&\sin (xy)x\\ -\exp (x)&4y^3\end{pmatrix}.\end{aligned}
[/latex]

10.2 – Die Kettenregel und der Mittelwertsatz

10.2.1 – Verknüpfungen differenzierbarer Funktionen

Satz 10.13: Kettenregel der mehrdimensionalen Differentialrechnung

Seien [latex]k,m,n \geq 1[/latex], [latex]U \subseteq \mathbb {R}^n[/latex] offen, [latex]V \subseteq \mathbb {R}^m[/latex] offen. Weiter sei [latex]f: U \to V[/latex] bei [latex]x_0[/latex] differenzierbar und [latex]g:V \to \mathbb {R}^k[/latex] bei [latex]f(x_0)[/latex] differenzierbar. Dann ist [latex]g \circ f[/latex] bei [latex]x_0[/latex] differenzierbar und die totale Ableitung [latex]\thinspace {\rm {D}}_{x_0}(g \circ f)[/latex] bei [latex]x_0[/latex] ist durch die Verknüpfungen der linearen Abbildungen
[latex]
\begin{aligned}[]\label{eq:mehrdiff-chainrule} \thinspace {\rm {D}}_{x_0}(g \circ f) = \thinspace {\rm {D}}_{f(x_0)}g \circ \thinspace {\rm {D}}_{x_0}f\end{aligned}
[/latex]
gegeben.

Wir erinnern daran, dass [latex]\thinspace {\rm {D}}_{f(x_0)}g[/latex] mit einer [latex]k \times m[/latex]-Matrix und [latex]\thinspace {\rm {D}}_{x_0}f[/latex] mit einer [latex]m \times n[/latex]-Matrix identifiziert werden kann, womit die Verknüpfung (10.2) von den Dimensionen her Sinn macht.

Beweis

Wir verwenden die Definition der Differenzierbarkeit von [latex]f[/latex] bei [latex]x_0[/latex], womit gilt

[latex]
\begin{aligned}[]f (x_0+h)= f(x_0) + \thinspace {\rm {D}}_{x_0}f(h) + \alpha _f(x_0,h)\end{aligned}
[/latex]

und [latex]\alpha _f(x_0,h) = o(\| {h}\| )[/latex] für [latex]h \to 0[/latex]. Nach Differenzierbarkeit von [latex]g[/latex] bei [latex]y_0 = f(x_0)[/latex] gilt ebenso

[latex]
\begin{aligned}[]g(y_0+\tilde {h}) = g(y_0) + \thinspace {\rm {D}}_{y_0}g (\tilde {h}) + \alpha _g(y_0,\tilde {h})\end{aligned}
[/latex]

mit [latex]\alpha _g(y_0,\tilde {h}) = o(\| {\tilde {h}}\| )[/latex] für [latex]\tilde {h} \to 0[/latex]. Gemeinsam erhalten wir für [latex]h \in \mathbb {R}^n[/latex] klein genug und

[latex]
\begin{aligned}[]\tilde {h}=f(x_0+h)-f(x_0)=\thinspace {\rm {D}}_{x_0}f(h) + \alpha _f(x_0,h)\end{aligned}
[/latex]

die Gleichung

[latex]
\begin{aligned}[]g(f(x_0+h)) &= g(f(x_0)) + \thinspace {\rm {D}}_{y_0}g \big (\thinspace {\rm {D}}_{x_0}f(h) + \alpha _f(x_0,h)\big ) + \alpha _g(y_0,\tilde {h})\\ &= g(f(x_0)) + \thinspace {\rm {D}}_{y_0}g \circ \thinspace {\rm {D}}_{x_0}f(h) + \alpha _{g \circ f}(x_0,h),\end{aligned}
[/latex]

wobei wir

[latex]
\begin{aligned}[]\alpha _{g \circ f}(x_0,h) = \thinspace {\rm {D}}_{y_0}g (\alpha _f(x_0,h)) + \alpha _g(y_0,f(x_0+h)-f(x_0))\end{aligned}
[/latex]

gesetzt haben. Wir möchten nun zeigen, dass [latex]\alpha _{g \circ f}(x_0,h) = o(\| {h}\| )[/latex] für [latex]h \to 0[/latex]. Da [latex]\alpha _f(x_0,h) = o(\| {h}\| )[/latex] für [latex]h \to 0[/latex] gilt, ist auch [latex]\| {\thinspace {\rm {D}}_{y_0}g (\alpha _f(x_0,h))}\| \leq \| {\thinspace {\rm {D}}_{y_0}g}\| _{\mathrm {op}}\| {\alpha _f(x_0,h)}\| = o(\| {h}\| )[/latex] für [latex]h \to 0[/latex].

Es bleibt zu zeigen, dass [latex]\alpha _g(y_0,f(x_0+h)-f(x_0)) = o(\| {h}\| )[/latex] für [latex]h \to 0[/latex] ist. Nach Differenzierbarkeit von [latex]g[/latex] bei [latex]y_0[/latex] gibt es zu jedem [latex]\varepsilon > 0[/latex] ein [latex]\delta > 0[/latex], so dass für [latex]\tilde {h} \in \mathbb {R}^m[/latex] mit [latex]\| {\tilde {h}}\| [latex]
\begin{aligned}[]\label{eq:alphaginketten} \| {\alpha _g(y_0,\tilde {h})}\| \leq \varepsilon \| {\tilde {h}}\|\end{aligned}
[/latex]
gilt. Nach vorrausgesetzer Differenzierbarkeit von [latex]f[/latex] bei [latex]x_0[/latex] gilt für [latex]\tilde {h}=f(x_0+h)-f(x)[/latex] die Abschätzung

[latex]
\begin{aligned}[]\| {\tilde {h}}\| &= \| {\thinspace {\rm {D}}_{x_0}f(h) + \alpha _f(x_0,h) }\| \\ & \leq \| {\thinspace {\rm {D}}_{x_0}f(h)}\| + \| {\alpha _f(x_0,h)}\| \\ & \leq \| {\thinspace {\rm {D}}_{x_0}f}\| _{\mathrm {op}}\| {h}\| +o(\| {h}\| ) = O(\| {h}\| )\end{aligned}
[/latex]

für [latex]h\to 0[/latex]. Also gibt es eine offene Umgebung [latex]O[/latex] von [latex]0 \in \mathbb {R}^n[/latex] und eine Konstante [latex]C>0[/latex] (zum Beispiel [latex]C=\| {\thinspace {\rm {D}}_{x_0}f}\| _{\mathrm {op}}+1[/latex]) mit [latex]\| {\tilde {h}}\| \leq C \| {h}\|[/latex] für alle [latex]h \in O[/latex]. Für [latex]h\in O[/latex] mit [latex]\| {h}\| 10.3) auch

[latex]
\begin{aligned}[]\| {\alpha _g(y_0,\underbrace {f(x_0+h)-f(x_0)}_{=\tilde {h}})}\| \leq \varepsilon \| {\tilde {h}}\| \leq C \varepsilon \| {h}\| .\end{aligned}
[/latex]

Da die Konstante [latex]C[/latex] von [latex]\varepsilon[/latex] unabhängig ist, folgt die Differenzierbarkeit von [latex]g \circ f[/latex] bei [latex]x_0[/latex] und die Kettenregel in Gleichung (10.2). ∎

Wir betrachten nun den Spezialfall [latex]n=1[/latex] für die Kettenregel. Sei also [latex]\gamma : I \to V \subseteq \mathbb {R}^m[/latex] ein differenzierbarer Weg von einem offenen Intervall [latex]I[/latex] in eine offene Teilmenge [latex]V \subseteq \mathbb {R}^m[/latex]. Sei weiter [latex]f: V \to \mathbb {R}^k[/latex] differenzierbar. Dann ergibt die Kettenregel (Satz 10.13), dass [latex]f \circ \gamma[/latex] differenzierbar ist und die Formel

[latex]
\begin{aligned}[](f \circ \gamma )'(t) = \thinspace {\rm {D}}_{\gamma (t)}f \cdot \gamma '(t)\end{aligned}
[/latex]

für alle [latex]t \in I[/latex] gilt. Sollte noch zusätzlich [latex]k=1[/latex] sein, so ist [latex]f \circ \gamma : I \to \mathbb {R}[/latex] und [latex](\thinspace {\rm {D}}_{\gamma (t)}f) \gamma '(t)[/latex] ist für [latex]t \in I[/latex] das Matrixprodukt der [latex]1 \times m[/latex]-Matrix [latex]\thinspace {\rm {D}}_{\gamma (t)}f[/latex] mit der [latex]m \times 1[/latex]-Matrix [latex]\gamma '(t)[/latex] (ein Vektor in [latex]\mathbb {R}^m[/latex]). Wir interpretieren in diesem Fall [latex]\thinspace {\rm {D}}_{x}f[/latex] für [latex]x \in V[/latex] auch als den Spaltenvektor

[latex]
\begin{aligned}[]\text {grad} f(x) = \nabla f(x) = (\thinspace {\rm {D}}_{x}f)^t \in \mathbb {R}^m\end{aligned}
[/latex]

und nennen dies den Gradienten der Funktion [latex]f[/latex] bei der Stelle [latex]x[/latex]. In dieser Schreibweise erhalten wir die Formel
[latex]
\begin{aligned}[]\label{eq:ableitungfmitgamma} (f \circ \gamma )'(t) = \thinspace {\rm {D}}_{\gamma (t)}f \cdot \gamma '(t) = \left \langle {\nabla f (\gamma (t))}, {\gamma '(t)} \right \rangle\end{aligned}
[/latex]
für alle [latex]t \in I[/latex].

Der Begriff der Richtungsableitung und der Fall der Gleichheit in der Cauchy-Schwarz-Ungleichung erlauben es uns auch, eine geometrische Interpretation des Gradienten einer Funktion anzugeben. Ist [latex]f: U \to \mathbb {R}[/latex] eine differenzierbare Funktion auf einer offenen Teilmenge [latex]U \subseteq \mathbb {R}^n[/latex] und ist [latex]v \in \mathbb {R}^n[/latex] ein Vektor der Länge [latex]1[/latex], so gilt nach Proposition 10.6 und vorherigem bei [latex]x \in U[/latex]

[latex]
\begin{aligned}[]\partial _v f(x) = \thinspace {\rm {D}}_{x} f(v) = \left \langle {\nabla f(x)}, {v} \right \rangle .\end{aligned}
[/latex]

Angenommen [latex]\nabla f(x) \neq 0[/latex]. Nach der Ungleichung von Cauchy-Schwarz (Proposition 5.86) ist obiger Ausdruck genau dann maximal (das heisst, gleich [latex]\| {\nabla f(x)}\|[/latex]), wenn [latex]v[/latex] in dieselbe Richtung wie [latex]\nabla f(x)[/latex] zeigt (mit positivem skalarem Vielfachen — also [latex]v = \frac {1}{\| {\nabla f(x)}\| }\nabla f(x)[/latex]). In Worten ausgedrückt heisst dies, dass der Gradient von [latex]f[/latex] an jedem Punkt in die Richtung der grössten Richtungsableitung zeigt, das heisst, die Richtung des grössten Anstiegs um [latex]x[/latex] kennzeichnet. Des Weiteren gibt [latex]\| {\nabla f(x)}\|[/latex] die Steigung in dieser Richtung an.

10.2.2 – Geometrische Interpretation der mehrdimensionalen Kettenregel

Für [latex]x \in \mathbb {R}^n[/latex] definieren wir den Tangentenraum [latex]\mathrm {T}_x \mathbb {R}^n[/latex] von [latex]\mathbb {R}^n[/latex] bei [latex]x[/latex] durch

[latex]
\begin{aligned}[]\mathrm {T}_x \mathbb {R}^n = \left \lbrace {x} \right \rbrace \times \mathbb {R}^n,\end{aligned}
[/latex]

wobei wir Elemente von [latex]\mathrm {T}_x \mathbb {R}^n[/latex] als Vektoren mit Fusspunkt [latex]x[/latex] visualisieren. Via

[latex]
\begin{aligned}[](x,v) + (x,w) = (x,v+w),\quad \alpha (x,v) = (x,\alpha v)\end{aligned}
[/latex]

für [latex](x,v),(x,w)\in \mathrm {T}_x \mathbb {R}^n[/latex] und [latex]\alpha \in \mathbb {R}[/latex] statten wir den Tangentenraum [latex]\mathrm {T}_x \mathbb {R}^n[/latex] bei [latex]x[/latex] mit einer natürlichen Vektorraumstruktur aus, bezüglich der Vektoren wie üblich addiert und skaliert werden, aber der Ort hierbei unverändert bleibt.

Die disjunkte Vereinigung aller Tangentenräume ist das sogenannte Tangentenbündel

[latex]
\begin{aligned}[]\mathrm {T} \mathbb {R}^n = \bigsqcup _{x \in \mathbb {R}^n} \mathrm {T}_x \mathbb {R}^n = \bigsqcup _{x \in \mathbb {R}^n} \left \lbrace {x} \right \rbrace \times \mathbb {R}^n = \mathbb {R}^n \times \mathbb {R}^n\end{aligned}
[/latex]

von [latex]\mathbb {R}^n[/latex], welches man sich auch als Phasenraum vorstellen kann. Da wir für das Tangentenbündel verschiedene Fusspunkte betrachten, gibt es keine natürliche Weise, auf diesem eine Vektorraumstruktur zu definieren (wir möchten nur «Vektoren» und nicht Fusspunkte addieren).

Weiter definieren wir für eine offene Teilmenge [latex]U \subseteq \mathbb {R}^n[/latex] genau gleich den Tangentenraum von [latex]U[/latex] bei [latex]x \in U[/latex] als

[latex]
\begin{aligned}[]\mathrm {T}_x U = \left \lbrace {x} \right \rbrace \times \mathbb {R}^n,\end{aligned}
[/latex]

welcher sich wie zuvor als Vektorraum aller möglichen Ableitungen [latex]\gamma '(0)[/latex] für differenzierbare Wege [latex]\gamma[/latex] mit Werten in [latex]U[/latex], die [latex]\gamma (0)=x[/latex] erfüllen, auffassen lässt. Des Weiteren ist das Tangentenbündel von [latex]U[/latex] durch

[latex]
\begin{aligned}[]\mathrm {T} U = \bigsqcup _{x \in U} \mathrm {T}_x U = \bigsqcup _{x \in U} \left \lbrace {x} \right \rbrace \times \mathbb {R}^n = U \times \mathbb {R}^n\end{aligned}
[/latex]

definiert.

In diesem Kontext können wir zum Beispiel die Ableitung zur Zeit [latex]t[/latex] eines differenzierbaren Weges [latex]\gamma : I \to U[/latex] als

[latex]
\begin{aligned}[]\thinspace {\rm {D}}_t \gamma = (\gamma (t),\gamma '(t)) \in \mathrm {T}_{\gamma (t)} U\subseteq \mathrm {T} U\end{aligned}
[/latex]

interpretieren, wobei [latex]\gamma (t)[/latex] als der Ort zum Zeitpunkt [latex]t[/latex] und [latex]\gamma '(t)[/latex] als die gerichtete Geschwindigkeit zum Zeitpunkt [latex]t[/latex] aufgefasst wird. Der Vorteil dieses Gesichtspunktes ist gewissermassen, dass man gleichzeitig beide interessanten «Daten» Ort und Geschwindigkeit zur Verfügung hat.

Wir definieren nun auch für allgemeine differenzierbare Abbildungen [latex]f:U \to V[/latex] und [latex]g: V \to \mathbb {R}^k[/latex] auf offenen Teilmengen [latex]U \subseteq \mathbb {R}^n[/latex] und [latex]V \subseteq \mathbb {R}^m[/latex] die Ableitungen als die Abbildungen

[latex]
\begin{aligned}[]\thinspace {\rm {D}} f : U \times \mathbb {R}^n = \mathrm {T} U &\to V \times \mathbb {R}^m = \mathrm {T} V\\ (x,v) &\mapsto (f(x),\thinspace {\rm {D}}_xf(v))\end{aligned}
[/latex]

und

[latex]
\begin{aligned}[]\thinspace {\rm {D}} g : V \times \mathbb {R}^m = \mathrm {T} V &\to \mathbb {R}^k \times \mathbb {R}^k = \mathrm {T} \mathbb {R}^k\\ (y,w) &\mapsto (g(y),\thinspace {\rm {D}}_yg(w)),\end{aligned}
[/latex]

die wiederum sowohl eine Ort- als auch eine Geschwindigkeitskomponente betrachten. Dann nimmt die Kettenregel auf ganz [latex]U[/latex] die einfachere Form

[latex]
\begin{aligned}[]\thinspace {\rm {D}} (g \circ f) = \thinspace {\rm {D}} g \circ \thinspace {\rm {D}} f\end{aligned}
[/latex]

an. In der Tat gilt für [latex](x,v) \in \mathrm {T} U[/latex] nach der Kettenregel

[latex]
\begin{aligned}[]\thinspace {\rm {D}} (g \circ f)(x,v) = \big (g \circ f(x), \thinspace {\rm {D}}_x (g \circ f) (v)\big ) = \big (g(f(x)),\thinspace {\rm {D}}_{f(x)}g \thinspace {\rm {D}}_x f(v)\big ) = \thinspace {\rm {D}} g (\thinspace {\rm {D}} f(x,v)).\end{aligned}
[/latex]

Diese Unterscheidung zwischen Ort und Tangentenvektor macht aus vielerlei Sicht Sinn. Betrachten wir zum Beispiel die offene Menge [latex]U[/latex] als unser Universum, so lassen wir natürlich nur Wege in [latex]U[/latex] zu, womit alle möglichen Ableitungen eines differenzierbaren Weges Tangentenvektoren zu Punkten in [latex]U[/latex] sind. Des Weiteren hat das Verdoppeln eines Tangenvektors in [latex]T_x\mathbb {R}^n[/latex] bei [latex]x[/latex] die klare physikalische Interpretation einer Verdoppelung der Geschwindigkeit eines Weges durch [latex]x[/latex], doch hat das Verdoppeln der Ortskoordinaten keine natürliche Interpretation, da es keinen physikalisch sinnvollen Ursprung des Koordinatensystems gibt. Wir werden diese Sichtweise nicht sehr oft für offene Teilmengen des Euklidschen Raum [latex]\mathbb {R}^n[/latex] aber später für Teilmannigfaltigkeiten von [latex]\mathbb {R}^n[/latex] verwenden.

10.2.3 – Der Mittelwertsatz

Wir formulieren nun den Mittelwertsatz für reellwertige differenzierbare Funktionen auf einer offenen Menge in [latex]\mathbb {R}^n[/latex], der eine Verallgemeinerung des Mittelwertsatzes für Funktionen auf [latex]\mathbb {R}[/latex] darstellt (Theorem 7.29). Dazu betrachten wir eine gegebene Funktion [latex]f[/latex] entlang eines Geradenstücks in der offenen Menge.

Satz 10.14: Mittelwertsatz für reellwertige Funktionen auf [latex]\mathbb {R}^n[/latex]

Sei [latex]U \subseteq \mathbb {R}^n[/latex] offen und [latex]f:U \to \mathbb {R}[/latex] differenzierbar. Sei [latex]x_0 \in U[/latex] und [latex]h \in \mathbb {R}^n[/latex]. Falls [latex]x_0+th \in U[/latex] für alle [latex]t \in [0,1][/latex], dann gilt

[latex]
\begin{aligned}[]f(x_0+h)-f(x_0) = \thinspace {\rm {D}}_\xi f(h) = \partial _h f(\xi )\end{aligned}
[/latex]

für ein [latex]\xi = x_0+ t_\xi h[/latex] mit [latex]t_\xi \in (0,1)[/latex].

In Worten ausgedrückt existiert also entlang des geraden Weges zwischen [latex]x_0[/latex] und [latex]x_0+h[/latex] ein Punkt, wo die Ableitung entlang des durch den geraden Weg gegebenen Vektors gerade die Differenz der Funktionswerte an den Randpunkten des Weges ist.

Beweis

Wir bemerken, dass die Ableitung des geraden Weges [latex]t \in \mathbb {R} \mapsto x_0 + th[/latex] für vorgegebene [latex]x_0,h \in \mathbb {R}^n[/latex] bei jedem [latex]t[/latex] gleich [latex]h[/latex] ist. Daher erfüllt die Funktion

[latex]
\begin{aligned}[]g:t \in [0,1] \mapsto f(x_0+th) \in \mathbb {R}\end{aligned}
[/latex]

auf Grund der Kettenregel in Satz 10.13 alle Voraussetzungen des eindimensionalen Mittelwertsatzes (Theorem 7.29). Also existiert [latex]t_\xi \in (0,1)[/latex] mit [latex]g(1)-g(0) = g'(t_\xi )= \thinspace {\rm {D}}_{x_0+t_\xi h} f (h)[/latex] nach der Kettenregel und somit

[latex]
\begin{aligned}[]f(x_0+h) - f(x) = g(1)-g(0) = g'(t_\xi ) = \thinspace {\rm {D}}_{\xi } f (h)\end{aligned}
[/latex]

für [latex]\xi = x_0 + t_\xi h[/latex]. ∎

Korollar 10.15

Sei [latex]U \subseteq \mathbb {R}^n[/latex] ein Gebiet und sei [latex]f:U \to \mathbb {R}^m[/latex] differenzierbar mit [latex]\thinspace {\rm {D}}_x f = 0[/latex] für alle [latex]x \in U[/latex]. Dann ist [latex]f[/latex] konstant.

Beweis

Es genügt den Fall [latex]m=1[/latex] zu betrachten (wieso?). Wir nehmen an, dass [latex]U[/latex] nichtleer ist und wählen ein [latex]x_0 \in U[/latex]. Wir betrachten

[latex]
\begin{aligned}[]U' = \left \lbrace {x \in U} \mid {f(x) = f(x_0)}\right \rbrace .\end{aligned}
[/latex]

Da [latex]f[/latex] stetig ist, ist [latex]U'[/latex] eine abgeschlossene Teilmenge von [latex]U[/latex] (siehe Proposition 9.37). Des Weiteren folgt aus der Annahme und Satz 10.14, dass [latex]U'[/latex] offen ist: In der Tat existiert zu [latex]x \in U'[/latex] ein [latex]\varepsilon > 0[/latex] mit [latex]B_\varepsilon (x) \subseteq U[/latex] und da sich jeder Punkt [latex]y \in B_\varepsilon (x)[/latex] mit einem geraden Weg zu [latex]x[/latex] verbinden lässt, gilt nach Satz 10.14 auch [latex]f(y) = f(x) = f(x_0)[/latex]. Also ist [latex]y \in U'[/latex] und da [latex]y\in B_\varepsilon (x)[/latex] beliebig war, ist [latex]B_\varepsilon (x) \subseteq U'[/latex].

Da aber [latex]U[/latex] zusammenhängend ist und [latex]U'[/latex] nicht-leer ist, folgt [latex]U' = U[/latex] und damit auch das Korollar. ∎

Definition 10.16: Lokale Lipschitz-Stetigkeit

Eine Funktion [latex]f:X \to Y[/latex] zwischen zwei metrischen Räumen [latex]X,Y[/latex] heisst lokal Lipschitz-stetig, falls für jedes [latex]x_0 \in X[/latex] ein [latex]\varepsilon > 0[/latex] existiert, so dass [latex]f|_{B_{\varepsilon }(x_0)}[/latex] Lipschitz-stetig ist.

Korollar 10.17

Sei [latex]U \subseteq \mathbb {R}^n[/latex] offen und sei [latex]f: U \to \mathbb {R}^m[/latex] eine stetig differenzierbare Funktion. Dann ist [latex]f[/latex] lokal Lipschitz-stetig. Falls [latex]U[/latex] zusätzlich konvex und die Ableitung beschränkt ist, dann ist [latex]f[/latex] sogar Lipschitz-stetig.

Beweis

Es genügt den Fall [latex]m=1[/latex] zu betrachten (wieso?). Wir nehmen zuerst an, dass [latex]U[/latex] konvex ist und die Ableitung beschränkt ist. Letzteres bedeutet, dass es ein [latex]M \geq 0[/latex] gibt, so dass [latex]\| {\thinspace {\rm {D}}_\xi f}\| _\mathrm {op} \leq M[/latex] für alle [latex]\xi \in U[/latex]. Aus dem Mittelwertsatz (Satz 10.14) folgt damit für [latex]x,y\in U[/latex]

[latex]
\begin{aligned}[]\| {f(x)-f(y)}\| = \| {\thinspace {\rm {D}}_\xi f(x-y)}\| \leq M \| {x-y}\|\end{aligned}
[/latex]

für ein [latex]\xi \in U[/latex], da [latex]U[/latex] konvex ist und somit das Geradenstück zwischen [latex]x[/latex] und [latex]y[/latex] enthält. Dies beweist die zweite Aussage im Korollar.

Die erste Aussage folgt aus der zweiten angewendet auf den Ball [latex]U_0=B_\varepsilon (x_0)[/latex] und [latex]f_0 = f|_{U_0}[/latex], wobei [latex]\varepsilon >0[/latex] so gewählt ist, dass [latex]\overline {B_\varepsilon (x_0)} \subseteq U[/latex]. In der Tat ist dann [latex]U_0[/latex] konvex (wieso?) und die Abbildung [latex]\xi \in \overline {B_\varepsilon (x_0)} \mapsto D_\xi f[/latex] ist als stetige Funktion auf der kompakten Menge [latex]\overline {B_\varepsilon (x_0)}[/latex] (siehe Satz 9.66) beschränkt, was die Beschränktheit von der Ableitung auf [latex]B_\varepsilon (x_0)[/latex] impliziert. ∎

Übung 10.18: Eine Distanzfunktion auf [latex]U[/latex]

Sei [latex]U \subseteq \mathbb {R}^{n}[/latex] offen und zusammenhängend. Wir sagen, dass ein Weg (d.h. eine stetige Abbildung) [latex]\gamma : [0,1] \rightarrow U[/latex] stückweise differenzierbar ist, falls es eine Zerlegung [latex]\mathfrak {Z} = \{ t_{0} = 0

Zeigen Sie, dass es zu je zwei Punkten [latex]x,y \in U[/latex] einen stückweise differenzierbaren Weg von [latex]x[/latex] nach [latex]y[/latex] gibt.

Definieren Sie die Länge eines stückweise differenzierbaren Weges wie oben als

[latex]
\begin{aligned}[]L(\gamma ) = \sum _{k=1}^{K}\int _{t_{k-1}}^{t_{k}}\left \| \gamma '(s)\right \| \operatorname {d}\! s.\end{aligned}
[/latex]

Wir behaupten, dass die Wegmetrik [latex]\operatorname {d}_{\operatorname {Weg}}(x,y)[/latex] für [latex]x,y \in U[/latex], welche durch

[latex]
\begin{aligned}[]\operatorname {d}_{\operatorname {Weg}}(x,y) = \inf \{ L(\gamma ) \mid \gamma \mbox { ist ein st\"{u}ckweise differenzierbarer Weg von } x \mbox { nach } y\} .\end{aligned}
[/latex]

definiert ist, tatsächlich eine Metrik ist und dass diese die übliche Topologie definiert.

Sei [latex]f:U\rightarrow \mathbb {R}^{m}[/latex] stetig differenzierbar mit beschränkten Ableitungen. Zeigen Sie, dass [latex]f[/latex] Lipschitz-stetig ist, wenn man [latex]U[/latex] mit der Wegmetrik [latex]\operatorname {d}_{\operatorname {Weg}}(x,y)[/latex] ausstattet.
Finden Sie ein Beispiel einer zusammenhängenden, nicht konvexen Menge und einer differenzierbaren Funktion mit beschränkten Ableitungen, die bezüglich [latex]\left \| \cdot \right \|[/latex] nicht Lipschitz-stetig ist.

10.3 – Höhere Ableitungen und Taylor-Approximation

10.3.1 – Definition und Eigenschaften der höheren partiellen Ableitungen

Auf Grund von Satz 10.10 über die Existenz der totalen Ableitung werden wir im Folgenden eigentlich immer die Stetigkeit der partiellen Ableitungen (das heisst, stetige Differenzierbarkeit) verlangen. Wie wir hier sehen werden, ist diese Annahme auch für «höhere Ableitungen» von Bedeutung.

Definition 10.19: Höhere stetige Differenzierbarkeit

Sei [latex]U \subseteq \mathbb {R}^n[/latex] offen und [latex]f:U \to \mathbb {R}^m[/latex] eine Funktion. Wir sagen, dass [latex]f[/latex] zweimal stetig differenzierbar ist, falls [latex]f[/latex] stetig differenzierbar ist und für alle [latex]j,k \in \left \lbrace {1,\ldots ,n} \right \rbrace[/latex] die partielle Ableitung [latex]\partial _k f: U \to \mathbb {R}^m[/latex] wiederum eine stetige partielle Ableitung [latex]\partial _j\partial _k f[/latex] besitzt. Im Allgemeinen heisst [latex]f[/latex] [latex]d[/latex]-mal stetig differenzierbar für ein [latex]d\geq 2[/latex], falls [latex]f[/latex] stetig differenzierbar ist und für jedes [latex]j \in \left \lbrace {1,\ldots ,n} \right \rbrace[/latex] die partielle Ableitung [latex](d-1)[/latex]-mal stetig differenzierbar ist. Weiter sei

[latex]
\begin{aligned}[]C^d(U) = \left \lbrace {f:U \to \mathbb {R}} \mid {f \text { ist } d\text {-mal stetig differenzierbar}}\right \rbrace\end{aligned}
[/latex]

die Menge der [latex]d[/latex]-mal stetig differenzierbaren reellwertigen Funktionen auf [latex]U[/latex]. Wir sagen, dass eine iterierte partielle Ableitung einer [latex]d[/latex]-mal stetig differenzierbaren Funktion [latex]f: U \to \mathbb {R}[/latex] Ordnung [latex]\ell[/latex] für [latex]\ell \in \left \lbrace {1,\ldots ,d} \right \rbrace[/latex] hat, falls genau [latex]\ell[/latex] partielle Ableitungen auf [latex]f[/latex] angewandt wurden. Des Weiteren nennt man die Funktion [latex]f[/latex] glatt, falls sie beliebig oft (also für alle [latex]d\in \mathbb {N}[/latex] [latex]d[/latex]-mal) stetig differenzierbar ist.

Wir möchten an dieser Stelle anmerken, dass wir ab jetzt oft nur [latex]\mathbb {R}[/latex]-wertige statt [latex]\mathbb {R}^m[/latex]-wertige Funktionen betrachten werden. Viele der folgenden Aussagen übertragen sich allerdings wegen der Reduktionseigenschaft in Lemma 10.8 auch auf den Fall [latex]m > 1[/latex].

Satz 10.20: Satz von Schwarz

Sei [latex]U \subseteq \mathbb {R}^n[/latex] offen und [latex]f:U \to \mathbb {R}[/latex] eine zweimal stetig differenzierbare Funktion. Dann gilt für alle [latex]j,k \in \left \lbrace {1,\ldots ,n} \right \rbrace[/latex]

[latex]
\begin{aligned}[]\partial _j\partial _k f = \partial _k \partial _j f\end{aligned}
[/latex]

auf ganz [latex]U[/latex].

Beweis

Es genügt den Fall [latex]n=2[/latex] und [latex]j=1[/latex], [latex]k=2[/latex] zu betrachten, der allgemeine Fall ist nur in der Notation schwieriger und folgt auch aus dem betrachteten Spezialfall. Für [latex]x \in U[/latex] und ein genügend kleines [latex]h >0[/latex] (so dass [latex](x_1+t_1h,x_2+t_2h)\in U[/latex] für alle [latex]t_1,t_2\in [0,1][/latex]) definieren wir eine Funktion [latex]F[/latex] durch

[latex]
\begin{aligned}[]F(h) = f(x_1+h,x_2+h) - f(x_1+h,x_2)-f(x_1,x_2+h) + f(x_1,x_2).\end{aligned}
[/latex]

Weiter betrachten wir für ein genügend kleines aber festes [latex]h \in (0,1)[/latex] die nach der Kettenregel differenzierbare Funktion [latex]t \in [0,1] \mapsto \varphi (t) = f(x_1+th,x_2+h) - f(x_1+th,x_2)[/latex] und erhalten

[latex]
\begin{aligned}[]F(h) = \varphi (1)- \varphi (0) = \varphi '(\xi _1) = \big (\partial _1 f(x_1+ \xi _1 h,x_2+h) - \partial _1 f (x_1+\xi _1h,x_2)\big ) h\end{aligned}
[/latex]

für ein [latex]\xi _1 \in (0,1)[/latex] nach dem eindimensionalen Mittelwertsatz (Theorem 7.29) angewendet auf die Hilfsfunktion [latex]\varphi[/latex].

Abbildung 10.3 – Die Funktion [latex]h \mapsto F(h)[/latex] ist eine vorzeichenbehaftete Summe von Funktionswerten von [latex]f[/latex] bei den Ecken eines Quadrats (hier gekennzeichnet durch eine durchgezogene Linie). Die Funktion [latex]t \mapsto \varphi (t)[/latex] entspricht der Differenz der Funktionswerte auf einer vertikalen Strecke durch das Quadrat.

Eine nochmalige Anwendungen des eindimensionalen Mittelwertsatzes auf die Funktion [latex]\psi : t \in [0,1] \mapsto \partial _1 f(x_1+\xi _1h,x_2+th)[/latex] ergibt (gemeinsam mit der Kettenregel)

[latex]
\begin{aligned}[]F(h) &= \big (\partial _1 f(x_1+ \xi _1 h,x_2+h) - \partial _1 f (x_1+\xi _1h,x_2)\big ) h\\ &= \partial _2\partial _1f(x_1+\xi _1h,x_2+\xi _2h)h^2\end{aligned}
[/latex]

für einen Zwischenpunkt [latex]\xi _2 \in (0,1)[/latex].

Da aber in der Funktion [latex]h \mapsto F(h)[/latex] die beiden Komponenten symmetrisch verwendet wurden, können wir das Argument auch mit vertauschten Rollen der ersten und zweiten Komponenten durchführen. Dies ergibt analog gewisse [latex]\xi _1',\xi _2' \in (0,1)[/latex] mit

[latex]
\begin{aligned}[]F(h) = \partial _1\partial _2f(x_1+\xi _1'h,x_2+\xi _2'h)h^2.\end{aligned}
[/latex]

Wir dividieren nun durch [latex]h^2 >0[/latex] und erhalten

[latex]
\begin{aligned}[]\partial _2\partial _1f(x_1+\xi _1h,x_2+\xi _2h) = \partial _1\partial _2f(x_1+\xi _1'h,x_2+\xi _2'h).\end{aligned}
[/latex]

Des Weiteren gilt wegen [latex]\xi _1,\xi _2,\xi _1',\xi _2'\in (0,1)[/latex], dass [latex](\xi _1h,\xi _2h)[/latex] und [latex](\xi _1'h,\xi _2'h)[/latex] beide gegen [latex](0,0)[/latex] streben wenn [latex]h\searrow 0[/latex]. Also folgt auf Grund der Stetigkeit beider partiellen Ableitungen [latex]\partial _2\partial _1f(x) = \partial _1\partial _2f(x)[/latex] wie gewünscht. ∎

Wir bemerken, dass die Annahme der Stetigkeit im Satz von Schwarz notwendig ist — siehe die entsprechende Übung in Abschnitt 10.8.2.

Die Hesse-Matrix [latex]H(x) = (H_{ij}(x))_{ij}\in \operatorname {Mat}_{n,n}(\mathbb {R})[/latex] bei [latex]x\in U[/latex] einer zweimal stetig differenzierbaren Funktion [latex]f:U\to \mathbb {R}[/latex] ist gegeben durch

[latex]
\begin{aligned}[]H_{ij}(x) = \partial _i \partial _j f(x)\end{aligned}
[/latex]

für [latex]i,j \in \left \lbrace {1,\ldots ,n} \right \rbrace[/latex]. Der Satz von Schwarz (Satz 10.20) besagt nun genau [latex]H_{ij}(x) = H_{ji}(x)[/latex] für alle [latex]i,j \in \left \lbrace {1,\ldots ,n} \right \rbrace[/latex], also dass [latex]H(x)[/latex] eine symmetrische Matrix ist.

Eine direkte Konsequenz und Verallgemeinerung des Satzes von Schwarz (Satz 10.20) ist das folgende Korollar.

Korollar 10.21: Satz von Schwarz

Sei [latex]U \subseteq \mathbb {R}^n[/latex] offen und [latex]f: U \to \mathbb {R}^m[/latex] [latex]d[/latex]-mal stetig differenzierbar. Dann spielt die Reihenfolge der partiellen Ableitungen (bis zur Ordnung [latex]d[/latex]) keine Rolle.

Die höheren partiellen Ableitungen einer stetig differenzierbaren Funktion [latex]f:U\to \mathbb {R}^m[/latex] auf einer offenen Teilmenge [latex]U\subseteq \mathbb {R}^n[/latex] können also alle in die Form

[latex]
\begin{aligned}[]\partial ^{\pmb {\alpha }}f=\partial _1^{\alpha _1}\cdots \partial _n^{\alpha _n}f\end{aligned}
[/latex]

gebracht werden, wobei die einzelnen Komponenten von [latex]\boldsymbol {\alpha }\in \mathbb {N}_0^n[/latex] angeben wie oft wir nach den einzelnen Koordinatenrichtungen abgeleitet haben (und [latex]\partial _j^0f=f[/latex] für alle [latex]j=1,\ldots ,n[/latex]). Der Satz von Schwarz nimmt in dieser Notation die Form

[latex]
\begin{aligned}[]\partial ^{\pmb {\alpha }}\partial ^{\pmb {\beta }}f=\partial ^{\pmb {\beta }}\partial ^{\pmb {\alpha }}f=\partial ^{\pmb {\alpha }+\pmb {\beta }}f\end{aligned}
[/latex]

für [latex]\boldsymbol {\alpha },\boldsymbol {\beta }\in \mathbb {N}_0^n[/latex] an, wobei [latex]f[/latex] auf [latex]U[/latex] als [latex]\| {\boldsymbol {\alpha }+\boldsymbol {\beta }}\| _1[/latex]-oft stetig differenzierbar vorausgesetzt wird. Wir bezeichnen in diesem Zusammenhang [latex]\boldsymbol {\alpha } = (\alpha _1,\ldots ,\alpha _n) \in \mathbb {N}_0^n[/latex] als einen Multiindex.

10.3.2 – Mehrdimensionale Taylor-Approximation

Satz 10.22: Taylor-Approximation mit Integralrestglied

Sei [latex]U \subseteq \mathbb {R}^n[/latex] offen und [latex]f:U \to \mathbb {R}[/latex] eine [latex](d+1)[/latex]-mal stetig differenzierbare Funktion. Sei [latex]x \in U[/latex] und [latex]h \in \mathbb {R}^n[/latex], so dass [latex]x+th \in U[/latex] für alle [latex]t \in [0,1][/latex]. Dann gilt
[latex]
\begin{aligned}[]\label{eq:mehrdiff-taylor1} f(x+h) = f(x) + \sum _{k=1}^d \frac {1}{k!} \big (\partial _h^k f\big ) (x) + R_{x,d}^f(h),\end{aligned}
[/latex]
wobei das Integralrestglied [latex]R_{x,d}^f[/latex] durch

[latex]
\begin{aligned}[]R_{x,d}^f(h) = \int _0^1 \frac {(1-t)^d}{d!} \big (\partial _h^{d+1} f\big ) (x+th) \thinspace {\rm {d}} t.\end{aligned}
[/latex]

gegeben ist. Insbesondere ist
[latex]
\begin{aligned}[]\label{eq:mehrdiff-taylor2} f(x+h) = f(x) + \sum _{k=1}^d \frac {1}{k!} \big (\partial _h^k f\big ) (x) + O(\| {h}\| ^{d+1}).\end{aligned}
[/latex]

Dabei bezeichnet [latex]\partial _h^k f[/latex] die [latex]k[/latex]-fache Ableitung von [latex]f[/latex] entlang des Vektors [latex]h[/latex]. Wir erinnern daran, dass

[latex]
\begin{aligned}[]\partial _h f = h_1 \partial _1 f + \ldots + h_n \partial _n f.\end{aligned}
[/latex]

Auch die höheren Ableitungen [latex]\partial _h^k f[/latex] lassen sich als Linearkombinationen partieller Ableitungen der Ordnung [latex]k[/latex] auffassen, wenn man die Potenz formal ausmultipliziert. Zum Beispiel gilt für den quadratischen Term bei [latex]x \in U[/latex]
[latex]
\begin{aligned}[]\label{eq:partialhesse} \begin{aligned}\left [\partial _h^2 f\right ](x) &=\left [\partial _h(h_1 \partial _1 f+ \ldots + h_n \partial _nf) \right ](x)\\ &=\sum _{j=1}^nh_j\partial _h(\partial _jf)(x)=\sum _{i,j=1}^nh_ih_j\partial _i\partial _jf(x)= h^t H(x) h\end{aligned}\end{aligned}
[/latex]
für alle [latex]h\in \mathbb {R}^n[/latex], wobei [latex]H(x)[/latex] wieder die Hesse-Matrix der zweiten Ableitungen bei [latex]x[/latex] bezeichnet.

Wie im eindimensionalen Fall wollen wir die Approximation in Gleichung (10.5) (oder auch (10.6)) die Taylor-Approximation [latex]d[/latex]-ter Ordnung nennen.

Beweis

Nach Annahme im Satz gilt [latex]x+th \in U[/latex] für alle [latex]t\in [0,1][/latex] (oder sogar für [latex]t[/latex] in einem etwas grösseren offenen Intervall). Wir wenden nun die eindimensionale Taylor-Approximation auf die Funktion

[latex]
\begin{aligned}[]\varphi :[0,1] \to \mathbb {R},\ t \mapsto f(x+th)\end{aligned}
[/latex]

an. Nach Theorem 8.58 erhält man für die Taylor-Approximation um [latex]0[/latex] bei [latex]1[/latex]
[latex]
\begin{aligned}[]\label{eq:mehrdiff-taylorbew1} \varphi (1) = P_{0,d}^\varphi (1) + \int _0^1 \varphi ^{(d+1)}(t) \frac {(1-t)^d}{d!} \thinspace {\rm {d}} t,\end{aligned}
[/latex]
wobei
[latex]
\begin{aligned}[]\label{eq:mehrdiff-taylorbew2} P_{0,d}^\varphi (1) = \sum _{k=0}^d \frac {\varphi ^{(k)}(0)}{k!}.\end{aligned}
[/latex]
Wenden wir die Kettenregel in Satz 10.13 auf [latex]\varphi[/latex] an, so erhalten wir für [latex]t \in [0,1][/latex]

[latex]
\begin{aligned}[]\varphi '(t) = \thinspace {\rm {D}}_{x+th}f (h) = \left [\partial _h f\right ](x+th) = h_1 \partial _1 f(x+th) +\ldots + h_n \partial _n f(x+th) .\end{aligned}
[/latex]

Für die zweite Ableitung von [latex]\varphi[/latex] nach [latex]t\in [0,1][/latex] (für festes [latex]x[/latex] und [latex]h[/latex]) ergibt sich ebenso

[latex]
\begin{aligned}[]\varphi ''(t) = \left [\partial _h^2 f\right ](x+th).\end{aligned}
[/latex]

Per Induktion erhält man schlussendlich

[latex]
\begin{aligned}[]\varphi ^{(k)}(t) = \big [\partial _h^k f\big ](x+th),\end{aligned}
[/latex]

für alle [latex]k \in \left \lbrace {1,\ldots ,n} \right \rbrace[/latex] und [latex]t \in [0,1][/latex]. Setzen wir dies in (10.8) und (10.9) ein, so ergibt sich der Satz.

Für die letzte Aussage sei [latex]\varepsilon >0[/latex] mit [latex]\overline {B_\varepsilon }(x_0)\subseteq U[/latex] so dass alle partiellen Ableitungen der Ordnung [latex]d+1[/latex] auf [latex]\overline {B_\varepsilon }(x_0)[/latex] beschränkt sind. Expandieren wir die Notation [latex]\big (\partial _h^{d+1} f\big ) (x+th)[/latex] so erhalten wir eine endliche Linearkombination der [latex](d+1)[/latex]-ten partiellen Ableitungen, die für [latex]\| {h}\| \leq \varepsilon[/latex] und [latex]t\in [0,1][/latex] beschränkt sind, wobei die Koeffizienten ein Produkt von [latex]d+1[/latex] Koordinaten von [latex]h=(h_1,\ldots ,h_n)^t[/latex] sind. Da [latex]|h_j|\leq \| {h}\|[/latex] für [latex]j=1,\ldots ,n[/latex], ergibt sich die behauptete Fehlerabschätzung durch diese endliche Summe und die Dreiecksungleichung für das Riemann-Integral. ∎

Um zu veranschaulichen, wieso Satz 10.22 gerade die mehrdimensionale Version von Theorem 8.58 ist, wollen wir diesen hier in Multiindexnotation darstellen. Wir setzen für [latex]\boldsymbol {\alpha }\in \mathbb {N}_0^n[/latex] und [latex]h \in \mathbb {R}^n[/latex]

[latex]
\begin{aligned}[]h^{\pmb {\alpha }} = h_1^{\alpha _1} \cdots h_n^{\alpha _n}\end{aligned}
[/latex]

sowie [latex]\boldsymbol {\alpha }! = \alpha _1 ! \cdots \alpha _n![/latex]. Sei [latex]U \subseteq \mathbb {R}^n[/latex] offen und [latex]f:U \to \mathbb {R}[/latex] eine [latex](d+1)[/latex]-mal stetig differenzierbare Funktion. Sei [latex]x \in U[/latex] und [latex]h \in \mathbb {R}^n[/latex], so dass [latex]x+th \in U[/latex] für alle [latex]t \in [0,1][/latex]. Dann gilt
[latex]
\begin{aligned}[]\label{eq:mehrdiff-taylor3} f(x+h) = \sum _{\pmb {\alpha } \in \mathbb {N}_0^n: \| {\pmb {\alpha }}\| _1 \leq d} \frac {1}{\boldsymbol {\alpha }!} \partial ^{\pmb {\alpha }} f(x) h^{\pmb {\alpha }} + R_{x,d}^f(h)\end{aligned}
[/latex]
wobei
[latex]
\begin{aligned}[]\label{eq:mehrdiff-taylor4} R_{x,d}^f(h) = (d+1)\sum _{\pmb {\alpha } \in \mathbb {N}_0^n: \| {\pmb {\alpha }}\| _1 = d+1}h^{\pmb {\alpha }} \int _0^1 \frac {(1-t)^d}{\boldsymbol {\alpha }!} \partial ^{\pmb {\alpha }}f (x+th) \thinspace {\rm {d}} t.\end{aligned}
[/latex]
Spricht man von Taylor-Approximation (insbesondere in der Literatur), so ist meistens die Form in (10.10), (10.11) anstelle von (10.5), (10.6) gemeint.

Wir bemerken an dieser Stelle ebenfalls, dass der Hauptterm auf der rechten Seite von (10.10) genau wie in der eindimensionalen Taylor-Approximation ein Polynom darstellt — diesmal allerdings in [latex]d[/latex] Variablen.

Wichtige Übung 10.23: Satz von Taylor in Multiindexnotation

Zeigen Sie obige Umformulierung der mehrdimensionalen Taylor-Approximation.

Hinweis.

Betrachten Sie zuerst den Fall [latex]n=2[/latex] und verwenden Sie die bekannten Eigenschaften der Binomialkoeffizienten für den Beweis. Für den allgemeinen Fall können Sie den Multinomialsatz (siehe Abschnitt 3.9.2) verwenden, welcher besagt, dass

[latex]
\begin{aligned}[](a_1+\ldots +a_n)^d = \sum _{\pmb {\alpha }:\| {\pmb {\alpha }}\| _1 = d} \binom {d}{\boldsymbol {\alpha }} a^{\pmb {\alpha }}\end{aligned}
[/latex]

für [latex]a \in \mathbb {R}^n[/latex], wobei für [latex]\boldsymbol {\alpha }\in \mathbb {N}_0^n[/latex] mit [latex]\| {\boldsymbol {\alpha }}\| _1 = d[/latex] der Multinomialkoeffizient durch [latex]\binom {d}{\boldsymbol {\alpha }} = \frac {d!}{\boldsymbol {\alpha }!}[/latex] gegeben ist.

Applet 10.24: Taylor-Approximation für Berglandschaft

Wir sehen anhand der Funktion [latex]f:(x,y)\in \mathbb {R}^2\mapsto \sin (x)\cos (y)+2[/latex] wie die Taylor-Approximationen erster, zweiter, oder dritter Ordnung die Funktion approximiert.

Wir werden die mehrdimensionale Taylor-Approximation meist nur für [latex]d=1,2[/latex] wie im folgenden Korollar benötigen.

Korollar 10.25: Lineare und quadratische Approximation

Sei [latex]U \subseteq \mathbb {R}^n[/latex] offen und [latex]f:U \to \mathbb {R}[/latex] eine zweimal stetig differenzierbare Funktion. Dann gilt für alle [latex]x \in U[/latex]

[latex]
\begin{aligned}[]f(x+h) = f(x) + \left \langle {\nabla f(x)}, {h} \right \rangle + O(\| {h}\| ^2)\end{aligned}
[/latex]

und genauer

[latex]
\begin{aligned}[]f(x+h) = f(x) + \left \langle {\nabla f(x)}, {h} \right \rangle + \tfrac {1}{2}h^tH(x)h + o(\| {h}\| ^2)\end{aligned}
[/latex]

für [latex]h \to 0[/latex], wobei [latex]H(x)[/latex] wieder die Hesse-Matrix von [latex]f[/latex] bei [latex]x[/latex] darstellt.

Beweis

Die erste Gleichung folgt direkt aus Satz 10.22. Für die zweite bemerken wir zuerst, dass das Restglied [latex]R_{x,1}^f[/latex] nach Satz 10.22 und (10.7) durch

[latex]
\begin{aligned}[]R_{x,1}^f(h) = \int _0^1 (1-t) h^t H(x+th) h \thinspace {\rm {d}} t\end{aligned}
[/latex]

gegeben ist, wobei [latex]H(x)[/latex] wieder die Hesse-Matrix von [latex]f[/latex] bei [latex]x \in U[/latex] bezeichnet. Für [latex]h \to 0[/latex] unterscheidet sich wegen der Stetigkeit der zweiten Ableitungen [latex]H(x+th)[/latex] um [latex]o(1)[/latex] von [latex]H(x)[/latex] (und die implizite Konstante ist unabhängig von [latex]t\in [0,1][/latex]). Also gilt

[latex]
\begin{aligned}[]R_{x,1}^f(h) &= \int _0^1 (1-t) h^t H(x+th) h \thinspace {\rm {d}} t = \int _0^1 (1-t) h^t \big (H(x) + o(1) \big ) h \thinspace {\rm {d}} t\\ &= h^t H(x)h \int _0^1 (1-t) \thinspace {\rm {d}} t + o(\| {h}\| ^2) = \tfrac {1}{2}h^tH(x)h + o(\| {h}\| ^2)\end{aligned}
[/latex]

für [latex]h \to 0[/latex]. ∎

Beispiel 10.26

Wir betrachten die Funktion

[latex]
\begin{aligned}[]f: (x,y)^t \in \mathbb {R}^2 \mapsto (x+1) \sin (x+y)-x\end{aligned}
[/latex]

und berechnen die ersten partiellen Ableitungen

[latex]
\begin{aligned}[]\partial _1 f(x,y) &= \sin (x+y) + (x+1)\cos (x+y)-1,\\ \partial _2 f(x,y) &= (x+1) \cos (x+y)\end{aligned}
[/latex]

sowie die zweiten partiellen Ableitungen

[latex]
\begin{aligned}[]\partial _1^2 f (x,y) &= 2\cos (x+y) - (x+1)\sin (x+y)\\ \partial _2^2 f(x,y) &=-(x+1) \sin (x+y)\\ \partial _2\partial _1f(x,y) &= \partial _1\partial _2 f(x,y) = \cos (x+y)-(x+1)\sin (x+y)\end{aligned}
[/latex]

für [latex](x,y)^t \in \mathbb {R}^2[/latex]. Damit gilt beispielsweise für die quadratische Taylor-Approximation von [latex]f[/latex] um [latex](0,0)^t[/latex]

[latex]
\begin{aligned}[]f(x,y)= y+x^2+xy + o(x^2+y^2)\end{aligned}
[/latex]

für [latex](x,y)^t \to 0[/latex].

Glücklicherweise ist nicht immer notwendig alle partiellen Ableitungen zu berechnen. Stattdessen kann man auch auf bekannte Reihendarstellungen zurückgreifen. Wir möchten dies an einem Beispiel illustrieren.

Beispiel 10.27: Taylor via bekannter Reihendarstellung

Wir berechnen die Taylor-Approximation zwölfter Ordnung der Funktion

[latex]
\begin{aligned}[]f: (x,y)^t \in \mathbb {R}^2 \mapsto (x+y) \cos (x^2) \in \mathbb {R}\end{aligned}
[/latex]

um den Ursprung. Die Taylor-Reihe von [latex]\cos[/latex] um den Ursprung ist durch

[latex]
\begin{aligned}[]\cos (x) = \sum _{n=0}^{\infty } (-1)^n \frac {x^{2n}}{(2n) ! }\end{aligned}
[/latex]

gegeben, womit insbesondere

[latex]
\begin{aligned}[]\cos (x^2) = \sum _{n=0}^{\infty } (-1)^n \frac {x^{4n}}{(2n) ! } = 1-\tfrac {1}{2} x^4 + \tfrac {1}{24} x^8 + O(x^{12})\end{aligned}
[/latex]

für alle [latex]x \in \mathbb {R}[/latex]. Für die gegebene Funktion [latex]f[/latex] und [latex]h = (x,y)^t \to 0[/latex] ergibt sich also

[latex]
\begin{aligned}[]f(h) = (x+y) \cos (x^2) &= (x+y) \Big (1-\tfrac {1}{2} x^4 + \tfrac {1}{24} x^8 + O(x^{12})\Big ) \\ &= x+y - \tfrac {1}{2} x^5 - \tfrac {1}{2} x^4 y + \tfrac {1}{24} x^9+ \tfrac {1}{24} x^8 y + O(x^{12}(x+y)) \\ &= x+y - \tfrac {1}{2} x^5 - \tfrac {1}{2} x^4 y + \tfrac {1}{24} x^9+ \tfrac {1}{24} x^8 y + O(\| {h}\| ^{13}),\end{aligned}
[/latex]

wobei wir verwendet haben, dass [latex]x^{13} = O(\| {h}\| ^{13})[/latex] sowie [latex]x^{12} y = O(\| {h}\| ^{13})[/latex]. Wir empfehlen den Leserinnen und Lesern an dieser Stelle, einige Ableitungen der Funktion [latex]f[/latex] zu berechnen und sich davon zu überzeugen, dass das Verwenden der Potenzreihe des Kosinus obige Rechnung erheblich verkürzt.

10.4 – Extremwerte

Definition 10.28: Extrema

Sei [latex]f[/latex] eine reellwertige Funktion auf einer Menge [latex]X[/latex]. Dann sagen wir, dass [latex]f[/latex] in [latex]x_{\max } \in X[/latex] ein Maximum annimmt, falls [latex]f(x) \leq f(x_{\max })[/latex] für alle [latex]x \in X[/latex] gilt. Die Funktion [latex]f[/latex] nimmt ein striktes Maximum in [latex]x_{\max }\in X[/latex] an, falls [latex]f(x) Maximum von [latex]f[/latex]. Analoge Begriffe definiert man für das Minimum. In beiden Fällen sprechen wir von (globalen) Extremwerten.

Sei nun [latex]X[/latex] ein metrischer Raum. Dann sagen wir, dass [latex]f[/latex] in [latex]x_{\max } \in X[/latex] ein lokales Maximum annimmt, falls es ein [latex]\delta >0[/latex] gibt, so dass [latex]f(x) \leq f(x_{\max })[/latex] für alle [latex]x \in B_{\delta }(x_{\max })[/latex]. Weiter nimmt [latex]f[/latex] in [latex]x_{\max } \in X[/latex] ein striktes lokales Maximum an, falls es ein [latex]\delta >0[/latex] gibt, so dass [latex]f(x) lokales Maximum bezeichnet. Die Definition eines lokalen Minimum ist analog und beide werden als lokale Extremwerte bezeichnet.

In Satz 9.66 haben wir bereits gesehen, dass stetige Funktionen auf kompakten metrischen Räumen beide Extremwerte (also Maximum und Minimum) besitzen. Des Weiteren wissen wir wegen dem Satz von Heine-Borel (Satz 9.70), dass dies insbesondere für abgeschlossene und beschränkte Teilmengen in [latex]\mathbb {R}^n[/latex] anwendbar ist. Die Methoden dieses Kapitels sind aber eher für offene Teilmengen des [latex]\mathbb {R}^n[/latex] relevant. Für abgeschlossene Teilmengen des [latex]\mathbb {R}^n[/latex] mit «glatten Rändern» werden wir die hier behandelten Methoden im nächsten Kapitel weiter verfeinern.

Proposition 10.29: Notwendige Bedingung für lokale Extrema

Sei [latex]U \subseteq \mathbb {R}^n[/latex] offen, sei [latex]f:U \to \mathbb {R}[/latex] eine Funktion und sei [latex]x_0 \in U[/latex] ein Punkt. Falls [latex]f[/latex] in [latex]x_0[/latex] ein lokales Extremum annimmt und [latex]f[/latex] in [latex]x_0[/latex] differenzierbar ist, so ist [latex]\thinspace {\rm {D}}_{x_0}f = 0[/latex].

Der Beweis dieser Proposition ist weitgehend analog zum Beweis im eindimensionalen Fall (siehe Proposition 7.17).

Beweis

Wir nehmen ohne Beschränkung der Allgemeinheit an, dass [latex]f[/latex] in [latex]x_0[/latex] ein lokales Maximum annimmt. Für alle [latex]j \in \left \lbrace {1,\ldots ,n} \right \rbrace[/latex] und genügend kleine [latex]h \in \mathbb {R}[/latex] gilt nach Annahme

[latex]
\begin{aligned}[]f(x_0+he_j) - f(x_0) \leq 0.\end{aligned}
[/latex]

Daher ist

[latex]
\begin{aligned}[]\partial _j f(x_0) = \lim _{h \searrow 0} \frac {f(x_0+he_j) - f(x_0)}{h} \leq 0\end{aligned}
[/latex]

und gleichzeitig auch

[latex]
\begin{aligned}[]\partial _j f(x_0) = \lim _{h \nearrow 0} \frac {f(x_0+he_j) - f(x_0)}{h} \geq 0.\end{aligned}
[/latex]

Da [latex]j \in \left \lbrace {1,\ldots ,n} \right \rbrace[/latex] beliebig war, folgt [latex]\thinspace {\rm {D}}_{x_0}f = 0[/latex] aus Proposition 10.6. ∎

Wie schon für Funktionen auf Intervallen in [latex]\mathbb {R}[/latex] (zum Beispiel für [latex]x \in \mathbb {R} \mapsto x^3 \in \mathbb {R}[/latex]) ist das Verschwinden der Ableitung aber keine hinreichende Bedingung für das Vorliegen eines Extremwerts. Trotzdem ist Proposition 10.29 in der Praxis sehr nützlich, um die Kandidaten für lokale Extrema aufzuspüren. In der Tat sind die Kandidaten jene Punkte, bei denen die Ableitung entweder nicht existiert oder verschwindet.

Definition 10.30: Kritische Punkte

Sei [latex]U \subseteq \mathbb {R}^n[/latex] offen und sei [latex]f:U \to \mathbb {R}[/latex] eine differenzierbare Funktion. Ein Punkt [latex]x \in U[/latex] heisst kritischer Punkt von [latex]f[/latex], falls [latex]\thinspace {\rm {D}}_x f =0[/latex]. Ist allgemeiner [latex]f[/latex] eine differenzierbare Abbildung von [latex]U[/latex] nach [latex]\mathbb {R}^m[/latex], so ist [latex]x \in U[/latex] ein kritischer Punkt, falls [latex]\thinspace {\rm {D}}_x f[/latex] Rang kleiner als [latex]\min (m,n)[/latex] hat.

Weiter nennt man [latex]x \in U[/latex] einen regulären Punkt der Abbildung [latex]f:U \to \mathbb {R}^m[/latex], falls [latex]x[/latex] kein kritischer Punkt von [latex]f[/latex] ist. Das Bild eines kritischen Punktes unter [latex]f[/latex] nennt man auch einen kritischen Wert; Punkte in [latex]\mathbb {R}^m[/latex] im Komplement der kritischen Werte von [latex]f[/latex] heissen reguläre Werte.

Für die Untersuchung, ob bei einem kritischen Punkt ein lokales Extremum angenommen wird, benötigen wir weitere Begriffe aus der Linearen Algebra.

Definition 10.31

Sei [latex]A \in \operatorname {Mat}_{n,n}(\mathbb {R})[/latex] eine symmetrische Matrix (das heisst, [latex]A^t = A[/latex]). Dann nennt man die Abbildung

[latex]
\begin{aligned}[]Q_A:v \in \mathbb {R}^n \mapsto v^t A v\end{aligned}
[/latex]

die zu [latex]A[/latex] assoziierte quadratische Form in [latex]n[/latex] Variablen. Die quadratische Form [latex]Q_A[/latex] oder auch die Matrix [latex]A[/latex] heisst

positiv definit, falls [latex]Q_A(v) > 0[/latex] für alle [latex]v \in \mathbb {R}^n \setminus \left \lbrace {0} \right \rbrace[/latex],
negativ definit, falls [latex]Q_A(v)
indefinit, falls [latex]w_-,w_+ \in \mathbb {R}^n[/latex] existieren mit [latex]Q_A(w_+)> 0[/latex] und [latex]Q_A(w_-)
nicht-degeneriert, falls [latex]\det (A) \neq 0[/latex].

Bemerkung: Zwei weitere Begriffe zu quadratischen Formen

Sei [latex]A[/latex] eine symmetrische Matrix und [latex]Q_A[/latex] die assoziierte quadratische Form. Nebst den oben eingeführten Begriffen zu [latex]Q_A[/latex] existieren weitere wichtige Begriffe, die wir hier aber nicht verwenden werden. Die quadratische Form [latex]Q_A[/latex] nennt sich positiv semidefinit, falls [latex]Q_A(v) \geq 0[/latex] für alle [latex]v \in \mathbb {R}^n[/latex], und negativ semidefinit, falls [latex]Q_A(v) \leq 0[/latex] für alle [latex]v \in \mathbb {R}^n[/latex].

Der Begriff der Definitheit erlaubt es uns nun wie in Korollar 7.37 zu entscheiden, ob bei einem kritischen Punkt ein lokales Maximum angenommen wird oder nicht.

Korollar 10.32

Sei [latex]U \subseteq \mathbb {R}^n[/latex] offen, [latex]f: U \to \mathbb {R}[/latex] zweimal stetig differenzierbar, [latex]x_0 \in U[/latex] ein kritischer Punkt und

[latex]
\begin{aligned}[]Q(h) = \sum _{i,j=1}^n \partial _i \partial _j f(x_0) h_ih_j\end{aligned}
[/latex]

die quadratische Form assoziiert zur Hesse-Matrix [latex]H(x)[/latex] von [latex]f[/latex] bei [latex]x_0[/latex]. Dann gilt

Ist [latex]Q[/latex] positiv definit, so nimmt [latex]f[/latex] bei [latex]x_0[/latex] ein striktes lokales Minimum an.
Ist [latex]Q[/latex] negativ definit, so nimmt [latex]f[/latex] bei [latex]x_0[/latex] ein striktes lokales Maximum an.
Ist [latex]Q[/latex] indefinit, so hat [latex]f[/latex] bei [latex]x_0[/latex] kein lokales Extremum.

Um sich die obigen Aussagen merken zu können, empfiehlt sich die folgenden einfachen Beispiele im Gedächnis zu behalten.

[latex]f(x,y) = x^2+y^2[/latex] hat ein lokales Minimum bei [latex]0[/latex].
[latex]f(x,y) = -x^2-y^2[/latex] hat ein lokales Maximum bei [latex]0[/latex].
[latex]f(x,y) = x^2-y^2[/latex] hat kein lokales Extremum bei [latex]0[/latex]. Allerdings ist [latex]0[/latex] ein kritischer Punkt von [latex]f[/latex].

In dem indefiniten Fall spricht man auch von einem Sattelpunkt, siehe folgendes Bild.

Beweis

Nach Korollar 10.25 gilt
[latex]
\begin{aligned}[]\label{eq:mehrdiff-prooflokextr} f(x_0+h) - f(x_0) = \tfrac 12\| {h}\| ^2 \left (Q\bigg (\frac {h}{\| {h}\| }\bigg ) + \alpha (x_0,h)\right )\end{aligned}
[/latex]
für [latex]\alpha (x_0,h) = o(1)[/latex] für [latex]h \to 0[/latex]. Falls [latex]Q[/latex] positiv definit ist, dann gilt [latex]Q(w) > 0[/latex] für alle [latex]w \in \mathbb {S}^{n-1} = \left \lbrace {v \in \mathbb {R}^n} \mid {\| {v}\| =1}\right \rbrace[/latex]. Da [latex]\mathbb {S}^{n-1}[/latex] nach dem Satz von Heine-Borel (Satz 9.70) kompakt ist und [latex]Q[/latex] stetig ist, existiert daher ein [latex]c >0[/latex] mit [latex]Q(w) \geq c[/latex] für alle [latex]w \in \mathbb {S}^{n-1}[/latex] (siehe Satz 9.66(5)). Es existiert weiter ein [latex]\delta > 0[/latex], so dass der Fehlerterm [latex]\alpha (x_0,h)[/latex] in (10.12) im Absolutbetrag kleiner als [latex]\frac {c}{2}[/latex] ist für [latex]h\in \mathbb {R}^n[/latex] mit [latex]\| {h}\| 10.12), dass

[latex]
\begin{aligned}[]f(x_0+h) - f(x_0) \geq \tfrac 12\| {h}\| ^2 \left (Q\bigg (\frac {h}{\| {h}\| }\bigg ) - \tfrac {c}{2}\right ) \geq \tfrac {c}{4} \| {h}\| ^2 > 0\end{aligned}
[/latex]

für alle [latex]h \in B_\delta (0)[/latex] gilt, wodurch [latex]f[/latex] in [latex]x_0[/latex] ein striktes lokales Minimum annimmt.

Falls [latex]Q[/latex] negativ definit ist, so ersetzen wir [latex]f[/latex] durch [latex]-f[/latex], womit [latex]Q[/latex] durch [latex]-Q[/latex] ersetzt wird. Die quadratische Form [latex]-Q[/latex] ist aber positiv definit und somit nimmt [latex]-f[/latex] in [latex]x_0[/latex] ein striktes lokales Minimum an, was die Aussage beweist.

Falls [latex]Q[/latex] indefinit ist, so existieren [latex]w_-,w_+ \in \mathbb {S}^{n-1}[/latex], so dass [latex]Q(w_-) 0[/latex]. Für hinreichend kleine [latex]s \in \mathbb {R}\setminus \left \lbrace {0} \right \rbrace[/latex] ist dann

[latex]
\begin{aligned}[]|\alpha (x_0,sw_-)| [/latex]

und damit

[latex]
\begin{aligned}[]f(x_0+sw_-) - f(x_0) & 0\end{aligned}
[/latex]

Daher nimmt [latex]f[/latex] bei [latex]x_0[/latex] weder ein lokales Minimum noch ein lokales Maximum an. ∎

Auf Grund von Korollar 10.32 sind wir daran interessiert, für eine gegebene Matrix entscheiden zu können, ob sie positiv definit, negativ definit oder indefinit ist. Folgendes Kriterium aus der Linearen Algebra ist dafür sehr nützlich.

Satz 10.33: Charakterisierungen von Definitheit

Sei [latex]A = (a_{ij})_{ij}\in \operatorname {Mat}_{n,n}(\mathbb {R})[/latex] eine symmetrische Matrix. Dann gilt

[latex]A[/latex] ist genau dann positiv definit, wenn alle der folgenden Determinanten positiv sind:
[latex]
\begin{aligned}[]a_{11},\quad \det \begin{pmatrix}a_{11} & a_{12} \\ a_{21} & a_{22}\end{pmatrix},\quad \det \begin{pmatrix}a_{11} & a_{12} & a_{13} \\ a_{21} & a_{22} & a_{23} \\ a_{31} & a_{32} & a_{33}\end{pmatrix}, \quad \ldots \quad ,\quad \det (A).\end{aligned}
[/latex]
[latex]A[/latex] ist genau dann negativ definit, wenn [latex]-A[/latex] positiv definit ist, was genau wechselnden Vorzeichen der Determinanten beginnend mit negativen Vorzeichen entspricht.
Falls [latex]A[/latex] nicht-degeneriert ist und weder positiv noch negativ definit ist, dann ist [latex]A[/latex] indefinit.

Der Beweis dieses Satzes verwendet nur Methoden der Linearen Algebra und wird deswegen in den nächsten Teilabschnitt ausgelagert. Selbstverständlich existieren weitere, nützliche Charakterisierungen von Definitheit (beispielsweise via der Eigenwerte).

Beispiel 10.34

Seien [latex]a,b \in \mathbb {R}[/latex] feste Parameter. Wir definieren [latex]f: \mathbb {R}^2 \to \mathbb {R}[/latex] durch

[latex]
\begin{aligned}[]f(x,y) = x \sin (y) + ax^2+ by^2\end{aligned}
[/latex]

für [latex](x,y)^t \in \mathbb {R}^2[/latex] und betrachten den kritischen Punkt [latex](0,0)^t[/latex]. Die Hesse-Matrix von [latex]f[/latex] bei [latex](0,0)^t[/latex] ist durch

[latex]
\begin{aligned}[]H = \begin{pmatrix}2a & 1 \\ 1 & 2b\end{pmatrix}\end{aligned}
[/latex]

gegeben. Wir wenden Satz 10.33 und das Kriterium in Korollar 10.32 an und erhalten folgende Fälle.

Falls [latex]a > 0[/latex] ist und [latex]4ab-1> 0[/latex] ist, so ist [latex]H[/latex] positiv definit und [latex]f[/latex] hat bei [latex](0,0)^t[/latex] ein lokales Minimum.
Falls [latex]a0[/latex] ist, so ist [latex]H[/latex] negativ definit und [latex]f[/latex] hat bei [latex](0,0)^t[/latex] ein lokales Maximum.
Falls [latex]4ab-1 =0[/latex] ist, so ist die Hesse-Matrix degeneriert und unsere Kriterien greifen nicht (was nicht heisst, dass man diesen Fall nicht trotzdem entscheiden kann).
Falls [latex]4ab-1

Übung 10.35

Finden Sie alle kritischen Punkte der Funktion [latex]f: (x,y) \in \mathbb {R}^2 \mapsto x^3-y^3+3\alpha xy[/latex] zu [latex]\alpha \in \mathbb {R}[/latex]. Entscheiden Sie jeweils, ob es sich um ein Extremum handelt und wenn ja, ob ein lokales Minimum oder Maximum angenommen wird.

10.4.1 – Beweis des Kriteriums für Definitheit*

Wie angekündigt beweisen wir hier Satz 10.33.

Beweis von Satz 10.33

Wir bemerken zuerst, dass für [latex]J \in \operatorname {GL}_n(\mathbb {R})[/latex] die Matrix [latex]A[/latex] genau dann positiv definit (negativ definit oder indefinit) ist, wenn dies für [latex]J^t A J[/latex] der Fall ist.

Der Beweis der ersten Aussage erfolgt per Induktion nach [latex]n[/latex]. Für [latex]n=1[/latex] folgt die Behauptung direkt aus der Definition. Für den Beweis des Induktionsschrittes schreiben wir [latex]A\in \operatorname {Mat}_{n+1,n+1}(\mathbb {R})[/latex] als die Blockmatrix

[latex]
\begin{aligned}[]A = \begin{pmatrix}B & v \\ v^t & c\end{pmatrix}\end{aligned}
[/latex]

für eine symmetrische Matrix [latex]B \in \operatorname {Mat}_{n,n}(\mathbb {R})[/latex], [latex]v \in \mathbb {R}^n[/latex] und [latex]c \in \mathbb {R}[/latex]. Falls die Matrix [latex]B[/latex] invertierbar ist, dann gilt mit

[latex]
\begin{aligned}[]J = \begin{pmatrix}I_n & -B^{-1}v \\ 0 & 1\end{pmatrix} \quad \text {und } J^t = \begin{pmatrix}I_n & 0 \\ -v^tB^{-1} & 1\end{pmatrix},\end{aligned}
[/latex]

dass

[latex]
\begin{aligned}[]J^t A J &= \begin{pmatrix}I_n & 0 \\ -v^tB^{-1} & 1\end{pmatrix} \begin{pmatrix}B & v \\ v^t & c\end{pmatrix} \begin{pmatrix}I_n & -B^{-1}v \\ 0 & 1\end{pmatrix}\\ &= \begin{pmatrix}I_n & 0 \\ -v^tB^{-1} & 1\end{pmatrix}\begin{pmatrix}B & -BB^{-1}v + v \\ v^t & -v^tB^{-1}v + c\end{pmatrix} = \begin{pmatrix}B & 0 \\ 0 & \tilde {c}\end{pmatrix},\end{aligned}
[/latex]

wobei wir [latex]\tilde {c} = -v^tB^{-1}v + c[/latex] gesetzt haben.

Falls nun [latex]A[/latex] positiv definit ist, dann ist auch [latex](w^t,0)A\Big ({\scriptsize \arraycolsep =0.3\arraycolsep \ensuremath {\begin{matrix}w\\ 0\end{matrix}}}\Big )> 0[/latex] für alle [latex]w \in \mathbb {R}^n \setminus \left \lbrace {0} \right \rbrace[/latex]. In obiger Notation folgt daraus, dass [latex]B[/latex] ebenfalls positiv definit ist. Gemeinsam mit der Induktionsannahme erhalten wir, dass die ersten [latex]n[/latex] Determinanten positiv sind und insbesondere [latex]B \in \operatorname {GL}_n(\mathbb {R})[/latex] ist. Wenden wir nun obige Rechnung an, so erhalten wir also eine Matrix [latex]J\in \operatorname {GL}_{n+1}(\mathbb {R})[/latex], so dass

[latex]
\begin{aligned}[]J^t A J = \begin{pmatrix}B & 0 \\ 0 & \tilde {c}\end{pmatrix}.\end{aligned}
[/latex]

Da [latex]A[/latex] als positiv definit vorausgesetzt wurde, gilt [latex]\tilde {c}> 0[/latex] und wegen [latex]\det (J) =1[/latex] auch

[latex]
\begin{aligned}[]\det (A) = \det (J^tAJ) = \det (B) \tilde {c} > 0.\end{aligned}
[/latex]

Dies beweist den Induktionsschritt in der ersten Richtung.

Sei nun [latex]A\in \operatorname {Mat}_{n+1,n+1}(\mathbb {R})[/latex] eine symmetrische Matrix, so dass alle Determinanten wie im Satz positiv sind. Insbesondere hat [latex]B[/latex] eine positive Determinante und ist auf Grund der Induktionssannahme positiv definit. Wir verwenden wieder die oben definierte Matrix [latex]J[/latex] und sehen, dass

[latex]
\begin{aligned}[]J^t A J = \begin{pmatrix}B & 0 \\ 0 & \tilde {c}\end{pmatrix} \quad \text {und} \quad \det (A) = \det (B) \tilde {c} > 0\end{aligned}
[/latex]

und somit [latex]\tilde {c} > 0[/latex]. Daraus folgt aber, dass

[latex]
\begin{aligned}[]\begin{pmatrix}B & 0 \\ 0 & \tilde {c}\end{pmatrix}\end{aligned}
[/latex]

und damit auch [latex]A[/latex] positiv definit sind. Dies vollendet den induktiven Beweis der ersten Aussage im Satz.

Für die zweite Aussage verwenden wir, dass [latex]A[/latex] genau dann negativ definit ist, wenn [latex]-A[/latex] positiv definit ist (was direkt aus der Definition folgt). Gemeinsam mit der Multilinearität der Determinante und der ersten Bedingung ergibt sich die gewünschte Charakterisierung mittels der Folge der Determinanten.

Die letzte Behauptung ist keine Charakterisierung, sondern nur eine hinreichende Bedingung. Ihr Beweis ist etwas anders aufgebaut und verwendet folgenden Satz aus der linearen Algebra: Jede symmetrische Matrix [latex]A[/latex] ist diagonalisierbar, wobei es sogar eine orthogonale Matrix [latex]K[/latex] gibt für die [latex]K^{-1}AK[/latex] diagonal ist. Für die orthogonale Matrix [latex]K[/latex] ist aber [latex]K^{-1}=K^t[/latex] und wie schon zuvor haben dadurch [latex]A[/latex] und die Diagonalmatrix [latex]D=K^tAK[/latex] das gleiche Verhalten bezüglich Definitheit. Nach Vorraussetzung ist [latex]A[/latex] nicht-degeneriert, womit alle Eigenwerte von [latex]A[/latex] (also die Diagonaleinträge von [latex]D[/latex]) nicht gleich Null sind. Da [latex]A[/latex] nicht positiv definit ist, ist auch [latex]D[/latex] nicht positiv definit und es existiert ein negativer Eintrag in [latex]D[/latex]. Dies gilt analog für nicht negativ definit, und zusammen sehen wir, dass sowohl [latex]D[/latex] als auch [latex]A[/latex] indefinit sind. ∎

10.5 – Parameterintegrale

Seien [latex]a

[latex]
\begin{aligned}[]\int _a^b f(x,t) \thinspace {\rm {d}} t,\end{aligned}
[/latex]

welches von einer oder mehreren Variablen [latex]x[/latex] abhängt, wird als Parameterintegral bezeichnet.

Satz 10.36: Differentiation unter dem Integral

Sei [latex]U \subseteq \mathbb {R}^n[/latex] eine offene Teilmenge, [latex]a

[latex]
\begin{aligned}[]F(x) = \int _a^b f(x,t) \thinspace {\rm {d}} t\end{aligned}
[/latex]

für [latex]x \in U[/latex] eine stetige Funktion [latex]F:U \to \mathbb {R}[/latex]. Falls zusätzlich die partiellen Ableitungen [latex]\partial _kf[/latex] für [latex]k=1,\ldots ,n[/latex] existieren und auf ganz [latex]U\times [a,b][/latex] stetig sind, dann ist [latex]F[/latex] stetig differenzierbar und es gilt

[latex]
\begin{aligned}[]\partial _k F (x) = \int _a^b \partial _k f(x,t) \thinspace {\rm {d}} t\end{aligned}
[/latex]

für alle [latex]x \in U[/latex] und [latex]k \in \left \lbrace {1,\ldots ,n} \right \rbrace[/latex].

Beweis

Man beachte zuerst, dass auf Grund der Stetigkeit von [latex]f[/latex] die Abbildung [latex]t \in [a,b] \mapsto f(x,t)[/latex] für jedes [latex]x \in U[/latex] stetig und somit Riemann-integrierbar ist (Satz 4.42).

Sei nun [latex]x_0 \in U[/latex] und [latex]\eta > 0[/latex], so dass [latex]K = \overline {B_\eta (x_0)} \subseteq U[/latex]. Nach dem Satz von Heine-Borel (Satz 9.70) ist [latex]K\times [a,b][/latex] kompakt und [latex]f|_{K\times [a,b]}[/latex] ist gleichmässig stetig nach Proposition 9.77. Sei also [latex]\varepsilon > 0[/latex]. Dann existiert ein [latex]\delta \in (0,\eta )[/latex], so dass für alle [latex]x \in B_\delta (x_0)[/latex] und [latex]t\in [a,b][/latex] die Abschätzung

[latex]
\begin{aligned}[]|f(x,t)-f(x_0,t)| [/latex]

gilt. Dies impliziert

[latex]
\begin{aligned}[]|F(x)-F(x_0)| \leq \int _a^b |f(x,t) - f(x_0,t)|\thinspace {\rm {d}} t [/latex]

für alle [latex]x \in B_{\delta }(x_0)[/latex] und beweist Stetigkeit von [latex]F[/latex] bei [latex]x_0[/latex].

Sei nun [latex]k \in \left \lbrace {1,\ldots ,n} \right \rbrace[/latex] und angenommen [latex]f[/latex] besitzt die stetige partielle Ableitung [latex]\partial _k f[/latex]. Seien [latex]x_0 \in U[/latex] und [latex]K = \overline {B_\eta (x_0)} \subseteq U[/latex] wie oben. Für [latex]s \in (-\eta ,\eta ) \setminus \left \lbrace {0} \right \rbrace[/latex] und [latex]t \in [a,b][/latex] existiert nach dem Mittelwertsatz (Satz 10.14) ein [latex]\xi _{t,s} \in (0,1)[/latex] mit

[latex]
\begin{aligned}[]\frac {f(x_0+se_k,t)-f(x_0,t)}{s} = \partial _k f(x_0 + \xi _{t,s} s e_k, t).\end{aligned}
[/latex]

Wir wählen für ein [latex]\varepsilon > 0[/latex] mittels der gleichmässigen Stetigkeit von [latex]\partial _kf[/latex] auf [latex]K \times [a,b][/latex] ein [latex]\delta \in (0,\eta )[/latex], so dass [latex]x \in B_\delta (x_0)[/latex] die Abschätzung

[latex]
\begin{aligned}[]|\partial _k f(x,t)-\partial _k f(x_0,t)| [/latex]

impliziert. Gemeinsam ergibt sich nun für [latex]s \in (-\delta ,\delta ) \setminus \left \lbrace {0} \right \rbrace[/latex]

[latex]
\begin{aligned}[]\left | \frac {F(x_0+se_k)-F(x_0)}{s} - \int _a^b \partial _k f(x_0,t) \thinspace {\rm {d}} t \right | &= \left | \int _a^b \left ( \frac {f(x_0+se_k,t)-f(x_0,t)}{s} -\partial _k f(x_0,t)\right ) \thinspace {\rm {d}} t \right |\\ &= \left | \int _a^b \left ( \partial _k f(x_0 + \xi _{t,s} s e_k, t) -\partial _k f(x_0,t)\right ) \thinspace {\rm {d}} t \right |\\ &\leq \varepsilon (b-a).\end{aligned}
[/latex]

Da [latex]\varepsilon > 0[/latex] beliebig war, folgt

[latex]
\begin{aligned}[]\partial _k F(x_0) = \lim _{s \to 0}\frac {F(x_0+se_k)-F(x_0)}{s} = \int _a^b \partial _k f(x_0,t) \thinspace {\rm {d}} t.\end{aligned}
[/latex]

Nach dem ersten Teil des Satzes ist [latex]\partial _k F[/latex] stetig und da [latex]k \in \left \lbrace {1,\ldots ,n} \right \rbrace[/latex] beliebig war, folgt stetige Differenzierbarkeit von [latex]F[/latex] aus Satz 10.10. ∎

Beispiel 10.37: Umfang der Ellipse

Satz 10.36 erlaubt uns insbesondere, Funktionen zu analysieren, die nur mittels Integralen gegeben sind. Ein Beispiel einer solchen Funktion wollen wir hier finden, indem wir den Umfang der Ellipse berechnen. Seien [latex]a,b > 0[/latex] und (ohne Beschränkung der Allgemeinheit) [latex]a \geq b[/latex]. Die Ellipse mit Parametern [latex]a,b[/latex] ist dann gegeben durch die Lösungsmenge der Gleichung

[latex]
\begin{aligned}[]\frac {x^2}{a^2} + \frac {y^2}{b^2} = 1.\end{aligned}
[/latex]

Eine mögliche Parametrisierung der Ellipse ist somit [latex]\gamma :t \in [0,2\pi ] \mapsto (a\cos (t),b\sin (t))[/latex]. Der Umfang der Ellipse ist also (siehe Abschnitt 8.3.2)

[latex]
\begin{aligned}[]L(\gamma ) &= \int _0^{2\pi } \sqrt {\dot {\gamma }_1(t)^2+\dot {\gamma }_2(t)^2} \thinspace {\rm {d}} t = \int _0^{2\pi } \sqrt {a^2\sin ^2(t)+b^2 \cos ^2(t)} \thinspace {\rm {d}} t \\ &= a \int _0^{2\pi } \sqrt {\sin ^2(t)+(\tfrac {b}{a})^2 \cos ^2(t)} \thinspace {\rm {d}} t = a \int _0^{2\pi } \sqrt {1 - \varepsilon ^2 \cos ^2(t)} \thinspace {\rm {d}} t \\ &= 4a \int _0^{\pi /2} \sqrt {1 - \varepsilon ^2 \sin ^2(t)} \thinspace {\rm {d}} t,\end{aligned}
[/latex]

wobei [latex]\varepsilon = \sqrt {1-\frac {b^2}{a^2}}[/latex] die Exzentrizität der Ellipse bezeichnet, welche gewissermassen die Abweichung der Ellipse von einem Kreis misst. Das Parameterintegral

[latex]
\begin{aligned}[]\varepsilon \in [0,1] \mapsto \int _0^{\pi /2} \sqrt {1 - \varepsilon ^2 \sin ^2(t)} \thinspace {\rm {d}} t\end{aligned}
[/latex]

nennt sich das vollständige elliptische Integral zweiter Art.

Korollar 10.38

Sei [latex]U \subseteq \mathbb {R}^n[/latex], seien [latex]a

[latex]
\begin{aligned}[]F: x \in U \mapsto \int _{\alpha (x)}^{\beta (x)} f(x,t) \thinspace {\rm {d}} t\end{aligned}
[/latex]

stetig differenzierbar und für [latex]k \in \left \lbrace {1,\ldots ,n} \right \rbrace[/latex] gilt

[latex]
\begin{aligned}[]\partial _k F(x) = f(x,\beta (x))\, \partial _k \beta (x) - f(x,\alpha (x))\, \partial _k\alpha (x) + \int _{\alpha (x)}^{\beta (x)} \partial _k f(x,t) \thinspace {\rm {d}} t\end{aligned}
[/latex]

für alle [latex]x \in U[/latex].

Beweis

Wir kombinieren Satz 10.36, den Fundamentalsatz der Integral- und Differentialrechnung (Theorem 8.2) und die mehrdimensionale Kettenregel in Satz 10.13. Dazu definieren wir die Hilfsfunktion

[latex]
\begin{aligned}[]\phi : U \times (a,b)^2 \to \mathbb {R},\quad (x,\alpha ,\beta ) \mapsto \int _\alpha ^\beta f(x,t) \thinspace {\rm {d}} t.\end{aligned}
[/latex]

Wir zeigen zuerst, dass [latex]\phi[/latex] stetig ist. Sei also [latex](x_n,\alpha _n,\beta _n)\in U \times (a,b)^2[/latex] eine Folge, die gegen [latex](x,\alpha ,\beta )\in U \times (a,b)^2[/latex] konvergiert. Wir wählen ein [latex]\varepsilon >0[/latex] so dass [latex]\overline {B_\varepsilon (x)}\subseteq U[/latex] und definieren

[latex]
\begin{aligned}[]c&=\inf \left \lbrace {\alpha _n,\beta _n} \mid {n\in \mathbb {N}}\right \rbrace \\ d&=\sup \left \lbrace {\alpha _n,\beta _n} \mid {n\in \mathbb {N}}\right \rbrace .\end{aligned}
[/latex]

Da sowohl [latex]\alpha =\lim _{n\to \infty }\alpha _n\in (a,b)[/latex] und [latex]\beta =\lim _{n\to \infty }\beta _n\in (a,b)[/latex] folgt [latex]c,d\in (a,b)[/latex]. (Wieso?) Damit ist [latex]K=\overline {B_\varepsilon (x)}\times [c,d]\subseteq U\times (a,b)^2[/latex] eine kompakte Teilmenge und

[latex]
\begin{aligned}[]M=\max _{(x',\alpha ',\beta ')\in K}|f(x',\alpha ',\beta ')|\end{aligned}
[/latex]

existiert. Für alle hinreichend grossen [latex]n[/latex] gilt dann aber [latex]x_n\in B_\varepsilon (x)[/latex] und es folgt

[latex]
\begin{aligned}[]&\Bigl |\phi (x_n,\alpha _n,\beta _n)- \phi (x,\alpha ,\beta )\Bigr |\\ &\quad \quad \leq \Bigl |\int _{\alpha _n}^{\beta _n} f(x_n,t) \thinspace {\rm {d}} t- \int _{\alpha }^{\beta } f(x_n,t) \thinspace {\rm {d}} t\Bigr | +\Bigl |\int _{\alpha }^{\beta } f(x_n,t) \thinspace {\rm {d}} t- \int _{\alpha }^{\beta } f(x,t) \thinspace {\rm {d}} t\Bigr |\\ &\quad \quad \leq M|\alpha _n-\alpha |+M|\beta _n-\beta | +\Bigl |\int _{\alpha }^{\beta } f(x_n,t) \thinspace {\rm {d}} t- \int _{\alpha }^{\beta } f(x,t) \thinspace {\rm {d}} t\Bigr |,\end{aligned}
[/latex]

wobei wir die Dreiecksungleichung für das Integral (Satz 4.24(iii)) über die Teilintervalle zwischen [latex]\alpha _n[/latex] und [latex]\alpha[/latex] (beziehungsweise [latex]\beta _n[/latex] und [latex]\beta[/latex]) und die Schranke [latex]M[/latex] für die Funktionswerte von [latex]f[/latex] verwendet haben. Für [latex]n\to \infty[/latex] folgt nun aus Satz 10.36, dass dieser Ausdruck gegen [latex]0[/latex] strebt. Da die Folge [latex](x_n,\alpha _n,\beta _n)\in U \times (a,b)^2[/latex] eine beliebige Folge mit beliebigem Grenzwert [latex](x,\alpha ,\beta )\in U \times (a,b)^2[/latex] war, erhalten wir, dass [latex]\phi[/latex] stetig ist (Proposition 9.37).

Des Weiteren gilt nach Satz 10.36, dass die partiellen Ableitungen [latex]\partial _k \phi[/latex] für [latex]k \in \left \lbrace {1,\ldots ,n} \right \rbrace[/latex] existieren und durch

[latex]
\begin{aligned}[]\partial _k \phi (x,\alpha ,\beta ) = \int _\alpha ^\beta \partial _k f(x,t) \thinspace {\rm {d}} t\end{aligned}
[/latex]

für alle [latex](x,\alpha ,\beta ) \in U \times (a,b)^2[/latex] gegeben sind. Nach obigem Argument ist [latex]\partial _k \phi[/latex] ebenso stetig. Nach Theorem 8.2 existieren auch die partiellen Ableitungen von [latex]\phi[/latex] nach [latex]\alpha[/latex] und [latex]\beta[/latex] und sind gegeben durch

[latex]
\begin{aligned}[]\partial _\alpha \phi (x,\alpha ,\beta ) &= -f(x,\alpha )\\ \partial _\beta \phi (x,\alpha ,\beta ) &= f(x,\beta )\end{aligned}
[/latex]

für [latex](x,\alpha ,\beta ) \in U \times (a,b)^2[/latex]. Insbesondere sind [latex]\partial _\alpha \phi ,\partial _\beta \phi[/latex] wiederum stetig nach Annahme. Nach Satz 10.10 ist [latex]\phi[/latex] also (stetig) differenzierbar.

Wir bemerken nun, dass die Funktion [latex]F[/latex] im Korollar

[latex]
\begin{aligned}[]F: x \in U \mapsto \phi \begin{pmatrix}x \\ \alpha (x) \\ \beta (x)\end{pmatrix}\end{aligned}
[/latex]

erfüllt und ist somit gegeben als Verknüpfung der Funktion

[latex]
\begin{aligned}[]\psi :x\in U \mapsto \begin{pmatrix}x \\ \alpha (x) \\ \beta (x)\end{pmatrix}\end{aligned}
[/latex]

mit der stetig differenzierbaren Funktion [latex]\phi[/latex]. Nach Annahme im Korollar ist auch [latex]\psi[/latex] stetig differenzierbar und hat die totale Ableitung

[latex]
\begin{aligned}[]\begin{pmatrix}I_n \\ D_x \alpha \\ D_x \beta \end{pmatrix}\end{aligned}
[/latex]

bei [latex]x \in U[/latex]. Wir können also die Kettenregel anwenden und erhalten, dass [latex]F[/latex] stetig differenzierbar ist und bei [latex]x \in U[/latex] und [latex]y = (x,\alpha (x),\beta (x))^t[/latex] gilt

[latex]
\begin{aligned}[]\thinspace {\rm {D}}_x F = \thinspace {\rm {D}}_y \phi \circ \begin{pmatrix}I_n \\ D_x \alpha \\ D_x \beta \end{pmatrix}\end{aligned}
[/latex]

beziehungsweise

[latex]
\begin{aligned}[]\partial _k F &= (\thinspace {\rm {D}}_x F) e_k = \thinspace {\rm {D}}_y \phi \begin{pmatrix}e_k\\ (\thinspace {\rm {D}}_x \alpha ) e_k\\ (\thinspace {\rm {D}}_x \beta ) e_k\end{pmatrix} = \thinspace {\rm {D}}_y \phi \begin{pmatrix}e_k\\ \partial _k \alpha (x)\\ \partial _k\beta (x)\end{pmatrix}\\ &= \partial _k\phi (y) - f(x,\alpha (x))\, \partial _k \alpha (x) + f(x,\beta (x))\, \partial _k \beta (x)\end{aligned}
[/latex]

für [latex]k \in \left \lbrace {1,\ldots ,n} \right \rbrace[/latex] wie gewünscht. ∎

10.5.1 – Die Bessel-Differentialgleichung*

Als Anwendung der obigen, allgemeinen Theorie zu Parameterintegralen möchten wir diese hier verwenden, um eine Differentialgleichung zu lösen. Für einen Parameter [latex]n\geq 0[/latex] heisst die Differentialgleichung
[latex]
\begin{aligned}[]\label{eq:mehrdiff-besseldiffglg} x^2 J_n''(x) +x J_n'(x) + (x^2-n^2)J_n(x) =0\end{aligned}
[/latex]
auf [latex](0,\infty )[/latex] die Bessel-Differentialgleichung. Diese ist linear, homogen von zweiter Ordnung und tritt in mehreren Anwendungen innerhalb und ausserhalb der Mathematik auf.

Aus dem Existenz- und Eindeutigkeitssatz von Picard-Lindelöf (welchen wir gegen Ende des Semesters beweisen werden) folgt, dass (10.13) gemeinsam mit zwei beliebigen Anfangswerten [latex]J_n(x_0) = a[/latex] und [latex]J_n'(x_0) = b[/latex] für [latex]x_0>0[/latex] und [latex]a,b\in \mathbb {R}[/latex] eine eindeutig bestimmte Lösung auf [latex](0,\infty )[/latex] besitzt. Wir wollen hier ein Fundamentalsystem der Lösungen beschreiben oder in anderen Worten zwei linear unabhängige Lösungen angeben, mit denen sich alle weiteren Lösungen als Linearkombinationen ausdrücken lassen. Hierfür nehmen wir [latex]n \in \mathbb {N}_0[/latex] an. Obwohl die Bedeutung dieser Annahmen in (10.13) unklar ist, werden die von uns betrachteten Lösungen diese Annahme benützen.

Das Parameterintegral
[latex]
\begin{aligned}[]\label{eq:mehrdiff-besselfct1} J_n(x) = \frac {1}{\pi }\int _0^{\pi } \cos (x\sin (t)-nt)\thinspace {\rm {d}} t\end{aligned}
[/latex]
wird Bessel-Funktion erster Gattung genannt und löst die Differentialgleichung (10.13), was wir mit Hilfe von Differentiation unter dem Integral (Satz 10.36) nachrechnen können. In der Tat gilt für beliebige [latex]t\in [0,\pi ][/latex]

[latex]
\begin{aligned}[]\partial _x(\cos (x\sin (t)-nt)) = -\sin (x\sin (t)-nt) \sin (t)\end{aligned}
[/latex]

und daher

[latex]
\begin{aligned}[]J_n'(x) = \frac {1}{\pi }\int _0^{\pi } \big (-\sin (x\sin (t)-nt) \sin (t)\big ) \thinspace {\rm {d}} t\end{aligned}
[/latex]

und analog

[latex]
\begin{aligned}[]J_n''(x) = \frac {1}{\pi }\int _0^{\pi } \big (-\cos (x\sin (t)-nt) \sin ^2(t)\big ) \thinspace {\rm {d}} t.\end{aligned}
[/latex]

Für den Ausdruck [latex]x^2J_n''(x) + (x^2-n^2) J_n(x)[/latex] erhalten wir daraus

[latex]
\begin{aligned}[]\frac {1}{\pi }\int _0^{\pi } \big ( -x^2 \cos (x\sin (t)&-nt) \sin ^2(t) + (x^2-n^2) \cos (x\sin (t)-nt) \big ) \thinspace {\rm {d}} t\\ &= \frac {1}{\pi }\int _0^{\pi } \cos (x\sin (t)-nt)\big (x^2 \cos ^2(t)-n^2\big )\thinspace {\rm {d}} t\\ &= \frac {1}{\pi }\int _0^{\pi } \cos (x\sin (t)-nt)\underset {\partial _t(x\sin (t)-nt)}{\underbrace {\big ( x\cos (t)-n\big )}}\big ( x\cos (t)+n\big )\thinspace {\rm {d}} t\\ &= \frac {1}{\pi } \sin (x\sin (t)-nt) (x\cos (t)+n) \bigg ]_0^{\pi }\\ &\qquad \qquad \qquad + \frac {1}{\pi }\int _0^{\pi } \sin (x\sin (t)-nt)x\sin (t)\thinspace {\rm {d}} t\\ &= -xJ_n'(x)\end{aligned}
[/latex]

auf Grund von partieller Integration und der Annahme [latex]n \in \mathbb {N}_0[/latex]. Daher erfüllt (10.14) die Differentialgleichung (10.13).

Die Bessel-Funktion zweiter Gattung ist durch das uneigentliche Integral

[latex]
\begin{aligned}[]Y_n(x) = \frac {1}{\pi }\int _0^{\pi } \sin (x\sin (t)-nt)x\sin (t)\thinspace {\rm {d}} t - \frac {1}{\pi } \int _0^\infty \big (e^t +(-1)^n e^{-nt} \big ) \mathrm {e}^{-x\sinh (t)} \thinspace {\rm {d}} t\end{aligned}
[/latex]

für [latex]x \in (0,\infty )[/latex] definiert. Wir möchten kurz annehmen, dass [latex]Y_n[/latex] die Differentialgleichung (10.13) ebenfalls löst. Dann kann man die gesuchte Lösung eines Anfangswertproblems zu (10.13) in Anwendungen oft bereits mit nur einem Anfangswert [latex]f(x_0) = a[/latex] bestimmen. Denn falls bekannt ist, dass [latex]f[/latex] auf dem Intervall [latex](0,x_0][/latex] beschränkt ist, so muss [latex]f[/latex] ein Vielfaches der Bessel-Funktion [latex]J_n[/latex] der ersten Gattung sein. In der Tat gilt

[latex]
\begin{aligned}[]\lim _{x \searrow 0} J_n(x) = \frac {1}{\pi } \int _0^\pi \cos (nt) \thinspace {\rm {d}} t\end{aligned}
[/latex]

nach Satz 10.36 und
[latex]
\begin{aligned}[]\label{eq:besselzweiasymp} \lim _{x \searrow 0} Y_n(x) = -\infty .\end{aligned}
[/latex]
Dies schliesst unter den Annahme, dass die gesuchte Lösung auf [latex](0,x_0][/latex] beschränkt ist, die Funkion [latex]Y_n[/latex] oder auch Linearkombinationen [latex]\alpha J_n +\beta Y_n[/latex] mit [latex]\beta \neq 0[/latex] aus. Interessanterweise müssen wir aber [latex]Y_n[/latex] wie oben kennen, nur um dann zu sagen, dass die gesuchte Lösung doch ein Vielfaches von [latex]J_n[/latex] sein muss.

Übung 10.39: Bessel-Funktionen zweiter Gattung

Sei [latex]n \in \mathbb {N}_0[/latex].

Zeigen Sie, dass die Bessel-Funktion [latex]Y_n[/latex] zweiter Gattung wohl-definiert ist und beweisen Sie die Asymptotik in (10.15).
Nehmen Sie eine geeignete Verallgemeinerung der Differentiation unter dem Integral für das uneigentliche Integrale an und beweisen Sie damit, dass [latex]Y_n[/latex] eine Lösung der Bessel-Differentialgleichung (10.13) darstellt.
Für den Beweis der geeigneten Verallgemeinerung der Differentiation unter dem Integral betrachte man die Funktionen
[latex]
\begin{aligned}[](x,t) \in (0,\infty ) \times [1,\infty ) \mapsto f(x,t) = \big (e^t +(-1)^n e^{-nt} \big ) \mathrm {e}^{-x\sinh (t)}\end{aligned}
[/latex]

und

[latex]
\begin{aligned}[]F:(x,u) \in (0,\infty ) \times [0,1] \mapsto \left \lbrace \begin{array}{cc} 0 & \text {falls } u=0 \\ \frac {f(x,\tfrac {1}{u})}{u^2} & \text {falls } u > 0\end{array} \right . .\end{aligned}
[/latex]

Zeigen Sie, dass

[latex]
\begin{aligned}[]\int _1^\infty f(x,t) \thinspace {\rm {d}} t = \int _0^1 F(x,u) \thinspace {\rm {d}} u\end{aligned}
[/latex]

gilt und dass [latex]F[/latex] alle Voraussetzungen von Satz 10.36 erfüllt.

10.6 – Wegintegrale

10.6.1 – Skalare Wegintegrale

Sei [latex]U \subseteq \mathbb {R}^n[/latex] eine offene Teilmenge und [latex]\gamma :[a,b] \to U[/latex] ein stetig differenzierbarer Weg. Wie wir bereits in Abschnitt 8.3.2 gesehen haben, kann man die Länge von [latex]\gamma[/latex] durch

[latex]
\begin{aligned}[]L(\gamma ) = \int _a^b \| {\gamma '(t)}\| \thinspace {\rm {d}} t\end{aligned}
[/latex]

definieren und berechnen. In Lemma 8.32 haben wir auch gesehen, dass man den Weg oft so reparametrisieren kann, dass [latex]\| {\gamma '(s)}\| = 1[/latex] für alle [latex]s\in [a,b][/latex] gilt, womit [latex]s[/latex] bereits die Bedeutung der Bogenlänge entlang des Weges annimmt (was ist die Länge des Weges bis zu Zeitpunkt [latex]t[/latex], falls [latex]\| {\gamma '(s)}\| = 1[/latex] für alle [latex]s[/latex] gilt?).

Der obige Begriff der Länge eines Weges lässt sich auf eine etwas grössere Klasse erweitern.

Definition 10.40: Stückweise differenzierbare Wege und deren Längen

Ein (wie immer stetiger) Weg [latex]\gamma :[a,b] \to \mathbb {R}^n[/latex] heisst stückweise (stetig) differenzierbar, falls eine Zerlegung [latex]\mathfrak {Z} = \left \lbrace {a=s_0

[latex]
\begin{aligned}[]L(\gamma )=\sum _{k=1}^KL(\gamma _k) =\sum _{k=1}^K \int _{s_{k-1}}^{s_k} \left \| {(\gamma |_{[s_{k-1},s_k]})'(s)}\right \| \thinspace {\rm {d}} s.\end{aligned}
[/latex]

Eine Zerlegung [latex]\mathfrak {Z}[/latex] wie oben werden wir eine für die stückweise differenzierbare Funktion erlaubte Zerlegung nennen.

Übung 10.41: Wohldefiniertheit der Länge stückweise differenzierbarer Wege

Obiger Begriff der Länge eines stückweise differenzierbaren Weges verwendet strenggenommen die gewählte Zerlegung und sollte formal korrekt durch [latex]L(\gamma ,\mathfrak {Z})[/latex] bezeichnet werden. Zeigen Sie, dass der Begriff der Länge eines stückweise differenzierbaren Weges nicht von der Wahl einer erlaubten Zerlegung abhängt, also [latex]L(\gamma ,\mathfrak {Z})=L(\gamma ,\mathfrak {Z}')[/latex] gilt, falls [latex]\mathfrak {Z}'[/latex] eine weitere erlaubte Zerlegung von [latex][a,b][/latex] ist.

Es gibt auch Situationen, wo das skalare Wegintegral einer stetigen reellwertigen Funktion [latex]f: U \to \mathbb {R}[/latex] entlang eines stetigen differenzierbaren Weges [latex]\gamma :[a,b] \to U[/latex]

[latex]
\begin{aligned}[]\int _a^b f(\gamma (s)) \| {\gamma '(s)}\| \thinspace {\rm {d}} s\end{aligned}
[/latex]

von Bedeutung ist. Wie zuvor die Weglänge lässt sich dieser Begriff auf stückweise differenzierbare Wege erweitern.

Zum Beispiel könnte für [latex]f:U \to (0,\infty )[/latex] der Wert [latex]f(x)[/latex] das Inverse der erlaubten Höchstgeschwindigkeit im Punkt [latex]x \in U[/latex] angeben. In der Tat falls [latex]\mathfrak {Z} = \left \lbrace {a=s_0

[latex]
\begin{aligned}[]D_f(\gamma ) = \int _a^b f(\gamma (s)) \| {\gamma '(s)}\| \thinspace {\rm {d}} s\end{aligned}
[/latex]

als die Gesamtdauer der Reise entlang des Weges [latex]\gamma[/latex], wenn man immer mit erlaubter Höchstgeschwindigkeit (von [latex]f[/latex] angegeben) reist. Damit kann man nun die minimale Reisedauer (streng genommen als Infimum definierte, nicht unterschreitbare Reisedauer) als eine natürliche Metrik auf [latex]U[/latex] einführen, die von der gewählten inversen Höchstgeschwindigkeit (Dichte des Verkehrs) [latex]f[/latex] abhängt. Falls [latex]f[/latex] die Dichte eines Mediums beschreibt, so hat dies wiederum eine mögliche physikalische Interpretation wie in Beispiel 7.54.

Übung 10.42: Metrik über gewichtete Längen von Wegen

Sei [latex]U \subseteq \mathbb {R}^n[/latex] eine offene, zusammenhängende Teilmenge und sei [latex]f: U \to (0,\infty )[/latex] stetig. Definieren Sie in Analogie zu Übung 10.18 die Distanz [latex]\mathrm {d}(x,y)[/latex] zweier Punkte [latex]x,y\in U[/latex] durch

[latex]
\begin{aligned}[]\inf \left \lbrace \int _a^b f(\gamma (t)) \| {\gamma '(t)}\| \thinspace {\rm {d}} t \ \Big |\ \gamma :[a,b] \to U \text { stückweise differenzierbar mit } \gamma (a) = x,\ \gamma (b) = y\right \rbrace .\end{aligned}
[/latex]

Zeigen Sie, dass [latex]\mathrm {d}[/latex] in der Tat eine Metrik auf [latex]U[/latex] definiert und dass diese die Standardtopologie auf [latex]U[/latex] induziert.

10.6.2 – Wegintegrale von Vektorfeldern

Für viele weitere Anwendungen ist hingegen ein anderer Begriff des Wegintegrals von Bedeutung.

Definition 10.43: Wegintegral eines Vektorfelds

Sei [latex]U \subseteq \mathbb {R}^n[/latex] eine offene Teilmenge und sei [latex]f:U \to \mathbb {R}^n[/latex] ein stetiges Vektorfeld. Wir definieren das Wegintegral des Vektorfelds [latex]f[/latex] entlang eines stetig differenzierbaren Weges [latex]\gamma :[a,b] \to U[/latex] durch

[latex]
\begin{aligned}[]\int _\gamma f \cdot \thinspace {\rm {d}} {s}= \int _a^b \left \langle {f(\gamma (s))}, {\gamma '(s)} \right \rangle \thinspace {\rm {d}} s\end{aligned}
[/latex]

Ist [latex]\gamma :[a,b] \to U[/latex] stückweise differenzierbar und [latex]\mathfrak {Z} = \left \lbrace {a=s_0

[latex]
\begin{aligned}[]\int _\gamma f \cdot \thinspace {\rm {d}} {s} = \sum _{k=1}^K \int _{\gamma |_{[s_{k-1},s_k]}} f \cdot \thinspace {\rm {d}} {s}.\end{aligned}
[/latex]

Eine von vielen physikalischen Interpretationen ist die Berechnung der Arbeit entlang eines Weges [latex]\gamma[/latex]. Angenommen [latex]f(x)[/latex] gibt die Richtung und die Stärke einer Krafteinwirkung auf einen Körper an der Stelle [latex]x \in U[/latex] an. Dann ist [latex]\left \langle {f(\gamma (s_k))}, {\gamma (s_k)-\gamma (s_{k-1})} \right \rangle[/latex] näherungsweise die verrichtete Arbeit auf einem Teilintervall [latex][s_{k-1},s_k][/latex] einer Zerlegung [latex]\mathfrak {Z} = \left \lbrace {a = s_0 8.3 führen dann zur Interpretation von [latex]\int _\gamma f \cdot \thinspace {\rm {d}} {s}[/latex] als die geleistete Arbeit für die Reise entlang des Weges [latex]\gamma[/latex] von [latex]\gamma (a)[/latex] nach [latex]\gamma (b)[/latex]. Diese Gesamtarbeit hängt im Allgemeinen vom gewählten Weg und nicht nur vom Anfangsort [latex]\gamma (a)[/latex] und vom Zielort [latex]\gamma (b)[/latex] ab (siehe Beispiel 10.45 unten). Die geleistete Arbeit hängt aber nicht von der gewählten Parametrisierung des Weges ab (vergleiche Lemma 8.32).

Lemma 10.44: Reparametrisierungen und Richtungsumkehr eines Weges

Sei [latex]U \subseteq \mathbb {R}^n[/latex] eine offene Teilmenge, [latex]f: U \to \mathbb {R}^n[/latex] ein stetiges Vektorfeld und sei [latex]\gamma : [a,b] \to \mathbb {R}^d[/latex] ein stetig differenzierbarer Weg für [latex]a

Weiter gilt für den umgekehrten Weg [latex]\tilde {\gamma }:t \in [-b,-a] \mapsto \gamma (-t)[/latex] mit [latex]\tilde {\gamma }(-b) = \gamma (b)[/latex] und [latex]\tilde {\gamma }(-a) = \gamma (a)[/latex]

[latex]
\begin{aligned}[]\int _{\tilde {\gamma }} f \cdot \thinspace {\rm {d}} {s} = - \int _{\gamma } f \cdot \thinspace {\rm {d}} {s}.\end{aligned}
[/latex]

Beweis

Sei [latex][\tilde {a},\tilde {b}][/latex] ein kompaktes Intervall mit Endpunkten [latex]\tilde {a}

[latex]
\begin{aligned}[]\int _{\gamma \circ \psi } f \cdot \thinspace {\rm {d}} {s} &= \int _{\tilde {a}}^{\tilde {b}} \left \langle {f(\gamma (\psi (t)))}, {(\gamma \circ \psi )'(t)} \right \rangle \thinspace {\rm {d}} t = \int _{\tilde {a}}^{\tilde {b}} \left \langle {f(\gamma (\psi (t)))}, {\gamma '(\psi (t))} \right \rangle \psi '(t)\thinspace {\rm {d}} t\\ &= \int _{\tilde {a}}^{\tilde {b}} \left \langle {f(\gamma (s))}, {\gamma '(s)} \right \rangle \thinspace {\rm {d}} s = \int _\gamma f \cdot \thinspace {\rm {d}} {s}.\end{aligned}
[/latex]

Die zweite Aussage folgt mit selbiger Rechnung und der Funktion [latex]\psi :[-b,-a] \to [a,b], t \mapsto -t[/latex] mit [latex]\psi '(t) = -1[/latex] für alle [latex]t \in [-b,-a][/latex]. Überprüfen Sie dies. ∎

Beispiel 10.45: Wirbelsturm mit Auge

Wir betrachten das Vektorfeld [latex]f: \mathbb {R}^2 \to \mathbb {R}^2[/latex] definiert durch

[latex]
\begin{aligned}[]f(x,y) = \scriptsize \begin{pmatrix}-y \\ x\end{pmatrix}\end{aligned}
[/latex]

für [latex](x,y)^t \in \mathbb {R}^2[/latex] und betrachten im Folgenden mehrere Wege [latex]\gamma[/latex] von [latex](0,0)^t[/latex] nach [latex](1,1)^t[/latex] und berechnen das Wegintegral [latex]\int _\gamma f \cdot \thinspace {\rm {d}} {s}[/latex].

Sei [latex]\gamma _0:t \in [0,1] \mapsto (t,t)^t[/latex] der gerade Weg von [latex](0,0)^t[/latex] nach [latex](1,1)^t[/latex]. Dann gilt
[latex]
\begin{aligned}[]\int _{\gamma _0} f \cdot \thinspace {\rm {d}} {s} = \int _0^1 \left \langle {f(\gamma _0(t))}, {\gamma _0'(t)} \right \rangle \thinspace {\rm {d}} t = \int _0^1 \left \langle {\scriptsize \begin{pmatrix}-t \\ t\end{pmatrix} }, {\begin{pmatrix}1 \\ 1\end{pmatrix}} \right \rangle \thinspace {\rm {d}} t = 0.\end{aligned}
[/latex]
Sei [latex]\gamma _1:[0,2] \to \mathbb {R}^2[/latex] der Weg definiert durch
[latex]
\begin{aligned}[]\gamma _1(t) = \left \lbrace \begin{array}{cc} (t,0)^t & \text {falls } t \in [0,1] \\ (1,t-1)^t& \text {falls } t \in [1,2]\end{array} \right .\end{aligned}
[/latex]

für [latex]t \in [0,2][/latex], was einen stückweise differenzierbaren Weg von [latex](0,0)^t[/latex] nach [latex](1,1)^t[/latex] definiert. Es gilt

[latex]
\begin{aligned}[]\int _{\gamma _1} f \cdot \thinspace {\rm {d}} {s} = \int _0^1 \left \langle {\scriptsize \begin{pmatrix}0\\ t\end{pmatrix}}, {\scriptsize \begin{pmatrix}1\\ 0\end{pmatrix} } \right \rangle \thinspace {\rm {d}} t + \int _1^2 \left \langle {\scriptsize \begin{pmatrix}1-t\\ 1\end{pmatrix}}, {\scriptsize \begin{pmatrix}0\\ 1\end{pmatrix} } \right \rangle \thinspace {\rm {d}} t = 1\end{aligned}
[/latex]
Sei [latex]\gamma _{-1}:[0,2] \to \mathbb {R}^2[/latex] der Weg definiert durch
[latex]
\begin{aligned}[]\gamma _{-1}(t) = \left \lbrace \begin{array}{cc} (0,t)^t & \text {falls } t \in [0,1] \\ (t-1,1)^t& \text {falls } t \in [1,2]\end{array} \right .\end{aligned}
[/latex]

für [latex]t \in [0,2][/latex], was wiederum einen stückweise differenzierbaren Weg von [latex](0,0)^t[/latex] nach [latex](1,1)^t[/latex] definiert. Damit erhalten wir

[latex]
\begin{aligned}[]\int _{\gamma _{-1}} f \cdot \thinspace {\rm {d}} {s} = \int _0^1 \left \langle {\scriptsize \begin{pmatrix}-t\\ 0\end{pmatrix}}, {\scriptsize \begin{pmatrix}0\\ 1\end{pmatrix} } \right \rangle \thinspace {\rm {d}} t + \int _1^2 \left \langle {\scriptsize \begin{pmatrix}-1\\ t-1\end{pmatrix}}, {\scriptsize \begin{pmatrix}1\\ 0\end{pmatrix} } \right \rangle \thinspace {\rm {d}} t = -1\end{aligned}
[/latex]

Wir sehen also, dass für den «Wirbelsturm» die geleistete Arbeit [latex]\int _\gamma f \cdot \thinspace {\rm {d}} {s}[/latex] vom gewählten Weg [latex]\gamma[/latex] abhängt. Bewegt man sich «senkrecht» zum Vektorfeld, so wird gar keine Arbeit geleistet (siehe [latex]\gamma _0[/latex]); bewegt man sich mit dem Vektorfeld, so wird positive Arbeit geleistet (siehe [latex]\gamma _1[/latex]), und bewegt man sich «entgegen dem Vektorfeld» , so wird negative Arbeit geleistet (siehe [latex]\gamma _{-1}[/latex]).

10.7 – Konservative Vektorfelder

Definition 10.46

Sei [latex]U \subseteq \mathbb {R}^n[/latex] ein Gebiet und [latex]f: U \to \mathbb {R}^n[/latex] ein stetiges Vektorfeld. Dann heisst [latex]f[/latex] konservativ, falls Wegintegrale des Vektorfelds [latex]f[/latex] nur von Anfangs- und Endpunkt abhängen. Genauer formuliert, falls für alle stückweise stetig differenzierbaren Wege [latex]\gamma :[a,b] \to U[/latex] und [latex]\eta :[a',b'] \to U[/latex] mit [latex]\gamma (a) = \eta (a')[/latex] und [latex]\gamma (b) = \eta (b')[/latex] gilt

[latex]
\begin{aligned}[]\int _\gamma f \cdot \thinspace {\rm {d}} {s} = \int _\eta f \cdot \thinspace {\rm {d}} {s}.\end{aligned}
[/latex]

Wichtige Übung 10.47: Verbindbarkeit

Zeigen Sie, dass je zwei Punkte in einem Gebiet durch einen stückweise stetig differenzierbaren Weg miteinander verbunden werden können (siehe auch Übung 10.18).

Eine Schlaufe in einer offenen Teilmenge [latex]U \subseteq \mathbb {R}^n[/latex] ist ein Weg mit gleichem Anfangs- und Endpunkt (das heisst, ein Weg [latex]\gamma :[a,b] \to U[/latex] mit [latex]\gamma (a) = \gamma (b)[/latex]). Ob ein Vektorfeld konservativ ist oder nicht, lässt sich auch mit Schlaufen charakterisieren.

Übung 10.48: Schlaufencharakterisierung

Zeigen Sie, dass ein stetiges Vektorfeld [latex]f: U \to \mathbb {R}^n[/latex] auf einem Gebiet [latex]U \subseteq \mathbb {R}^n[/latex] genau dann konservativ ist, wenn für jede stückweise stetig differenzierbare Schlaufe [latex]\gamma[/latex] in [latex]U[/latex] gilt [latex]\int _\gamma f \cdot \thinspace {\rm {d}} {s} = 0[/latex].

Satz 10.49: Stammfunktion

Sei [latex]U \subseteq \mathbb {R}^n[/latex] ein Gebiet und [latex]f: U \to \mathbb {R}^n[/latex] ein stetiges Vektorfeld. Dann ist [latex]f[/latex] genau dann konservativ, wenn es eine stetig differenzierbare Funktion [latex]F: U \to \mathbb {R}[/latex] mit [latex]f(x) = \nabla F (x)[/latex] für alle [latex]x \in U[/latex] gibt.

Des Weiteren gelten für ein stetig differenzierbares konservatives Vektorfeld [latex]f[/latex] und deren Komponenten [latex]f_1,\ldots ,f_n[/latex] die (partiellen) Differentialgleichungen

[latex]
\begin{aligned}[]\partial _j f_k = \partial _k f_j\end{aligned}
[/latex]

für alle [latex]j,k \in \left \lbrace {1,\ldots ,n} \right \rbrace[/latex].

Die differenzierbare Funktion [latex]F[/latex] in obigem Satz übernimmt die Rolle der Stammfunktion im Fundamentalsatz der Integral- und Differentialrechnung und wird auch das zum Vektorfeld [latex]f[/latex] assoziierte Potential (Potentialfunktion) genannt. Diese Funktion existiert aber nicht für alle, sondern nur für gewisse (eben konservative) Vektorfelder.

Übung 10.50: Wirbelsturm hat kein Potential

Zeigen Sie direkt und nochmals unter Verwendung von Satz 10.49), dass das Vektorfeld aus Beispiel 10.45 kein Potential besitzt.

Beweis

Angenommen es gibt eine differenzierbare Funktion [latex]F: U \to \mathbb {R}[/latex] mit [latex]f(x) = \nabla F (x)[/latex] für alle [latex]x \in U[/latex]. Sei [latex]\gamma :[a,b] \to U[/latex] ein stetig differenzierbarer Weg. Dann ist für [latex]t \in [a,b][/latex] also [latex]f(\gamma (t)) = \nabla F(\gamma (t)) = (\thinspace {\rm {D}}_{\gamma (t)}F)^t[/latex] und somit nach der Kettenregel

[latex]
\begin{aligned}[]\int _\gamma f \cdot \thinspace {\rm {d}} {s} &= \int _a^b \left \langle {f(\gamma (t))}, {\gamma '(t)} \right \rangle \thinspace {\rm {d}} t = \int _a^b \thinspace {\rm {D}}_{\gamma (t)}F \gamma '(t) \thinspace {\rm {d}} t = \int _a^b (F\circ \gamma )'(t) \thinspace {\rm {d}} t \\ &= F(\gamma (b)) - F(\gamma (a)).\end{aligned}
[/latex]

Falls [latex]\gamma[/latex] bloss stückweise stetig differenzierbar ist und und [latex]\mathfrak {Z} = \left \lbrace {a=s_0

[latex]
\begin{aligned}[]\int _\gamma f \cdot \thinspace {\rm {d}} {s} = \sum _{k=1}^K \int _{\gamma |_{[s_{k-1},s_k]}} f \cdot \thinspace {\rm {d}} {s} = \sum _{k=1}^K F(\gamma (s_k)) - F(\gamma (s_{k-1})) = F(\gamma (b))-F(\gamma (a)).\end{aligned}
[/latex]

Daher ist [latex]f[/latex] konservativ.

Sei nun [latex]f[/latex] konservativ und [latex]x_0 \in U[/latex] ein fester Punkt. Da [latex]U[/latex] zusammenhängend ist, gibt es nach Übung 10.47 zu jedem [latex]x \in U[/latex] einen stückweise stetig differenzierbaren Weg [latex]\gamma _x[/latex] in [latex]U[/latex] mit Anfangspunkt [latex]x_0[/latex] und Endpunkt [latex]x[/latex]. Wir betrachten die Funktion

[latex]
\begin{aligned}[]F: x\in U \mapsto \int _{\gamma _x} f \cdot \thinspace {\rm {d}} {s},\end{aligned}
[/latex]

welche nicht vom gewählten Weg [latex]\gamma _x[/latex] abhängt, da [latex]f[/latex] konservativ ist.

Sei nun [latex]x \in U[/latex], [latex]k \in \left \lbrace {1,\ldots ,n} \right \rbrace[/latex] und [latex]h \in \mathbb {R} \setminus \left \lbrace {0} \right \rbrace[/latex] klein genug, so dass [latex]x+the_k \in U[/latex] für alle [latex]t \in [0,1][/latex]. Wir können dann mit Hilfe eines Weges [latex]\gamma _x:[a,b]\to U[/latex] von [latex]x_0[/latex] nach [latex]x[/latex] einen Weg [latex]\gamma _{x+he_k}[/latex] von [latex]x_0[/latex] nach [latex]x+he_k[/latex] durch

[latex]
\begin{aligned}[]t \in [a,b+1] \mapsto \gamma _{x+he_k}(t) = \left \lbrace \begin{array}{cc} \gamma _x(t) & \text {falls } t \in [a,b] \\ x+(t-b)he_k & \text {falls } t \in [b,b+1]\end{array} \right .\end{aligned}
[/latex]

definieren. Für die partielle Ableitung [latex]\partial _k F[/latex] von [latex]F[/latex] ergibt sich dadurch

[latex]
\begin{aligned}[]\partial _k F(x) &= \lim _{h \to 0} \frac {F(x+he_k)-F(x)}{h} = \lim _{h \to 0} \tfrac {1}{h} \left (\int _{\gamma _{x+he_k}}f \cdot \thinspace {\rm {d}} {s} - \int _{\gamma _{x}} f \cdot \thinspace {\rm {d}} {s} \right )\\ &= \lim _{h \to 0} \tfrac {1}{h} \int _{b}^{b+1} \left \langle {f(x+(t-b)he_k)}, {he_k} \right \rangle \thinspace {\rm {d}} t = \lim _{h \to 0} \int _{0}^1 f_k(x+she_k) \thinspace {\rm {d}} s = f_k(x)\end{aligned}
[/latex]

auf Grund von Satz 10.36 und der Stetigkeit von [latex]f_k[/latex]. Da dies für alle [latex]x \in U[/latex] und [latex]k \in \left \lbrace {1,\ldots ,n} \right \rbrace[/latex] gilt und [latex]f_1,\ldots ,f_n[/latex] per Annahme stetig sind, folgt aus Satz 10.10, dass die totale Ableitung von [latex]F[/latex] überall existiert und [latex]\nabla F(x) = f(x)[/latex] für alle [latex]x \in U[/latex] gilt.

Sei nun [latex]f[/latex] konservativ und stetig differenzierbar. Dann existiert nach obigem eine Funktion [latex]F[/latex] mit [latex]\nabla F = f[/latex]. Für [latex]j,k \in \left \lbrace {1,\ldots ,n} \right \rbrace[/latex] gilt dann

[latex]
\begin{aligned}[]\partial _j f_k = \partial _j \partial _k F = \partial _k \partial _j F = \partial _k f_j\end{aligned}
[/latex]

nach dem Satz von Schwarz (Satz 10.20). ∎

10.7.1 – Integrabilitätsbedingungen

Wie wir in Satz 10.49 gezeigt haben, stellen die partiellen Differentialgleichungen
[latex]
\begin{aligned}[]\label{eq:mehrdiff-intbed} \partial _k f_j = \partial _j f_k\end{aligned}
[/latex]
für [latex]j,k \in \left \lbrace {1,\ldots ,n} \right \rbrace[/latex] zu einem stetig differenzierbaren Vektorfeld [latex]f[/latex] auf einem Gebiet eine notwendige Bedingung für die Existenz eines Potentials zu [latex]f[/latex] dar. Wir nennen diese die Integrabilitätsbedingungen und wollen hier diskutieren, inwiefern sie auch hinreichend sind.

Wir haben bereits einige Male zuvor gesehen, dass Eigenschaften von Funktionen auf verschiedenen Definitionsgebieten unterschiedlich zusammenhängen, und Konservativität und die Integrabilitätsbedingungen bilden ein weiteres Beispiel dafür: Für gewisse Gebiete reicht es tatsächlich, die Integrabilitätsbedingungen zu überprüfen, um entscheiden zu können, ob ein Potential existiert oder nicht; allerdings nicht für alle Gebiete, wie folgendes Beispiel zeigt.

Beispiel 10.51: Wirbelsturm mit Singularität

Wir betrachten [latex]n=2[/latex], das Gebiet [latex]U = \mathbb {R}^2 \setminus \left \lbrace {0} \right \rbrace[/latex] und das Vektorfeld [latex]f: U \to \mathbb {R}^2[/latex] gegeben durch

[latex]
\begin{aligned}[]f(x,y) = \begin{pmatrix}\tfrac {-y}{x^2+y^2}\\ \tfrac {x}{x^2+y^2}\end{pmatrix}.\end{aligned}
[/latex]

für [latex](x,y)^t \in U[/latex]. In diesem Fall ist

[latex]
\begin{aligned}[]\partial _1 f_2(x,y) = \partial _x \left (\frac {x}{x^2+y^2}\right ) = \frac {-x^2+y^2}{(x^2+y^2)^2}\end{aligned}
[/latex]

und

[latex]
\begin{aligned}[]\partial _2 f_1(x,y) = \partial _y \left (\frac {-y}{x^2+y^2}\right ) = \frac {-(x^2+y^2)-(-y)2y}{(x^2+y^2)^2} = \frac {-x^2+y^2}{(x^2+y^2)^2},\end{aligned}
[/latex]

womit die Integrabilitätsbedingungen in (10.16) auf ganz [latex]U[/latex] erfüllt sind. Dennoch ist [latex]f[/latex] nicht konservativ. Sei [latex]\gamma :[0,2\pi ] \to U[/latex] die stetig differenzierbare Schlaufe (der geschlossene Weg) definiert durch

[latex]
\begin{aligned}[]\gamma (t) = \begin{pmatrix}\cos (t)\\ \sin (t)\end{pmatrix}\end{aligned}
[/latex]

für [latex]t \in [0,2\pi ][/latex], die einmal im Gegenuhrzeigersinn um den Einheitskreis läuft. Dann ist

[latex]
\begin{aligned}[]\int _\gamma f \cdot \thinspace {\rm {d}} {s} = \int _0^{2\pi } \left \langle {\Big ({\scriptsize \arraycolsep =0.3\arraycolsep \ensuremath {\begin{matrix}-\sin (t)\\ \cos (t)\end{matrix}}}\Big )}, {\Big ({\scriptsize \arraycolsep =0.3\arraycolsep \ensuremath {\begin{matrix}-\sin (t)\\ \cos (t)\end{matrix}}} \Big )} \right \rangle \thinspace {\rm {d}} t = 2\pi ,\end{aligned}
[/latex]

obwohl [latex]\gamma[/latex] ein geschlossener Weg ist mit [latex]\gamma (0) = \gamma (2\pi ) = (1,0)^t[/latex].

In der Tat misst das Wegintegral in obigen Beispiel die Änderung des Winkels beim Ursprung, doch lässt sich der Winkel als Potential nicht stetig auf ganz [latex]\mathbb {R}^2\setminus \{ 0\}[/latex] definieren (was mit der Nicht-Existenz eines Logarithmus auf der komplexen Ebene äquivalent ist). Wie wir jetzt aber zeigen werden, sind für gewisse Gebiete die Integrabilitätsbedingungen dennoch hinreichend.

Satz 10.52: Integrabilitätsbedingungen auf sternförmigen Gebieten

Sei [latex]U \subseteq \mathbb {R}^n[/latex] offen und sternförmig. Ein stetig differenzierbares Vektorfeld [latex]f: U \to \mathbb {R}^n[/latex] ist genau dann konservativ, wenn [latex]f[/latex] den Integrabilitätsbedingungen

[latex]
\begin{aligned}[]\partial _k f_j = \partial _j f_k\end{aligned}
[/latex]

für alle [latex]j,k \in \left \lbrace {1,\ldots ,n} \right \rbrace[/latex] genügt.

Beweis

Die Notwendigkeit der Integrabilitätsbedingungen wurde bereits in Satz 10.49 bewiesen. Für die Umkehrung verwenden wir ein Zentrum [latex]z \in U[/latex] und das Wegintegral von [latex]f[/latex] über die gerade Strecke von [latex]z[/latex] nach [latex]x \in U[/latex], um eine Funktion [latex]F:U \to \mathbb {R}[/latex] durch

[latex]
\begin{aligned}[]F(x) = \int _0^1 \left \langle {f(z+t(x-z))}, {(x-z)} \right \rangle \thinspace {\rm {d}} t\end{aligned}
[/latex]

für [latex]x \in U[/latex] zu definieren. Entsprechend dem Beweis von Satz 10.49 stellt [latex]F[/latex] gerade einen Kandidaten für ein Potential von [latex]f[/latex] dar.

Wir fixieren ein [latex]j \in \left \lbrace {1,\ldots ,n} \right \rbrace[/latex] und betrachten als Vorbereitung zur Berechnung von [latex]\partial _j F[/latex] zuerst für [latex]h \in \mathbb {R}^n[/latex]
[latex]
\begin{aligned}[]\label{eq:mehrdiff-intbedbew1} \partial _h f_j = \sum _{k=1}^n h_k \partial _kf_j = \sum _{k=1}^n h_k \partial _jf_k\end{aligned}
[/latex]
nach den vorausgesetzten Integrabilitätsbedingungen. Nach Satz 10.36 über Differenzierbarkeit von Parameterintegralen existiert für [latex]j\in \{ 1,\ldots ,n\}[/latex] die partielle Ableitung [latex]\partial _j F[/latex] der Funktion [latex]F[/latex], die gleichzeitig als Weg- und als Parameterintegral definiert ist. Des Weiteren gilt für [latex]x \in U[/latex]
[latex]
\begin{aligned}[]\partial _j F(x) &= \partial _{x_j} \int _0^1 \left ( \sum _{k=1}^n f_k\Big (z+t(x-z)\Big ) (x_k-z_k) \right ) \thinspace {\rm {d}} t\nonumber \\ &= \int _0^1 \left ( \sum _{k=1}^n (\partial _jf_k)\Big (z+t(x-z)\Big )t (x_k-z_k) +f_j\Big (z+t(x-z)\Big ) \right ) \thinspace {\rm {d}} t,\label{eq:integbedkompliziert}\end{aligned}
[/latex]
da einzig der Term mit [latex]k=j[/latex] die Produktregel erfordert und da die partielle Ableitung von [latex]x \in U \mapsto f_k\big (z+t(x-z)\big )[/latex] nach [latex]x_j[/latex] durch [latex]t(\partial _jf_k)\big (z+t(x-z)\big )[/latex] für [latex]x \in U[/latex] gegeben ist. Letzteres folgt aus der mehrdimensionalen Kettenregel oder wie folgt: wir definieren für [latex]t \geq 0[/latex] die Funktion [latex]x \mapsto \psi _t(x)=f_k\big (z+t(x-z)\big )[/latex] und betrachten die partielle Ableitung [latex]\partial _j\psi _t(x)[/latex]. Für [latex]t > 0[/latex] berechnet man direkt

[latex]
\begin{aligned}[]\partial _j\psi _t(x)&=\lim _{s\to 0}\frac 1s\big (f_k\big (z+t(x+se_j-z)\big )-f_k\big (z+t(x-z)\big )\big )\\ &= t\lim _{s\to 0}\frac 1{st}\big (f_k\big (z+t(x-z)+ste_j\big )-f_k\big (z+t(x-z)\big )\big )\\ &=t\partial _jf_k(z+t(x-z)).\end{aligned}
[/latex]

Für [latex]t=0[/latex] hängt [latex]\psi _0=f_k(z)[/latex] ja nicht von [latex]x[/latex] ab, womit die partielle Ableitung [latex]\partial _j\psi _0[/latex] verschwindet.

Wir setzen nun [latex]h = x-z[/latex], verwenden (10.17) in (10.18) und erhalten mit partieller Integration

[latex]
\begin{aligned}[]\partial _j F(x) &= \int _0^1 t\underset {= \frac {\thinspace {\rm {d}}}{\thinspace {\rm {d}} t} \left ( t \mapsto f_j (z+th)\right )}{\underbrace { \partial _h f_j (z+th)}} \thinspace {\rm {d}} t + \int _0^1 f_j(z+th) \thinspace {\rm {d}} t\\ &= \left [ t f_j(z+th)\right ]_0^1 - \int _0^1 f_j(z+th) \thinspace {\rm {d}} t + \int _0^1 f_j(z+th) \thinspace {\rm {d}} t\\ &=f_j(z+h) = f_j(x).\end{aligned}
[/latex]

Daher ist [latex]f = \nabla F[/latex], [latex]F[/latex] ist stetig differenzierbar nach Satz 10.10 und der Satz folgt aus der Charakterisierung der Konservativität in Satz 10.49. ∎

Übung 10.53

Für welchen Wert von [latex]\lambda \in \mathbb {R}[/latex] ist das Vektorfeld [latex]f\colon \mathbb {R}^2\to \mathbb {R}^2[/latex] definiert durch

[latex]
\begin{aligned}[]f(x,y)=\begin{pmatrix}\lambda x\mathrm {e}^y\\ (y+1+x^2)\mathrm {e}^y\end{pmatrix}\end{aligned}
[/latex]

für [latex](x,y)^t\in \mathbb {R}^2[/latex] konservativ? Bestimmen Sie für diesen Wert ein Potential von [latex]f[/latex].

Applet 10.54: Integrabilitätsbedingungen

Welche verschiedenen Werte für das Wegintegral (dargestellt unten rechts) können Sie erzielen wenn Sie geschlossene Wege betrachten? Warum ändert sich der Wert des Wegintegral meist nicht aber manchmal schon wenn Sie die mittleren drei Punkte bewegen?

Hinweis.

Das Vektorfeld wurde als Summe eines konservativen Vektorfeldes und des Wirbelsturms mit Singularität aus Beispiel 10.51 definiert.

10.8 – Weitere Lernmaterialien

10.8.1 – Verwendung des Kapitels

Dieses Kapitel stellt die Grundlagen für die restlichen Themen des Semesters zur Verfügung. In der Tat ist der Begriff der totalen Ableitung für alle weiteren Diskussionen wie zum Beispiel rund um Teilmannigfaltigkeiten im nächsten Kapitel oder auch der mehrdimensionalen Substitutionsregel von fundamentaler Bedeutung. Für die mehrdimensionalen Integralsätze werden wir allerdings noch weitere Ableitungsbegriffe kennenlernen, die allerdings ohne ein gutes Verständnis der Ableitung im Sinne von Definition 10.3 schwer verständlich sein werden. Der Begriff der partiellen Ableitung ist für die Theorie aber vor allem für alle praktischen Berechnungen unabdingbar und stellt einen direkten Zusammenhang zu allen Sätzen und Regeln der eindimensionalen Differentialrechnung her.

Des Weiteren sind Wegintegrale für die Anwendungen (zum Beispiel in der Physik) aber auch für den weiteren Aufbau der mehrdimensionalen Analysis notwendig. Dies haben wir bereits bei der Besprechung der konservativen Vektorfelder gesehen. Die Sätze rund um diesen Begriff zeigen ebenso, dass die mehrdimensionale Analysis deutlich komplexer als die eindimensionale Analysis ist: Im Fundamentalsatz der Differential- und Integralrechnung haben wir gesehen, dass in der eindimensionalen Analysis jede stetige Funktion auf einem Intervall als Ableitung einer Funktion (Stammfunktion) auftritt. Doch ein Vektorfeld auf einer offenen Teilmengen in [latex]\mathbb {R}^n[/latex] ist nicht immer eine Ableitung einer Potentialfunktion. Selbst die notwendigen Integrabilitätsbedingungen (welche sich aus dem Satz von Schwarz ergeben) stellen keine Charakterisierung der Konservativität dar, da die Gestalt des Definitionsbereiches einen weiteren Einfluss auf den Begriff hat. Wir werden diesen Problemen etwas allgemeiner im Zusammenhang der mehrdimensionalen Integralsätze nochmals begegnen.

Das Berechnen von höheren Ableitungen von reellwertigen Funktionen auf offenen Teilmengen von [latex]\mathbb {R}^n[/latex] ist zwar prinzipiell nicht schwierig, ist aber ab der dritten Ableitung kaum mehr praktisch. In der Tat hat bereits die dritte totale Ableitung [latex]\binom {n}3+n(n-1)+n[/latex] verschiedene Komponenten (da manche der [latex]n^3[/latex] iterierten partiellen Ableitungen nach dem Satz von Schwarz übereinstimmen). Für [latex]n=3[/latex] sind dies [latex]1+6+3=10[/latex] und für [latex]n=4[/latex] bereits [latex]4+12+4=18[/latex] Komponenten. Aus diesem Grund beschränkt man sich meist auf die erste und zweite Ableitung, welche durch den Gradienten und die Hesse-Matrix gegeben sind. Sollte die Berechnung einer höheren Taylor-Approximation gewünscht sein, so ist es einfacher diese mittels der Definition der gegebenen Funktion aus eindimensionalen Taylor-Approximationen zu berechnen. Die Hesse-Matrix und die Begriffe der positiv und negativ definiten Matrizen sind hingegen sehr nützlich, da wir diese zur Bestimmung von lokalen Extremwerten benötigen.

10.8.2 – Übungen

Übung: Konvexität für Funktionen und Teilmengen

Sei [latex]I[/latex] ein Intervall und [latex]f:I \to \mathbb {R}[/latex] eine Funktion. Zeigen Sie, dass [latex]f[/latex] genau dann konvex ist, wenn die Teilmenge

[latex]
\begin{aligned}[]\left \lbrace {(x,y) \in I \times \mathbb {R}} \mid {y \geq f(x)}\right \rbrace \subseteq \mathbb {R}^2\end{aligned}
[/latex]

der Punkte in der Ebene oberhalb des Graphen von [latex]f[/latex] konvex ist.

Übung

Sei [latex]f : \mathbb {R}^{2} \rightarrow \mathbb {R}[/latex] definiert durch

[latex]
\begin{aligned}[]f(x,y) = \begin{cases}0 & \mbox {falls } (x,y) = (0,0),\\ (x^{2} + y^{2})\sin (\tfrac {1}{x^{2}+y^{2}}) &\mbox {andernfalls.}\end{cases}\end{aligned}
[/latex]

Zeigen Sie, dass [latex]f[/latex] auf ganz [latex]\mathbb {R}^{2}[/latex] differenzierbar ist.
Zeigen Sie, dass die partiellen Ableitungen von [latex]f[/latex] nicht überall stetig sind.

Übung: Notwendigkeit der Annahmen im Satz von Schwarz

In dieser Übung möchten wir eine zweimal differenzierbare Funktion [latex]f: \mathbb {R}^2 \rightarrow \mathbb {R}[/latex] konstruieren, deren partielle Ableitungen [latex]\partial _1\partial _2 f[/latex], [latex]\partial _2\partial _1 f[/latex] beim Punkt [latex](0,0)[/latex] nicht stetig sind und dort verschiedene Werte haben. Dies zeigt, dass die Annahme der zweifachen stetigen Differenzierbarkeit im Satz von Schwarz (Satz 10.20) notwendig war.

Sei [latex]f: \mathbb {R}^2 \rightarrow \mathbb {R}[/latex] definiert für alle für [latex](x,y)^t \in \mathbb {R}^2[/latex] durch

[latex]
\begin{aligned}[]f(x,y) = \begin{cases}\ xy\frac {x^2-y^2}{x^2+y^2} &\mbox {falls } (x,y) \neq (0,0),\\ \ 0 &\mbox {falls } (x,y) = (0,0).\end{cases}\end{aligned}
[/latex]

Zeigen Sie, dass [latex]f[/latex] zweimal differenzierbar ist. Überzeugen Sie sich dazu zuerst davon, dass [latex]f[/latex] stetig ist.
Zeigen Sie, dass [latex]\partial _{xy}f[/latex] und [latex]\partial _{yx}f[/latex] auf [latex]\mathbb {R}^2\setminus \{ (0,0)\}[/latex] stetig sind.
Zeigen Sie, dass [latex]\partial _{xy}f(0,0) = -\partial _{yx}f(0,0) = 1[/latex] gilt.

Übung

Zeigen Sie, dass das vollständige elliptische Integral zweiter Art (siehe Beispiel 10.37)

[latex]
\begin{aligned}[]E: x\in [0,1] \mapsto \int _0^{\pi /2}\sqrt {1- x^2 \sin ^2(t) } \thinspace {\rm {d}} t\end{aligned}
[/latex]

der Differentialgleichung

[latex]
\begin{aligned}[](x^2-1)x E''(x) +(x^2-1) E'(x) -xE(x) = 0\end{aligned}
[/latex]

genügt.

Übung: Unabhängigkeit von Parametrisierung

Sei [latex]U \subseteq \mathbb {R}^n[/latex] eine offene, zusammenhängende Teilmenge und sei [latex]f: U \to \mathbb {R}[/latex] stetig. Sei [latex]\gamma :[a,b] \to U[/latex] ein stetig differenzierbarer Weg. Zeigen Sie, dass der Wert

[latex]
\begin{aligned}[]\int _a^b f(\gamma (s)) \| {\gamma '(s)}\| \thinspace {\rm {d}} s\end{aligned}
[/latex]

gleich bleibt unter Reparametrisierungen des Weges [latex]\gamma[/latex].

Übung: Differenzierbare Reparametrisierungen

Sei [latex]\gamma :[a,b] \to \mathbb {R}^n[/latex] ein stückweise differenzierbarer Weg. Zeigen Sie, dass eine Reparametrisierung von [latex]\gamma[/latex] existiert, die stetig differenzierbar ist.

Hinweis.

Um auf differenzierbare Weise um eine «Ecke» zu gehen, muss man vor der Ecke abbremsen und nach der Ecke wieder beschleunigen.

Übung: Eindeutigkeit des Potentials

Sei [latex]U \subseteq \mathbb {R}^n[/latex] ein Gebiet und [latex]f:U \to \mathbb {R}^n[/latex] ein konservatives Vektorfeld. Zeigen Sie, dass Potentiale von [latex]f[/latex] sich um Konstanten unterscheiden.

10.8.3 – Lernkarten

Sie können wiederum die Lernkarten für Ihre Wiederholung der Themen des Kapitels verwenden.

<!– post meta –>

10 Mehrdimensionale Differentialrechnung

10.1 – Die Ableitung

10.1.1 – Der Definitionsbereich

Definition 10.1

10.1.2 – Lineare Abbildungen

Übung 10.2

10.1.3 – Definitionen

Definition 10.3: Totale Ableitung

Applet 10.4: Tangentialebene

Definition 10.5: Ableitung entlang eines Vektors

Proposition 10.6: Matrixdarstellung des totalen Differentials

Wichtige Übung 10.7: Summen- und Produktregel

10.1.4 – Reduktion der Dimension

Lemma 10.8: Differenzierbarkeit via Komponenten

Übung 10.9

Satz 10.10: Existenz der totalen Ableitung

Definition 10.11

Beispiel 10.12

10.2 – Die Kettenregel und der Mittelwertsatz

10.2.1 – Verknüpfungen differenzierbarer Funktionen

Satz 10.13: Kettenregel der mehrdimensionalen Differentialrechnung

10.2.2 – Geometrische Interpretation der mehrdimensionalen Kettenregel

10.2.3 – Der Mittelwertsatz

Satz 10.14: Mittelwertsatz für reellwertige Funktionen auf [latex]\mathbb {R}^n[/latex]

Korollar 10.15

Definition 10.16: Lokale Lipschitz-Stetigkeit

Korollar 10.17

Übung 10.18: Eine Distanzfunktion auf [latex]U[/latex]

10.3 – Höhere Ableitungen und Taylor-Approximation

10.3.1 – Definition und Eigenschaften der höheren partiellen Ableitungen

Definition 10.19: Höhere stetige Differenzierbarkeit

Satz 10.20: Satz von Schwarz

Korollar 10.21: Satz von Schwarz

10.3.2 – Mehrdimensionale Taylor-Approximation

Satz 10.22: Taylor-Approximation mit Integralrestglied

Wichtige Übung 10.23: Satz von Taylor in Multiindexnotation

Applet 10.24: Taylor-Approximation für Berglandschaft

Korollar 10.25: Lineare und quadratische Approximation

Beispiel 10.26

Beispiel 10.27: Taylor via bekannter Reihendarstellung

10.4 – Extremwerte

Definition 10.28: Extrema

Proposition 10.29: Notwendige Bedingung für lokale Extrema

Definition 10.30: Kritische Punkte

Definition 10.31

Bemerkung: Zwei weitere Begriffe zu quadratischen Formen

Korollar 10.32

Satz 10.33: Charakterisierungen von Definitheit

Beispiel 10.34

Übung 10.35

10.4.1 – Beweis des Kriteriums für Definitheit*

10.5 – Parameterintegrale

Satz 10.36: Differentiation unter dem Integral

Beispiel 10.37: Umfang der Ellipse

Korollar 10.38

10.5.1 – Die Bessel-Differentialgleichung*

Übung 10.39: Bessel-Funktionen zweiter Gattung

10.6 – Wegintegrale

10.6.1 – Skalare Wegintegrale

Definition 10.40: Stückweise differenzierbare Wege und deren Längen

Übung 10.41: Wohldefiniertheit der Länge stückweise differenzierbarer Wege

Übung 10.42: Metrik über gewichtete Längen von Wegen

10.6.2 – Wegintegrale von Vektorfeldern

Definition 10.43: Wegintegral eines Vektorfelds

Lemma 10.44: Reparametrisierungen und Richtungsumkehr eines Weges

Beispiel 10.45: Wirbelsturm mit Auge

10.7 – Konservative Vektorfelder

Definition 10.46

Wichtige Übung 10.47: Verbindbarkeit

Übung 10.48: Schlaufencharakterisierung

Satz 10.49: Stammfunktion

Übung 10.50: Wirbelsturm hat kein Potential

10.7.1 – Integrabilitätsbedingungen

Beispiel 10.51: Wirbelsturm mit Singularität

Satz 10.52: Integrabilitätsbedingungen auf sternförmigen Gebieten

Übung 10.53

Applet 10.54: Integrabilitätsbedingungen

10.8 – Weitere Lernmaterialien

10.8.1 – Verwendung des Kapitels

10.8.2 – Übungen