Wir erweitern in diesem Kapitel den Begriff der Ableitung, um auch Funktionen auf (offenen Teilmengen von) [latex]\mathbb {R}^n[/latex] nach [latex]\mathbb {R}^m[/latex] zu erlauben. Diese sind für verschiedene [latex]n \in \mathbb {N}[/latex] und auch verschiedene Dimensionen [latex]m\in \mathbb {N}[/latex] des Zielraums von Nützen, weshalb wir in dieser Hinsicht keine Einschränkungen treffen wollen. Ist beispielsweise eine Funktion [latex]f: U \to \mathbb {R}^m[/latex] für [latex]U \subseteq \mathbb {R}^n[/latex] und [latex]n,m \geq 1[/latex] gegeben, so könnte man sich für Folgendes interessieren.
- Ist [latex]m = 1[/latex] und [latex]n[/latex] beliebig, so kann man sich zum Beispiel fragen, ob [latex]f[/latex] ein Minimum oder ein Maximum annimmt. Weiter möchte man für [latex]n =2[/latex] manchmal einen Graphen von [latex]f[/latex] zeichnen, der dann eine Fläche im [latex]\mathbb {R}^3[/latex] darstellt. Beispielsweise ist der Graph der Funktion [latex](x,y)^t \in B_1(0) \subseteq \mathbb {R}^2 \mapsto \sqrt {1-x^2-y^2} \in \mathbb {R}[/latex] gerade die obere Hemisphäre der Sphäre [latex]\mathbb {S}^2 = \left \lbrace {(x,y,z) \in \mathbb {R}^3} \mid {x^2+y^2+z^2 = 1}\right \rbrace[/latex].
- Ist [latex]n =1[/latex] und [latex]m[/latex] beliebig, so behandelt man Wege im [latex]\mathbb {R}^m[/latex], zu welchen verschiedene Begriffe von Interesse sind (Geschwindigkeit, Krümmung, Wegintegrale und so weiter).
- Sind [latex]m=n[/latex] beliebig, so lässt sich [latex]f[/latex] als Vektorfeld auffassen. Ein solches Vektorfeld lässt sich beispielsweise als Krafteinwirkung auffassen, womit man sich vielleicht für die Arbeit des Kraftfelds entlang eines Weges interessieren könnte.
- Ist immer noch [latex]m=n[/latex] beliebig, so ist [latex]f[/latex] möglicherweise ein Koordinatenwechsel. Wichtige konkrete Beispiele dafür wären Polarkoordinaten im [latex]\mathbb {R}^2[/latex], Zylinderkoordinaten im [latex]\mathbb {R}^3[/latex] oder sphärische Koordinaten im [latex]\mathbb {R}^3[/latex]. (Wir werden allgemeine derartige glatten Koordinatensysteme im nächsten Kapitel betrachten.)
- Sind [latex]m[/latex] und [latex]n[/latex] beliebig, so kann [latex]f[/latex] ein Gleichungssystem der Form [latex]f(x) = 0[/latex] definieren, zu denen man die Lösungsmenge untersuchen will. Beispielsweise stellen die Lösungen von [latex]f(x) = 0[/latex] für [latex]f: \mathbb {R}^3 \to \mathbb {R}^2, (x,y,z)^t \mapsto (x^2+y^2+z^2 - 1,(x-\frac {3}{2})^2 +y^2+z^2-1)[/latex] einen Kreis im [latex]\mathbb {R}^3[/latex] dar. (Lösungsmengen derartiger glatter Gleichungssysteme ergeben oft Beispiele für den Begriff der Teilmannigfaltigkeit, den wir ebenso im nächsten Kapitel besprechen werden.)
10.1 – Die Ableitung
Wir betrachten im Folgenden Funktionen [latex]f: U \to \mathbb {R}^m[/latex], wobei [latex]m,n\geq 1[/latex] und der Definitionsbereich [latex]U[/latex] eine Teilmenge von [latex]\mathbb {R}^n[/latex] ist. Wir möchten nun kurz die Eigenschaften des Definitionsbereiches [latex]U[/latex] ansprechen, die dieser haben soll oder kann.
10.1.1 – Der Definitionsbereich
Bis auf weiteres wird [latex]U \subseteq \mathbb {R}^n[/latex] eine offene Teilmenge sein, wobei wir, wenn nicht spezifisch anders angegeben, sowohl auf [latex]\mathbb {R}^n[/latex] als auch auf [latex]\mathbb {R}^m[/latex] die Euklidsche Norm [latex]\| {\cdot }\| = \| {\cdot }\| _2[/latex] verwenden werden (und verwendet haben). Offenheit von [latex]U[/latex] wird es uns erlauben, Punkte in [latex]U[/latex] von allen Richtungen annähern zu können. Auch wenn es nicht immer explizit erwähnt ist, wird [latex]U[/latex] im Folgenden stets nicht-leer sein.
Zusätzlich zur Annahme, dass [latex]U[/latex] offen ist, werden wir mitunter auch folgende Eigenschaften benötigen.
- [latex]U[/latex] ist zusammenhängend, falls sich [latex]U[/latex] nicht als disjunkte Vereinigung zweier offener, nicht-leerer Teilmengen von [latex]U[/latex] schreiben lässt (siehe Abschnitt 9.2.3).
- [latex]U[/latex] ist wegzusammenhängend, falls es zu je zwei Punkten [latex]x_0,x_1\in U[/latex] einen Weg in [latex]U[/latex] gibt, der [latex]x_0[/latex] und [latex]x_1[/latex] verbindet (siehe Definition 9.46).
- [latex]U[/latex] ist sternförmig, falls es ein Zentrum [latex]z \in U[/latex] gibt, so dass für alle [latex]x \in U[/latex] und [latex]t \in [0,1][/latex] auch [latex](1-t)z + tx \in U[/latex] ist.
- [latex]U[/latex] ist konvex, falls für alle [latex]x_0,x_1 \in U[/latex] und [latex]t \in [0,1][/latex] auch [latex](1-t)x_0 + tx_1 \in U[/latex] ist.
Wir haben bereits in Proposition 9.49 gesehen, dass Zusammenhang und Wegzusammenhang für offene Mengen in [latex]\mathbb {R}^n[/latex] äquivalent sind. Wir bemerken, dass sternförmige Teilmengen von [latex]\mathbb {R}^n[/latex] automatisch wegzusammenhängend sind, da sich je zwei Punkte [latex]x_0,x_1[/latex] durch Aneinanderhängen der Geradensegmente zwischen [latex]x_0[/latex] und einem Zentrum [latex]z[/latex] (wie oben) und zwischen [latex]z[/latex] und [latex]x_1[/latex] verbinden lassen. Weiter ist jede konvexe Teilmenge sternförmig (jeder Punkt in [latex]U[/latex] lässt sich als Zentrum wählen). Umgekehrt braucht eine wegzusammenhängende Menge (auch wenn sie offen ist) nicht sternförmig zu sein und eine sternförmige Menge nicht konvex zu sein (finden Sie hier elementare Beispiele).
In Analogie zu Intervallen sind wir unter anderem an wegzusammenhängenden offenen Mengen interessiert, da wir zeigen werden, dass differenzierbare Funktionen mit Ableitung Null auf einem derartigen Gebiet konstant sind.
Definition 10.1
Ein Gebiet in [latex]\mathbb {R}^n[/latex] ist eine nicht-leere, offene, zusammenhängende Teilmenge von [latex]\mathbb {R}^n[/latex].
10.1.2 – Lineare Abbildungen
Wir schreiben [latex]e_1,\ldots ,e_m[/latex] für die Standardbasis des [latex]\mathbb {R}[/latex]-Vektorraums [latex]\mathbb {R}^m[/latex], das heisst, für jedes [latex]j \in \left \lbrace {1,\ldots ,m} \right \rbrace[/latex] ist
der Vektor, der in der [latex]j[/latex]-ten Zeile eine Eins und sonst überall nur Nulleinträge besitzt. Wie Sie bereits aus der Linearen Algebra I wissen, sind lineare Abbildungen [latex]A: \mathbb {R}^n \to \mathbb {R}^m[/latex] durch die Eigenschaft
für alle [latex]a,b \in \mathbb {R}[/latex] und [latex]x,y\in \mathbb {R}^n[/latex] definiert. Des Weiteren können diese eindeutig durch eine Matrix in [latex]\operatorname {Mat}_{m,n}(\mathbb {R})[/latex] beschrieben werden, wobei die [latex]j[/latex]-te Spalte der Matrix gerade [latex]A(e_j)[/latex] ist.
Des Öfteren werden wir nicht so sehr auf die Unterscheidung zwischen der linearen Abbildung und ihrer Matrixdarstellung bestehen und die Abbildung [latex]A: \mathbb {R}^n \to \mathbb {R}^m[/latex] mit ihrer Darstellungsmatrix [latex]A \in \operatorname {Mat}_{m,n}(\mathbb {R})[/latex] bezüglich der Standardbasis identifizieren.
Der Spezialfall [latex]m = 1[/latex] ist noch erwähnenswert. In diesem Fall lässt sich eine lineare Abbildung [latex]A: \mathbb {R}^n \to \mathbb {R}[/latex] auch als ein inneres Produkt mit einem fest gewählten Vektor [latex]v \in \mathbb {R}^n[/latex] interpretieren, so dass [latex]A(x) = \left \langle {x}, {v} \right \rangle[/latex] für alle [latex]x \in \mathbb {R}^n[/latex] gilt. Dies erlaubt eine geometrische Interpretation der Abbildung.
Übung 10.2
Die Menge der linearen Abbildungen [latex]\mathbb {R}^n \to \mathbb {R}[/latex] nennt sich auch der Dualraum [latex](\mathbb {R}^n)^\ast[/latex] von [latex]\mathbb {R}^n[/latex]. Zeigen Sie, dass die Abbildung [latex]v \in \mathbb {R}^n \mapsto \left \langle {\cdot }, {v} \right \rangle \in (\mathbb {R}^n)^\ast[/latex] linear und bijektiv ist wie oben behauptet, wobei [latex]\left \langle {\cdot }, {v} \right \rangle[/latex] zu [latex]v\in \mathbb {R}^n[/latex] die lineare Abbildung [latex]x \in \mathbb {R}^n \mapsto \left \langle {x}, {v} \right \rangle \in \mathbb {R}[/latex] bezeichnet. Für welche [latex]x[/latex] in [latex]\mathbb {S}^{n-1}=\left \lbrace {x\in \mathbb {R}^n} \mid {\| {x}\| _2=1}\right \rbrace[/latex] ist [latex]\left \langle {x}, {v} \right \rangle[/latex] maximal (oder minimal)?
10.1.3 – Definitionen
Das Hauptziel bei der Definition der Ableitung für reellwertige Funktionen auf Teilmengen von [latex]\mathbb {R}[/latex] (Definition 7.1) war Funktionen (lokal) durch Geraden — auch affin lineare Funktionen von [latex]\mathbb {R}[/latex] nach [latex]\mathbb {R}[/latex] genannt — approximieren zu können. Genauso möchten wir nun für Funktionen [latex]U \to \mathbb {R}^m[/latex] mit [latex]U \subseteq \mathbb {R}^n[/latex] vorgehen. Dabei ist eine affin lineare Funktion [latex]F:\mathbb {R}^n \to \mathbb {R}^m[/latex] durch [latex]F(x) = y_0 + L(x)[/latex] für alle [latex]x \in \mathbb {R}^n[/latex] gegeben, wobei ein Punkt [latex]y_0 \in \mathbb {R}^m[/latex] und eine lineare Abbildung [latex]L:\mathbb {R}^n \to \mathbb {R}^m[/latex] fest gewählt sind.
Definition 10.3: Totale Ableitung
Sei [latex]U \subseteq \mathbb {R}^n[/latex] offen und [latex]f: U \to \mathbb {R}^m[/latex] eine Funktion. Dann heisst [latex]f[/latex] bei [latex]x_0 \in U[/latex] differenzierbar (oder ableitbar), falls es eine lineare Abbildung [latex]L: \mathbb {R}^n\to \mathbb {R}^m[/latex] gibt, so dass
und [latex]\alpha _f(x_0,h) = o(\| {h}\| )[/latex] für [latex]h \to 0[/latex] oder äquivalenterweise
gilt. Die lineare Abbildung [latex]L[/latex] wird die totale Ableitung, das Differential oder die Tangentialabbildung genannt und als [latex]\thinspace {\rm {D}}_{x_0} f[/latex], [latex]\thinspace {\rm {d}} f(x_0)[/latex], [latex]\thinspace {\rm {D}} f(x_0)[/latex] oder auch [latex]f'(x_0)[/latex] geschrieben. Weiter heisst [latex]f[/latex] differenzierbar, falls [latex]f[/latex] bei jedem Punkt in [latex]U[/latex] differenzierbar ist.
In diesem Zusammenhang wird, wie schon zuvor, [latex]h = \triangle x[/latex] das Inkrement des Arguments und [latex]\triangle f(x_0,h) = f(x_0+h)-f(x_0)[/latex] das Inkrement der Funktion genannt. Wir bemerken, dass auf Grund der Offenheit von [latex]U[/latex] für [latex]x_0\in U[/latex] und jedes hinreichend kleine [latex]h\in \mathbb {R}^d[/latex] ebenso [latex]x_0+h\in U[/latex] gilt und damit in der Tat [latex]f(x_0+h)[/latex] definiert ist. Es empfiehlt sich, die totale Ableitung als den linearen Teil der besten affinen Approximation [latex]x_0+h\mapsto f(x_0)+\thinspace {\rm {D}}_{x_0}f h[/latex] der Funktion zu sehen. Insbesondere wird dadurch die Analogie zur Differenzierbarkeit einer Funktion auf [latex]\mathbb {R}[/latex] in Definition 7.1 sichtbar (siehe insbesondere (7.2)). Wir bemerken noch, dass Differenzierbarkeit in [latex]x_0[/latex] Stetigkeit in [latex]x_0[/latex] impliziert (wieso?).
Applet 10.4: Tangentialebene
Wir stellen wie bereits in obigem Bild die Tangentialebenen für die Graphen von zwei Funktionen [latex]f:\mathbb {R}^2\to \mathbb {R}[/latex] dar. Des Weiteren werden die partiellen Ableitungen und Richtungsableitungen in Definition 10.5 visualisiert. Gibt es zu jedem Punkt eine Richtungsableitung die verschwindet?
Für [latex]v\in \mathbb {R}^m[/latex] hat die konstante Abbildung [latex]f(x)=v\in \mathbb {R}^m[/latex] für alle [latex]x\in \mathbb {R}^n[/latex] bei jedem Punkt die totale Ableitung [latex]0\in \operatorname {Mat}_{m,n}(\mathbb {R})[/latex]. Eine affine Abbildung [latex]f(x)=v+A(x)\in \mathbb {R}^m[/latex] für alle [latex]x\in \mathbb {R}^n[/latex] und eine vorgegebene Matrix [latex]A\in \operatorname {Mat}_{m,n}(\mathbb {R})[/latex] hat hingegen die Ableitung [latex]D_{x}f=A[/latex] für alle [latex]x\in \mathbb {R}^n[/latex] (wieso?).
Wie bereits betont, darf man bei der Bewegung [latex]h \to 0[/latex] im [latex]\mathbb {R}^n[/latex] keinerlei Einschränkungen vornehmen. Schränken wir die Bewegung dennoch auf Geraden ein (so dass das Inkrement des Arguments die Form [latex]h=sv[/latex] für [latex]s\in \mathbb {R}[/latex] und einen festen Vektor [latex]v \in \mathbb {R}^n[/latex] hat), so ergibt sich folgender neuer Begriff.
Definition 10.5: Ableitung entlang eines Vektors
Sei [latex]U \subseteq \mathbb {R}^n[/latex] eine offene Teilmenge und [latex]f: U \to \mathbb {R}^m[/latex] eine Funktion. Die Ableitung von [latex]f[/latex] entlang eines Vektors [latex]v \in \mathbb {R}^n[/latex] ist an einer Stelle [latex]x_0 \in U[/latex] durch
definiert, falls der Grenzwert existiert. Falls [latex]\| {v}\| =1[/latex] gilt, so spricht man auch von der Richtungsableitung in der Richtung [latex]v[/latex] bei [latex]x_0[/latex].
Im Spezialfall, wo [latex]v = e_j[/latex] für ein [latex]j \in \left \lbrace {1,\ldots ,n} \right \rbrace[/latex] ist, wird der obige Grenzwert
auch die partielle Ableitung in der [latex]j[/latex]-ten Koordinate (oder der Variable [latex]x_j[/latex]) bei [latex]x_0[/latex] genannt, falls er existiert. Wir schreiben mitunter auch [latex]\frac {\partial f}{\partial x_j}(x_0)[/latex] oder [latex]\partial _{x_j}f(x_0)[/latex]. Existiert die partielle Ableitung in der [latex]j[/latex]-ten Koordinate an jedem Punkt in [latex]U[/latex], so erhält man also eine Funktion [latex]\partial _jf: U \to \mathbb {R}^m[/latex].
Die partielle Ableitung (und die Richtungsableitung entlang eines beliebigen Vektors) ist also eine Ableitung nach einer der unabhängigen Variablen, wobei alle anderen Variablen quasi als Konstanten erachtet werden. Zum Beispiel existieren für die Funktion [latex]f: \mathbb {R}^3 \to \mathbb {R}[/latex] mit [latex]f(x,y,z) = x(y^2+\sin (z))[/latex] für [latex]x,y,z \in \mathbb {R}[/latex] die partiellen Ableitungen bezüglich allen Koordinatenrichtungen und sind gegeben durch
für alle [latex](x,y,z)^t \in \mathbb {R}^3[/latex], da wir einfach alle uns bekannten Regeln aus Abschnitt 7.1.2 anwenden können.
Existiert die totale Ableitung, so lässt sich diese mittels folgender Proposition mit partiellen Ableitungen und Ableitung entlang beliebigen Vektoren in Verbindung bringen.
Proposition 10.6: Matrixdarstellung des totalen Differentials
Sei [latex]U \subseteq \mathbb {R}^n[/latex] offen und sei [latex]f: U \to \mathbb {R}^m[/latex] bei [latex]x_0 \in U[/latex] differenzierbar. Dann existiert für jedes [latex]v \in \mathbb {R}^n[/latex] die Ableitung von [latex]f[/latex] entlang [latex]v[/latex] und es gilt
Insbesondere ist die totale Ableitung [latex]\thinspace {\rm {D}}_{x_0} f[/latex] eindeutig durch die partiellen Ableitungen bestimmt und es gilt
wobei letzteres auch die Jacobi-Matrix von [latex]f[/latex] bei [latex]x_0[/latex] genannt wird.
Beweis
Nach Annahme existiert die totale Ableitung [latex]\thinspace {\rm {D}}_{x_0} f[/latex] und es gilt
für [latex]h \to 0[/latex]. Wir setzen [latex]h = sv[/latex] für [latex]s \to 0[/latex] und [latex]v \in \mathbb {R}^n[/latex], womit gilt
Also existiert die Ableitungen von [latex]f[/latex] entlang dem (beliebigen) Vektor [latex]v[/latex] bei [latex]x_0[/latex]. Insbesonderen existieren alle partiellen Ableitung von [latex]f[/latex] bei [latex]x_0[/latex] und die partielle Ableitung in der [latex]j[/latex]-ten Richtung für [latex]j \in \left \lbrace {1,\ldots ,n} \right \rbrace[/latex] stellt die [latex]j[/latex]-te Spalte der Matrix [latex]\thinspace {\rm {D}}_{x_0} f[/latex] dar, wie behauptet. ∎
Interessant wäre auch die Umkehrung von Proposition 10.6; unter anderem da a priori nicht klar ist, wie man die Existenz einer totalen Ableitung in konkreten Situationen nachweisen kann. Wie wir sehen werden, existiert unter gewissen, nicht allzu starken Annahmen, eine solche Umkehrung.
Wie schon im Eindimensionalen gelten auch hier Summen- und Produktregel, wie folgende Übung zeigt.
Wichtige Übung 10.7: Summen- und Produktregel
Sei [latex]U \subseteq \mathbb {R}^n[/latex] offen und seien [latex]f_1,f_2: U \to \mathbb {R}^m[/latex] Funktionen. Angenommen [latex]f_1[/latex] und [latex]f_2[/latex] sind differenzierbar bei [latex]x_0 \in U[/latex].
- Zeigen Sie, dass [latex]f_1 + f_2[/latex] bei [latex]x_0[/latex] differenzierbar ist und
erfüllt.
- Sei jetzt [latex]m=1[/latex]. Zeigen Sie, dass [latex]f_1 \cdot f_2[/latex] bei [latex]x_0[/latex] differenzierbar ist und
erfüllt.
- Nun nehmen wir stattdessen an, dass bloss die Ableitungen [latex]\partial _v f_1[/latex], [latex]\partial _v f_2[/latex] entlang [latex]v \in \mathbb {R}^n[/latex] existieren. Formulieren und beweisen Sie für diese Ableitung analoge Aussagen wie in (i) und (ii).
Landau-Notation: Wir merken an dieser Stelle kurz an, dass keine formale Definition der oben verwendeten Landau-Symbole (siehe zum Beispiel Definition 10.3) gegeben wurde, da dies nur eine kleine Anpassung der Diskussionen in den Abschnitten 5.6 und 8.6.1 darstellt. Beispielsweise ist für eine Funktion [latex]f:U \to \mathbb {R}^m[/latex] auf einer offenen Menge [latex]U \subseteq \mathbb {R}^n[/latex] und [latex]x_0 \in U[/latex]
für [latex]x \to x_0[/latex], falls [latex]\frac {\| {f(x)}\| }{\| {x-x_0}\| }[/latex] für [latex]x \to x_0[/latex] gegen Null geht.
10.1.4 – Reduktion der Dimension
Es wäre von Vorteil, wenn wir die Differenzierbarkeit einer Funktion von [latex]\mathbb {R}^n[/latex] nach [latex]\mathbb {R}^m[/latex] auf die Differenzierbarkeit reellwertiger Funktionen von [latex]\mathbb {R}[/latex] nach [latex]\mathbb {R}[/latex] zurückführen könnten. Denn dann würden uns sämtliche Hilfsmittel aus den Kapiteln 7 und 8 zur Verfügung stehen. Hierbei ist die Reduktion der Dimension des Zielraumes auf [latex]m=1[/latex] eine Charakterisierung.
Lemma 10.8: Differenzierbarkeit via Komponenten
Sei [latex]U \subseteq \mathbb {R}^n[/latex] offen und [latex]f:U \to \mathbb {R}^m[/latex] eine Funktion. Dann ist [latex]f[/latex] genau dann bei [latex]x_0 \in U[/latex] differenzierbar, wenn die Komponenten [latex]f_k = \pi _k \circ f[/latex] für jedes [latex]k \in \left \lbrace {1,\ldots ,m} \right \rbrace[/latex] bei [latex]x_0[/latex] differenzierbar sind. In diesem Fall gilt
Beweis
Wir beweisen nur eine der beiden Implikationen und überlassen die zweite den Leserinnen und Lesern (Übung 10.9). Angenommen [latex]f_k[/latex] ist für jedes [latex]k \in \left \lbrace {1,\ldots ,m} \right \rbrace[/latex] bei [latex]x_0[/latex] differenzierbar. Dann gilt für [latex]k \in \left \lbrace {1,\ldots ,m} \right \rbrace[/latex]
für gewisse Funktionen [latex]\alpha _k[/latex] mit [latex]\alpha _k(x_0,h) = o(\| {h}\| )[/latex] für [latex]h \to 0[/latex]. Daraus folgt aber
wobei
für [latex]h \to 0[/latex] gilt. Also ist [latex]f[/latex] differenzierbar und es gilt die behauptete Formel für [latex]\thinspace {\rm {D}}_{x_0} f[/latex]. ∎
Die Reduktion der Existenz der totalen Ableitungen auf die Existenz der partiellen Ableitung ist etwas schwieriger und im Allgemeinen schlicht nicht möglich. Betrachten wir beispielsweise die Funktion [latex]f: \mathbb {R}^2 \to \mathbb {R}[/latex] gegeben durch
[latex]
\begin{aligned}[]\label{eq:komischefunktion} f(x,y) = \left \lbrace \begin{array}{cl} \frac {xy}{\sqrt {x^2+y^2}} & \text {falls } (x,y)^t \in \mathbb {R}^2 \setminus \left \lbrace {0} \right \rbrace \\ 0 & \text {falls } (x,y)^t = 0\end{array} \right .\end{aligned}
[/latex]
für [latex](x,y)^t \in \mathbb {R}^2[/latex], so existieren beide partiellen Ableitungen [latex]\partial _xf[/latex], [latex]\partial _yf[/latex] auf ganz [latex]\mathbb {R}^2[/latex], aber die totale Ableitung [latex]\thinspace {\rm {D}}_0 f[/latex] existiert trotzdem nicht. Denn für [latex]x = y[/latex] gilt [latex]f(x,y) = \frac {|x|}{\sqrt {2}}[/latex] (wieso impliziert dies, dass die Ableitung nicht existiert?).
Nimmt man jedoch etwas schönere Eigenschaften (als die blosse Existenz) der partiellen Ableitungen an, so erhält man folgende Aussage.
Satz 10.10: Existenz der totalen Ableitung
Sei [latex]U \subseteq \mathbb {R}^n[/latex] offen und [latex]f:U \to \mathbb {R}^m[/latex] eine Funktion. Falls für jedes [latex]j \in \left \lbrace {1,\ldots ,n} \right \rbrace[/latex] die partielle Ableitung [latex]\partial _j f[/latex] auf ganz [latex]U[/latex] existiert und eine stetige Funktion definiert, so ist [latex]f[/latex] auf ganz [latex]U[/latex] differenzierbar.
Es empfiehlt sich an dieser Stelle zu überprüfen, dass das Beispiel in (10.1) die Stetigkeitsvoraussetzung des Satzes nicht erfüllt.
Beweis
Auf Grund von Lemma 10.8 können wir [latex]m=1[/latex] annehmen. Für [latex]x \in U[/latex] und hinreichend kleine [latex]h = (h_1,\ldots ,h_n)^t \in \mathbb {R}^n[/latex] gilt dann
wobei für jedes [latex]j \in \left \lbrace {1,\ldots ,n} \right \rbrace[/latex] nach dem Mittelwertsatz (Theorem 7.29) ein Zwischenpunkt [latex]\xi _j(h)[/latex] zwischen [latex]0[/latex] und [latex]h_j[/latex] gewählt wurde. Wegen Stetigkeit der partiellen Ableitungen können wir nun in obigen Ausdrücken stattdessen die partiellen Ableitungen bei [latex]x[/latex] betrachten. Tatsächlich gilt für
nach den Annahmen des Satzes und wegen [latex]\frac {|h_k|}{\| {h}\| }\leq 1[/latex] für alle [latex]h\in \mathbb {R}^n[/latex] und [latex]k\in \{ 1,\ldots ,n\}[/latex] die Asymptotik
Daher ist schlussendlich
wobei [latex]L = (\partial _1 f(x),\ldots ,\partial _nf(x)) \in \operatorname {Mat}_{1,n}(\mathbb {R})[/latex]. Also ist [latex]f[/latex] bei [latex]x[/latex] differenzierbar und da [latex]x\in U[/latex] beliebig war, ist [latex]f[/latex] also differenzierbar. ∎
Definition 10.11
Wir nennen eine Funktion [latex]f:U \to \mathbb {R}^m[/latex] auf einer offenen Teilmenge [latex]U \subseteq \mathbb {R}^n[/latex] stetig differenzierbar, wenn [latex]f[/latex] differenzierbar ist und die Ableitung
stetig ist.
Nach Satz 10.10 und Proposition 10.6 ist [latex]f:U \to \mathbb {R}^m[/latex] genau dann stetig differenzierbar, wenn alle partiellen Ableitungen von [latex]f[/latex] existieren und stetig sind. Kombinieren wir die Aussagen dieses Abschnitts so können wir die Differenzierbarkeit vieler Abbildungen [latex]f[/latex] von [latex]U\subseteq \mathbb {R}^n[/latex] nach [latex]\mathbb {R}^m[/latex] beweisen. Die Ableitung [latex]D_xf[/latex] ist in diesem Fall immer eine lineare Abbildung von [latex]\mathbb {R}^n[/latex] nach [latex]\mathbb {R}^m[/latex], die wir, wie bereits erwähnt, mit der Jacobi-Matrix in [latex]\operatorname {Mat}_{mn}(\mathbb {R})[/latex] (bestehend aus allen partiellen Ableitungen) identifizieren.
Beispiel 10.12
Sei [latex]f:\mathbb {R}^2\to \mathbb {R}^2[/latex] definiert durch [latex]f:\begin{pmatrix}x\\ y\end{pmatrix}\mapsto \begin{pmatrix}x^2-\cos (xy)\\ y^4-\exp (x)\end{pmatrix}[/latex]. Die totale Ableitung oder Jacobi-Matrix von [latex]f[/latex] bei [latex]\begin{pmatrix}x\\ y\end{pmatrix}[/latex] ist dann gegeben durch
10.2 – Die Kettenregel und der Mittelwertsatz
10.2.1 – Verknüpfungen differenzierbarer Funktionen
Satz 10.13: Kettenregel der mehrdimensionalen Differentialrechnung
Seien [latex]k,m,n \geq 1[/latex], [latex]U \subseteq \mathbb {R}^n[/latex] offen, [latex]V \subseteq \mathbb {R}^m[/latex] offen. Weiter sei [latex]f: U \to V[/latex] bei [latex]x_0[/latex] differenzierbar und [latex]g:V \to \mathbb {R}^k[/latex] bei [latex]f(x_0)[/latex] differenzierbar. Dann ist [latex]g \circ f[/latex] bei [latex]x_0[/latex] differenzierbar und die totale Ableitung [latex]\thinspace {\rm {D}}_{x_0}(g \circ f)[/latex] bei [latex]x_0[/latex] ist durch die Verknüpfungen der linearen Abbildungen
[latex]
\begin{aligned}[]\label{eq:mehrdiff-chainrule} \thinspace {\rm {D}}_{x_0}(g \circ f) = \thinspace {\rm {D}}_{f(x_0)}g \circ \thinspace {\rm {D}}_{x_0}f\end{aligned}
[/latex]
gegeben.
Wir erinnern daran, dass [latex]\thinspace {\rm {D}}_{f(x_0)}g[/latex] mit einer [latex]k \times m[/latex]-Matrix und [latex]\thinspace {\rm {D}}_{x_0}f[/latex] mit einer [latex]m \times n[/latex]-Matrix identifiziert werden kann, womit die Verknüpfung (10.2) von den Dimensionen her Sinn macht.
Beweis
Wir verwenden die Definition der Differenzierbarkeit von [latex]f[/latex] bei [latex]x_0[/latex], womit gilt
und [latex]\alpha _f(x_0,h) = o(\| {h}\| )[/latex] für [latex]h \to 0[/latex]. Nach Differenzierbarkeit von [latex]g[/latex] bei [latex]y_0 = f(x_0)[/latex] gilt ebenso
mit [latex]\alpha _g(y_0,\tilde {h}) = o(\| {\tilde {h}}\| )[/latex] für [latex]\tilde {h} \to 0[/latex]. Gemeinsam erhalten wir für [latex]h \in \mathbb {R}^n[/latex] klein genug und
die Gleichung
wobei wir
gesetzt haben. Wir möchten nun zeigen, dass [latex]\alpha _{g \circ f}(x_0,h) = o(\| {h}\| )[/latex] für [latex]h \to 0[/latex]. Da [latex]\alpha _f(x_0,h) = o(\| {h}\| )[/latex] für [latex]h \to 0[/latex] gilt, ist auch [latex]\| {\thinspace {\rm {D}}_{y_0}g (\alpha _f(x_0,h))}\| \leq \| {\thinspace {\rm {D}}_{y_0}g}\| _{\mathrm {op}}\| {\alpha _f(x_0,h)}\| = o(\| {h}\| )[/latex] für [latex]h \to 0[/latex].
Es bleibt zu zeigen, dass [latex]\alpha _g(y_0,f(x_0+h)-f(x_0)) = o(\| {h}\| )[/latex] für [latex]h \to 0[/latex] ist. Nach Differenzierbarkeit von [latex]g[/latex] bei [latex]y_0[/latex] gibt es zu jedem [latex]\varepsilon > 0[/latex] ein [latex]\delta > 0[/latex], so dass für [latex]\tilde {h} \in \mathbb {R}^m[/latex] mit [latex]\| {\tilde {h}}\|
[latex]
\begin{aligned}[]\label{eq:alphaginketten} \| {\alpha _g(y_0,\tilde {h})}\| \leq \varepsilon \| {\tilde {h}}\|\end{aligned}
[/latex]
gilt. Nach vorrausgesetzer Differenzierbarkeit von [latex]f[/latex] bei [latex]x_0[/latex] gilt für [latex]\tilde {h}=f(x_0+h)-f(x)[/latex] die Abschätzung
für [latex]h\to 0[/latex]. Also gibt es eine offene Umgebung [latex]O[/latex] von [latex]0 \in \mathbb {R}^n[/latex] und eine Konstante [latex]C>0[/latex] (zum Beispiel [latex]C=\| {\thinspace {\rm {D}}_{x_0}f}\| _{\mathrm {op}}+1[/latex]) mit [latex]\| {\tilde {h}}\| \leq C \| {h}\|[/latex] für alle [latex]h \in O[/latex]. Für [latex]h\in O[/latex] mit [latex]\| {h}\| 10.3) auch
Da die Konstante [latex]C[/latex] von [latex]\varepsilon[/latex] unabhängig ist, folgt die Differenzierbarkeit von [latex]g \circ f[/latex] bei [latex]x_0[/latex] und die Kettenregel in Gleichung (10.2). ∎
Wir betrachten nun den Spezialfall [latex]n=1[/latex] für die Kettenregel. Sei also [latex]\gamma : I \to V \subseteq \mathbb {R}^m[/latex] ein differenzierbarer Weg von einem offenen Intervall [latex]I[/latex] in eine offene Teilmenge [latex]V \subseteq \mathbb {R}^m[/latex]. Sei weiter [latex]f: V \to \mathbb {R}^k[/latex] differenzierbar. Dann ergibt die Kettenregel (Satz 10.13), dass [latex]f \circ \gamma[/latex] differenzierbar ist und die Formel
für alle [latex]t \in I[/latex] gilt. Sollte noch zusätzlich [latex]k=1[/latex] sein, so ist [latex]f \circ \gamma : I \to \mathbb {R}[/latex] und [latex](\thinspace {\rm {D}}_{\gamma (t)}f) \gamma '(t)[/latex] ist für [latex]t \in I[/latex] das Matrixprodukt der [latex]1 \times m[/latex]-Matrix [latex]\thinspace {\rm {D}}_{\gamma (t)}f[/latex] mit der [latex]m \times 1[/latex]-Matrix [latex]\gamma '(t)[/latex] (ein Vektor in [latex]\mathbb {R}^m[/latex]). Wir interpretieren in diesem Fall [latex]\thinspace {\rm {D}}_{x}f[/latex] für [latex]x \in V[/latex] auch als den Spaltenvektor
und nennen dies den Gradienten der Funktion [latex]f[/latex] bei der Stelle [latex]x[/latex]. In dieser Schreibweise erhalten wir die Formel
[latex]
\begin{aligned}[]\label{eq:ableitungfmitgamma} (f \circ \gamma )'(t) = \thinspace {\rm {D}}_{\gamma (t)}f \cdot \gamma '(t) = \left \langle {\nabla f (\gamma (t))}, {\gamma '(t)} \right \rangle\end{aligned}
[/latex]
für alle [latex]t \in I[/latex].
Der Begriff der Richtungsableitung und der Fall der Gleichheit in der Cauchy-Schwarz-Ungleichung erlauben es uns auch, eine geometrische Interpretation des Gradienten einer Funktion anzugeben. Ist [latex]f: U \to \mathbb {R}[/latex] eine differenzierbare Funktion auf einer offenen Teilmenge [latex]U \subseteq \mathbb {R}^n[/latex] und ist [latex]v \in \mathbb {R}^n[/latex] ein Vektor der Länge [latex]1[/latex], so gilt nach Proposition 10.6 und vorherigem bei [latex]x \in U[/latex]
Angenommen [latex]\nabla f(x) \neq 0[/latex]. Nach der Ungleichung von Cauchy-Schwarz (Proposition 5.86) ist obiger Ausdruck genau dann maximal (das heisst, gleich [latex]\| {\nabla f(x)}\|[/latex]), wenn [latex]v[/latex] in dieselbe Richtung wie [latex]\nabla f(x)[/latex] zeigt (mit positivem skalarem Vielfachen — also [latex]v = \frac {1}{\| {\nabla f(x)}\| }\nabla f(x)[/latex]). In Worten ausgedrückt heisst dies, dass der Gradient von [latex]f[/latex] an jedem Punkt in die Richtung der grössten Richtungsableitung zeigt, das heisst, die Richtung des grössten Anstiegs um [latex]x[/latex] kennzeichnet. Des Weiteren gibt [latex]\| {\nabla f(x)}\|[/latex] die Steigung in dieser Richtung an.
10.2.2 – Geometrische Interpretation der mehrdimensionalen Kettenregel
Für [latex]x \in \mathbb {R}^n[/latex] definieren wir den Tangentenraum [latex]\mathrm {T}_x \mathbb {R}^n[/latex] von [latex]\mathbb {R}^n[/latex] bei [latex]x[/latex] durch
wobei wir Elemente von [latex]\mathrm {T}_x \mathbb {R}^n[/latex] als Vektoren mit Fusspunkt [latex]x[/latex] visualisieren. Via
für [latex](x,v),(x,w)\in \mathrm {T}_x \mathbb {R}^n[/latex] und [latex]\alpha \in \mathbb {R}[/latex] statten wir den Tangentenraum [latex]\mathrm {T}_x \mathbb {R}^n[/latex] bei [latex]x[/latex] mit einer natürlichen Vektorraumstruktur aus, bezüglich der Vektoren wie üblich addiert und skaliert werden, aber der Ort hierbei unverändert bleibt.
Die disjunkte Vereinigung aller Tangentenräume ist das sogenannte Tangentenbündel
von [latex]\mathbb {R}^n[/latex], welches man sich auch als Phasenraum vorstellen kann. Da wir für das Tangentenbündel verschiedene Fusspunkte betrachten, gibt es keine natürliche Weise, auf diesem eine Vektorraumstruktur zu definieren (wir möchten nur «Vektoren» und nicht Fusspunkte addieren).
Weiter definieren wir für eine offene Teilmenge [latex]U \subseteq \mathbb {R}^n[/latex] genau gleich den Tangentenraum von [latex]U[/latex] bei [latex]x \in U[/latex] als
welcher sich wie zuvor als Vektorraum aller möglichen Ableitungen [latex]\gamma '(0)[/latex] für differenzierbare Wege [latex]\gamma[/latex] mit Werten in [latex]U[/latex], die [latex]\gamma (0)=x[/latex] erfüllen, auffassen lässt. Des Weiteren ist das Tangentenbündel von [latex]U[/latex] durch
definiert.
In diesem Kontext können wir zum Beispiel die Ableitung zur Zeit [latex]t[/latex] eines differenzierbaren Weges [latex]\gamma : I \to U[/latex] als
interpretieren, wobei [latex]\gamma (t)[/latex] als der Ort zum Zeitpunkt [latex]t[/latex] und [latex]\gamma '(t)[/latex] als die gerichtete Geschwindigkeit zum Zeitpunkt [latex]t[/latex] aufgefasst wird. Der Vorteil dieses Gesichtspunktes ist gewissermassen, dass man gleichzeitig beide interessanten «Daten» Ort und Geschwindigkeit zur Verfügung hat.
Wir definieren nun auch für allgemeine differenzierbare Abbildungen [latex]f:U \to V[/latex] und [latex]g: V \to \mathbb {R}^k[/latex] auf offenen Teilmengen [latex]U \subseteq \mathbb {R}^n[/latex] und [latex]V \subseteq \mathbb {R}^m[/latex] die Ableitungen als die Abbildungen
und
die wiederum sowohl eine Ort- als auch eine Geschwindigkeitskomponente betrachten. Dann nimmt die Kettenregel auf ganz [latex]U[/latex] die einfachere Form
an. In der Tat gilt für [latex](x,v) \in \mathrm {T} U[/latex] nach der Kettenregel
Diese Unterscheidung zwischen Ort und Tangentenvektor macht aus vielerlei Sicht Sinn. Betrachten wir zum Beispiel die offene Menge [latex]U[/latex] als unser Universum, so lassen wir natürlich nur Wege in [latex]U[/latex] zu, womit alle möglichen Ableitungen eines differenzierbaren Weges Tangentenvektoren zu Punkten in [latex]U[/latex] sind. Des Weiteren hat das Verdoppeln eines Tangenvektors in [latex]T_x\mathbb {R}^n[/latex] bei [latex]x[/latex] die klare physikalische Interpretation einer Verdoppelung der Geschwindigkeit eines Weges durch [latex]x[/latex], doch hat das Verdoppeln der Ortskoordinaten keine natürliche Interpretation, da es keinen physikalisch sinnvollen Ursprung des Koordinatensystems gibt. Wir werden diese Sichtweise nicht sehr oft für offene Teilmengen des Euklidschen Raum [latex]\mathbb {R}^n[/latex] aber später für Teilmannigfaltigkeiten von [latex]\mathbb {R}^n[/latex] verwenden.
10.2.3 – Der Mittelwertsatz
Wir formulieren nun den Mittelwertsatz für reellwertige differenzierbare Funktionen auf einer offenen Menge in [latex]\mathbb {R}^n[/latex], der eine Verallgemeinerung des Mittelwertsatzes für Funktionen auf [latex]\mathbb {R}[/latex] darstellt (Theorem 7.29). Dazu betrachten wir eine gegebene Funktion [latex]f[/latex] entlang eines Geradenstücks in der offenen Menge.
Satz 10.14: Mittelwertsatz für reellwertige Funktionen auf [latex]\mathbb {R}^n[/latex]
Sei [latex]U \subseteq \mathbb {R}^n[/latex] offen und [latex]f:U \to \mathbb {R}[/latex] differenzierbar. Sei [latex]x_0 \in U[/latex] und [latex]h \in \mathbb {R}^n[/latex]. Falls [latex]x_0+th \in U[/latex] für alle [latex]t \in [0,1][/latex], dann gilt
für ein [latex]\xi = x_0+ t_\xi h[/latex] mit [latex]t_\xi \in (0,1)[/latex].
In Worten ausgedrückt existiert also entlang des geraden Weges zwischen [latex]x_0[/latex] und [latex]x_0+h[/latex] ein Punkt, wo die Ableitung entlang des durch den geraden Weg gegebenen Vektors gerade die Differenz der Funktionswerte an den Randpunkten des Weges ist.
Beweis
Wir bemerken, dass die Ableitung des geraden Weges [latex]t \in \mathbb {R} \mapsto x_0 + th[/latex] für vorgegebene [latex]x_0,h \in \mathbb {R}^n[/latex] bei jedem [latex]t[/latex] gleich [latex]h[/latex] ist. Daher erfüllt die Funktion
auf Grund der Kettenregel in Satz 10.13 alle Voraussetzungen des eindimensionalen Mittelwertsatzes (Theorem 7.29). Also existiert [latex]t_\xi \in (0,1)[/latex] mit [latex]g(1)-g(0) = g'(t_\xi )= \thinspace {\rm {D}}_{x_0+t_\xi h} f (h)[/latex] nach der Kettenregel und somit
für [latex]\xi = x_0 + t_\xi h[/latex]. ∎
Korollar 10.15
Sei [latex]U \subseteq \mathbb {R}^n[/latex] ein Gebiet und sei [latex]f:U \to \mathbb {R}^m[/latex] differenzierbar mit [latex]\thinspace {\rm {D}}_x f = 0[/latex] für alle [latex]x \in U[/latex]. Dann ist [latex]f[/latex] konstant.
Beweis
Es genügt den Fall [latex]m=1[/latex] zu betrachten (wieso?). Wir nehmen an, dass [latex]U[/latex] nichtleer ist und wählen ein [latex]x_0 \in U[/latex]. Wir betrachten
Da [latex]f[/latex] stetig ist, ist [latex]U'[/latex] eine abgeschlossene Teilmenge von [latex]U[/latex] (siehe Proposition 9.37). Des Weiteren folgt aus der Annahme und Satz 10.14, dass [latex]U'[/latex] offen ist: In der Tat existiert zu [latex]x \in U'[/latex] ein [latex]\varepsilon > 0[/latex] mit [latex]B_\varepsilon (x) \subseteq U[/latex] und da sich jeder Punkt [latex]y \in B_\varepsilon (x)[/latex] mit einem geraden Weg zu [latex]x[/latex] verbinden lässt, gilt nach Satz 10.14 auch [latex]f(y) = f(x) = f(x_0)[/latex]. Also ist [latex]y \in U'[/latex] und da [latex]y\in B_\varepsilon (x)[/latex] beliebig war, ist [latex]B_\varepsilon (x) \subseteq U'[/latex].
Da aber [latex]U[/latex] zusammenhängend ist und [latex]U'[/latex] nicht-leer ist, folgt [latex]U' = U[/latex] und damit auch das Korollar. ∎
Definition 10.16: Lokale Lipschitz-Stetigkeit
Eine Funktion [latex]f:X \to Y[/latex] zwischen zwei metrischen Räumen [latex]X,Y[/latex] heisst lokal Lipschitz-stetig, falls für jedes [latex]x_0 \in X[/latex] ein [latex]\varepsilon > 0[/latex] existiert, so dass [latex]f|_{B_{\varepsilon }(x_0)}[/latex] Lipschitz-stetig ist.
Korollar 10.17
Sei [latex]U \subseteq \mathbb {R}^n[/latex] offen und sei [latex]f: U \to \mathbb {R}^m[/latex] eine stetig differenzierbare Funktion. Dann ist [latex]f[/latex] lokal Lipschitz-stetig. Falls [latex]U[/latex] zusätzlich konvex und die Ableitung beschränkt ist, dann ist [latex]f[/latex] sogar Lipschitz-stetig.
Beweis
Es genügt den Fall [latex]m=1[/latex] zu betrachten (wieso?). Wir nehmen zuerst an, dass [latex]U[/latex] konvex ist und die Ableitung beschränkt ist. Letzteres bedeutet, dass es ein [latex]M \geq 0[/latex] gibt, so dass [latex]\| {\thinspace {\rm {D}}_\xi f}\| _\mathrm {op} \leq M[/latex] für alle [latex]\xi \in U[/latex]. Aus dem Mittelwertsatz (Satz 10.14) folgt damit für [latex]x,y\in U[/latex]
für ein [latex]\xi \in U[/latex], da [latex]U[/latex] konvex ist und somit das Geradenstück zwischen [latex]x[/latex] und [latex]y[/latex] enthält. Dies beweist die zweite Aussage im Korollar.
Die erste Aussage folgt aus der zweiten angewendet auf den Ball [latex]U_0=B_\varepsilon (x_0)[/latex] und [latex]f_0 = f|_{U_0}[/latex], wobei [latex]\varepsilon >0[/latex] so gewählt ist, dass [latex]\overline {B_\varepsilon (x_0)} \subseteq U[/latex]. In der Tat ist dann [latex]U_0[/latex] konvex (wieso?) und die Abbildung [latex]\xi \in \overline {B_\varepsilon (x_0)} \mapsto D_\xi f[/latex] ist als stetige Funktion auf der kompakten Menge [latex]\overline {B_\varepsilon (x_0)}[/latex] (siehe Satz 9.66) beschränkt, was die Beschränktheit von der Ableitung auf [latex]B_\varepsilon (x_0)[/latex] impliziert. ∎
Übung 10.18: Eine Distanzfunktion auf [latex]U[/latex]
Sei [latex]U \subseteq \mathbb {R}^{n}[/latex] offen und zusammenhängend. Wir sagen, dass ein Weg (d.h. eine stetige Abbildung) [latex]\gamma : [0,1] \rightarrow U[/latex] stückweise differenzierbar ist, falls es eine Zerlegung [latex]\mathfrak {Z} = \{ t_{0} = 0
- Zeigen Sie, dass es zu je zwei Punkten [latex]x,y \in U[/latex] einen stückweise differenzierbaren Weg von [latex]x[/latex] nach [latex]y[/latex] gibt.
Definieren Sie die Länge eines stückweise differenzierbaren Weges wie oben als
Wir behaupten, dass die Wegmetrik [latex]\operatorname {d}_{\operatorname {Weg}}(x,y)[/latex] für [latex]x,y \in U[/latex], welche durch
definiert ist, tatsächlich eine Metrik ist und dass diese die übliche Topologie definiert.
- Sei [latex]f:U\rightarrow \mathbb {R}^{m}[/latex] stetig differenzierbar mit beschränkten Ableitungen. Zeigen Sie, dass [latex]f[/latex] Lipschitz-stetig ist, wenn man [latex]U[/latex] mit der Wegmetrik [latex]\operatorname {d}_{\operatorname {Weg}}(x,y)[/latex] ausstattet.
- Finden Sie ein Beispiel einer zusammenhängenden, nicht konvexen Menge und einer differenzierbaren Funktion mit beschränkten Ableitungen, die bezüglich [latex]\left \| \cdot \right \|[/latex] nicht Lipschitz-stetig ist.
10.3 – Höhere Ableitungen und Taylor-Approximation
10.3.1 – Definition und Eigenschaften der höheren partiellen Ableitungen
Auf Grund von Satz 10.10 über die Existenz der totalen Ableitung werden wir im Folgenden eigentlich immer die Stetigkeit der partiellen Ableitungen (das heisst, stetige Differenzierbarkeit) verlangen. Wie wir hier sehen werden, ist diese Annahme auch für «höhere Ableitungen» von Bedeutung.
Definition 10.19: Höhere stetige Differenzierbarkeit
Sei [latex]U \subseteq \mathbb {R}^n[/latex] offen und [latex]f:U \to \mathbb {R}^m[/latex] eine Funktion. Wir sagen, dass [latex]f[/latex] zweimal stetig differenzierbar ist, falls [latex]f[/latex] stetig differenzierbar ist und für alle [latex]j,k \in \left \lbrace {1,\ldots ,n} \right \rbrace[/latex] die partielle Ableitung [latex]\partial _k f: U \to \mathbb {R}^m[/latex] wiederum eine stetige partielle Ableitung [latex]\partial _j\partial _k f[/latex] besitzt. Im Allgemeinen heisst [latex]f[/latex] [latex]d[/latex]-mal stetig differenzierbar für ein [latex]d\geq 2[/latex], falls [latex]f[/latex] stetig differenzierbar ist und für jedes [latex]j \in \left \lbrace {1,\ldots ,n} \right \rbrace[/latex] die partielle Ableitung [latex](d-1)[/latex]-mal stetig differenzierbar ist. Weiter sei
die Menge der [latex]d[/latex]-mal stetig differenzierbaren reellwertigen Funktionen auf [latex]U[/latex]. Wir sagen, dass eine iterierte partielle Ableitung einer [latex]d[/latex]-mal stetig differenzierbaren Funktion [latex]f: U \to \mathbb {R}[/latex] Ordnung [latex]\ell[/latex] für [latex]\ell \in \left \lbrace {1,\ldots ,d} \right \rbrace[/latex] hat, falls genau [latex]\ell[/latex] partielle Ableitungen auf [latex]f[/latex] angewandt wurden. Des Weiteren nennt man die Funktion [latex]f[/latex] glatt, falls sie beliebig oft (also für alle [latex]d\in \mathbb {N}[/latex] [latex]d[/latex]-mal) stetig differenzierbar ist.
Wir möchten an dieser Stelle anmerken, dass wir ab jetzt oft nur [latex]\mathbb {R}[/latex]-wertige statt [latex]\mathbb {R}^m[/latex]-wertige Funktionen betrachten werden. Viele der folgenden Aussagen übertragen sich allerdings wegen der Reduktionseigenschaft in Lemma 10.8 auch auf den Fall [latex]m > 1[/latex].
Satz 10.20: Satz von Schwarz
Sei [latex]U \subseteq \mathbb {R}^n[/latex] offen und [latex]f:U \to \mathbb {R}[/latex] eine zweimal stetig differenzierbare Funktion. Dann gilt für alle [latex]j,k \in \left \lbrace {1,\ldots ,n} \right \rbrace[/latex]
auf ganz [latex]U[/latex].
Beweis
Es genügt den Fall [latex]n=2[/latex] und [latex]j=1[/latex], [latex]k=2[/latex] zu betrachten, der allgemeine Fall ist nur in der Notation schwieriger und folgt auch aus dem betrachteten Spezialfall. Für [latex]x \in U[/latex] und ein genügend kleines [latex]h >0[/latex] (so dass [latex](x_1+t_1h,x_2+t_2h)\in U[/latex] für alle [latex]t_1,t_2\in [0,1][/latex]) definieren wir eine Funktion [latex]F[/latex] durch
Weiter betrachten wir für ein genügend kleines aber festes [latex]h \in (0,1)[/latex] die nach der Kettenregel differenzierbare Funktion [latex]t \in [0,1] \mapsto \varphi (t) = f(x_1+th,x_2+h) - f(x_1+th,x_2)[/latex] und erhalten
für ein [latex]\xi _1 \in (0,1)[/latex] nach dem eindimensionalen Mittelwertsatz (Theorem 7.29) angewendet auf die Hilfsfunktion [latex]\varphi[/latex].
Eine nochmalige Anwendungen des eindimensionalen Mittelwertsatzes auf die Funktion [latex]\psi : t \in [0,1] \mapsto \partial _1 f(x_1+\xi _1h,x_2+th)[/latex] ergibt (gemeinsam mit der Kettenregel)
für einen Zwischenpunkt [latex]\xi _2 \in (0,1)[/latex].
Da aber in der Funktion [latex]h \mapsto F(h)[/latex] die beiden Komponenten symmetrisch verwendet wurden, können wir das Argument auch mit vertauschten Rollen der ersten und zweiten Komponenten durchführen. Dies ergibt analog gewisse [latex]\xi _1',\xi _2' \in (0,1)[/latex] mit
Wir dividieren nun durch [latex]h^2 >0[/latex] und erhalten
Des Weiteren gilt wegen [latex]\xi _1,\xi _2,\xi _1',\xi _2'\in (0,1)[/latex], dass [latex](\xi _1h,\xi _2h)[/latex] und [latex](\xi _1'h,\xi _2'h)[/latex] beide gegen [latex](0,0)[/latex] streben wenn [latex]h\searrow 0[/latex]. Also folgt auf Grund der Stetigkeit beider partiellen Ableitungen [latex]\partial _2\partial _1f(x) = \partial _1\partial _2f(x)[/latex] wie gewünscht. ∎
Wir bemerken, dass die Annahme der Stetigkeit im Satz von Schwarz notwendig ist — siehe die entsprechende Übung in Abschnitt 10.8.2.
Die Hesse-Matrix [latex]H(x) = (H_{ij}(x))_{ij}\in \operatorname {Mat}_{n,n}(\mathbb {R})[/latex] bei [latex]x\in U[/latex] einer zweimal stetig differenzierbaren Funktion [latex]f:U\to \mathbb {R}[/latex] ist gegeben durch
für [latex]i,j \in \left \lbrace {1,\ldots ,n} \right \rbrace[/latex]. Der Satz von Schwarz (Satz 10.20) besagt nun genau [latex]H_{ij}(x) = H_{ji}(x)[/latex] für alle [latex]i,j \in \left \lbrace {1,\ldots ,n} \right \rbrace[/latex], also dass [latex]H(x)[/latex] eine symmetrische Matrix ist.
Eine direkte Konsequenz und Verallgemeinerung des Satzes von Schwarz (Satz 10.20) ist das folgende Korollar.
Korollar 10.21: Satz von Schwarz
Sei [latex]U \subseteq \mathbb {R}^n[/latex] offen und [latex]f: U \to \mathbb {R}^m[/latex] [latex]d[/latex]-mal stetig differenzierbar. Dann spielt die Reihenfolge der partiellen Ableitungen (bis zur Ordnung [latex]d[/latex]) keine Rolle.
Die höheren partiellen Ableitungen einer stetig differenzierbaren Funktion [latex]f:U\to \mathbb {R}^m[/latex] auf einer offenen Teilmenge [latex]U\subseteq \mathbb {R}^n[/latex] können also alle in die Form
gebracht werden, wobei die einzelnen Komponenten von [latex]\boldsymbol {\alpha }\in \mathbb {N}_0^n[/latex] angeben wie oft wir nach den einzelnen Koordinatenrichtungen abgeleitet haben (und [latex]\partial _j^0f=f[/latex] für alle [latex]j=1,\ldots ,n[/latex]). Der Satz von Schwarz nimmt in dieser Notation die Form
für [latex]\boldsymbol {\alpha },\boldsymbol {\beta }\in \mathbb {N}_0^n[/latex] an, wobei [latex]f[/latex] auf [latex]U[/latex] als [latex]\| {\boldsymbol {\alpha }+\boldsymbol {\beta }}\| _1[/latex]-oft stetig differenzierbar vorausgesetzt wird. Wir bezeichnen in diesem Zusammenhang [latex]\boldsymbol {\alpha } = (\alpha _1,\ldots ,\alpha _n) \in \mathbb {N}_0^n[/latex] als einen Multiindex.
10.3.2 – Mehrdimensionale Taylor-Approximation
Satz 10.22: Taylor-Approximation mit Integralrestglied
Sei [latex]U \subseteq \mathbb {R}^n[/latex] offen und [latex]f:U \to \mathbb {R}[/latex] eine [latex](d+1)[/latex]-mal stetig differenzierbare Funktion. Sei [latex]x \in U[/latex] und [latex]h \in \mathbb {R}^n[/latex], so dass [latex]x+th \in U[/latex] für alle [latex]t \in [0,1][/latex]. Dann gilt
[latex]
\begin{aligned}[]\label{eq:mehrdiff-taylor1} f(x+h) = f(x) + \sum _{k=1}^d \frac {1}{k!} \big (\partial _h^k f\big ) (x) + R_{x,d}^f(h),\end{aligned}
[/latex]
wobei das Integralrestglied [latex]R_{x,d}^f[/latex] durch
gegeben ist. Insbesondere ist
[latex]
\begin{aligned}[]\label{eq:mehrdiff-taylor2} f(x+h) = f(x) + \sum _{k=1}^d \frac {1}{k!} \big (\partial _h^k f\big ) (x) + O(\| {h}\| ^{d+1}).\end{aligned}
[/latex]
Dabei bezeichnet [latex]\partial _h^k f[/latex] die [latex]k[/latex]-fache Ableitung von [latex]f[/latex] entlang des Vektors [latex]h[/latex]. Wir erinnern daran, dass
Auch die höheren Ableitungen [latex]\partial _h^k f[/latex] lassen sich als Linearkombinationen partieller Ableitungen der Ordnung [latex]k[/latex] auffassen, wenn man die Potenz formal ausmultipliziert. Zum Beispiel gilt für den quadratischen Term bei [latex]x \in U[/latex]
[latex]
\begin{aligned}[]\label{eq:partialhesse} \begin{aligned}\left [\partial _h^2 f\right ](x) &=\left [\partial _h(h_1 \partial _1 f+ \ldots + h_n \partial _nf) \right ](x)\\ &=\sum _{j=1}^nh_j\partial _h(\partial _jf)(x)=\sum _{i,j=1}^nh_ih_j\partial _i\partial _jf(x)= h^t H(x) h\end{aligned}\end{aligned}
[/latex]
für alle [latex]h\in \mathbb {R}^n[/latex], wobei [latex]H(x)[/latex] wieder die Hesse-Matrix der zweiten Ableitungen bei [latex]x[/latex] bezeichnet.
Wie im eindimensionalen Fall wollen wir die Approximation in Gleichung (10.5) (oder auch (10.6)) die Taylor-Approximation [latex]d[/latex]-ter Ordnung nennen.
Beweis
Nach Annahme im Satz gilt [latex]x+th \in U[/latex] für alle [latex]t\in [0,1][/latex] (oder sogar für [latex]t[/latex] in einem etwas grösseren offenen Intervall). Wir wenden nun die eindimensionale Taylor-Approximation auf die Funktion
an. Nach Theorem 8.58 erhält man für die Taylor-Approximation um [latex]0[/latex] bei [latex]1[/latex]
[latex]
\begin{aligned}[]\label{eq:mehrdiff-taylorbew1} \varphi (1) = P_{0,d}^\varphi (1) + \int _0^1 \varphi ^{(d+1)}(t) \frac {(1-t)^d}{d!} \thinspace {\rm {d}} t,\end{aligned}
[/latex]
wobei
[latex]
\begin{aligned}[]\label{eq:mehrdiff-taylorbew2} P_{0,d}^\varphi (1) = \sum _{k=0}^d \frac {\varphi ^{(k)}(0)}{k!}.\end{aligned}
[/latex]
Wenden wir die Kettenregel in Satz 10.13 auf [latex]\varphi[/latex] an, so erhalten wir für [latex]t \in [0,1][/latex]
Für die zweite Ableitung von [latex]\varphi[/latex] nach [latex]t\in [0,1][/latex] (für festes [latex]x[/latex] und [latex]h[/latex]) ergibt sich ebenso
Per Induktion erhält man schlussendlich
für alle [latex]k \in \left \lbrace {1,\ldots ,n} \right \rbrace[/latex] und [latex]t \in [0,1][/latex]. Setzen wir dies in (10.8) und (10.9) ein, so ergibt sich der Satz.
Für die letzte Aussage sei [latex]\varepsilon >0[/latex] mit [latex]\overline {B_\varepsilon }(x_0)\subseteq U[/latex] so dass alle partiellen Ableitungen der Ordnung [latex]d+1[/latex] auf [latex]\overline {B_\varepsilon }(x_0)[/latex] beschränkt sind. Expandieren wir die Notation [latex]\big (\partial _h^{d+1} f\big ) (x+th)[/latex] so erhalten wir eine endliche Linearkombination der [latex](d+1)[/latex]-ten partiellen Ableitungen, die für [latex]\| {h}\| \leq \varepsilon[/latex] und [latex]t\in [0,1][/latex] beschränkt sind, wobei die Koeffizienten ein Produkt von [latex]d+1[/latex] Koordinaten von [latex]h=(h_1,\ldots ,h_n)^t[/latex] sind. Da [latex]|h_j|\leq \| {h}\|[/latex] für [latex]j=1,\ldots ,n[/latex], ergibt sich die behauptete Fehlerabschätzung durch diese endliche Summe und die Dreiecksungleichung für das Riemann-Integral. ∎
Um zu veranschaulichen, wieso Satz 10.22 gerade die mehrdimensionale Version von Theorem 8.58 ist, wollen wir diesen hier in Multiindexnotation darstellen. Wir setzen für [latex]\boldsymbol {\alpha }\in \mathbb {N}_0^n[/latex] und [latex]h \in \mathbb {R}^n[/latex]
sowie [latex]\boldsymbol {\alpha }! = \alpha _1 ! \cdots \alpha _n![/latex]. Sei [latex]U \subseteq \mathbb {R}^n[/latex] offen und [latex]f:U \to \mathbb {R}[/latex] eine [latex](d+1)[/latex]-mal stetig differenzierbare Funktion. Sei [latex]x \in U[/latex] und [latex]h \in \mathbb {R}^n[/latex], so dass [latex]x+th \in U[/latex] für alle [latex]t \in [0,1][/latex]. Dann gilt
[latex]
\begin{aligned}[]\label{eq:mehrdiff-taylor3} f(x+h) = \sum _{\pmb {\alpha } \in \mathbb {N}_0^n: \| {\pmb {\alpha }}\| _1 \leq d} \frac {1}{\boldsymbol {\alpha }!} \partial ^{\pmb {\alpha }} f(x) h^{\pmb {\alpha }} + R_{x,d}^f(h)\end{aligned}
[/latex]
wobei
[latex]
\begin{aligned}[]\label{eq:mehrdiff-taylor4} R_{x,d}^f(h) = (d+1)\sum _{\pmb {\alpha } \in \mathbb {N}_0^n: \| {\pmb {\alpha }}\| _1 = d+1}h^{\pmb {\alpha }} \int _0^1 \frac {(1-t)^d}{\boldsymbol {\alpha }!} \partial ^{\pmb {\alpha }}f (x+th) \thinspace {\rm {d}} t.\end{aligned}
[/latex]
Spricht man von Taylor-Approximation (insbesondere in der Literatur), so ist meistens die Form in (10.10), (10.11) anstelle von (10.5), (10.6) gemeint.
Wir bemerken an dieser Stelle ebenfalls, dass der Hauptterm auf der rechten Seite von (10.10) genau wie in der eindimensionalen Taylor-Approximation ein Polynom darstellt — diesmal allerdings in [latex]d[/latex] Variablen.
Wichtige Übung 10.23: Satz von Taylor in Multiindexnotation
Zeigen Sie obige Umformulierung der mehrdimensionalen Taylor-Approximation.
Hinweis.
Betrachten Sie zuerst den Fall [latex]n=2[/latex] und verwenden Sie die bekannten Eigenschaften der Binomialkoeffizienten für den Beweis. Für den allgemeinen Fall können Sie den Multinomialsatz (siehe Abschnitt 3.9.2) verwenden, welcher besagt, dass
für [latex]a \in \mathbb {R}^n[/latex], wobei für [latex]\boldsymbol {\alpha }\in \mathbb {N}_0^n[/latex] mit [latex]\| {\boldsymbol {\alpha }}\| _1 = d[/latex] der Multinomialkoeffizient durch [latex]\binom {d}{\boldsymbol {\alpha }} = \frac {d!}{\boldsymbol {\alpha }!}[/latex] gegeben ist.
Applet 10.24: Taylor-Approximation für Berglandschaft
Wir sehen anhand der Funktion [latex]f:(x,y)\in \mathbb {R}^2\mapsto \sin (x)\cos (y)+2[/latex] wie die Taylor-Approximationen erster, zweiter, oder dritter Ordnung die Funktion approximiert.
Wir werden die mehrdimensionale Taylor-Approximation meist nur für [latex]d=1,2[/latex] wie im folgenden Korollar benötigen.
Korollar 10.25: Lineare und quadratische Approximation
Sei [latex]U \subseteq \mathbb {R}^n[/latex] offen und [latex]f:U \to \mathbb {R}[/latex] eine zweimal stetig differenzierbare Funktion. Dann gilt für alle [latex]x \in U[/latex]
und genauer
für [latex]h \to 0[/latex], wobei [latex]H(x)[/latex] wieder die Hesse-Matrix von [latex]f[/latex] bei [latex]x[/latex] darstellt.
Beweis
Die erste Gleichung folgt direkt aus Satz 10.22. Für die zweite bemerken wir zuerst, dass das Restglied [latex]R_{x,1}^f[/latex] nach Satz 10.22 und (10.7) durch
gegeben ist, wobei [latex]H(x)[/latex] wieder die Hesse-Matrix von [latex]f[/latex] bei [latex]x \in U[/latex] bezeichnet. Für [latex]h \to 0[/latex] unterscheidet sich wegen der Stetigkeit der zweiten Ableitungen [latex]H(x+th)[/latex] um [latex]o(1)[/latex] von [latex]H(x)[/latex] (und die implizite Konstante ist unabhängig von [latex]t\in [0,1][/latex]). Also gilt
für [latex]h \to 0[/latex]. ∎
Beispiel 10.26
Wir betrachten die Funktion
und berechnen die ersten partiellen Ableitungen
sowie die zweiten partiellen Ableitungen
für [latex](x,y)^t \in \mathbb {R}^2[/latex]. Damit gilt beispielsweise für die quadratische Taylor-Approximation von [latex]f[/latex] um [latex](0,0)^t[/latex]
für [latex](x,y)^t \to 0[/latex].
Glücklicherweise ist nicht immer notwendig alle partiellen Ableitungen zu berechnen. Stattdessen kann man auch auf bekannte Reihendarstellungen zurückgreifen. Wir möchten dies an einem Beispiel illustrieren.
Beispiel 10.27: Taylor via bekannter Reihendarstellung
Wir berechnen die Taylor-Approximation zwölfter Ordnung der Funktion
um den Ursprung. Die Taylor-Reihe von [latex]\cos[/latex] um den Ursprung ist durch
gegeben, womit insbesondere
für alle [latex]x \in \mathbb {R}[/latex]. Für die gegebene Funktion [latex]f[/latex] und [latex]h = (x,y)^t \to 0[/latex] ergibt sich also
wobei wir verwendet haben, dass [latex]x^{13} = O(\| {h}\| ^{13})[/latex] sowie [latex]x^{12} y = O(\| {h}\| ^{13})[/latex]. Wir empfehlen den Leserinnen und Lesern an dieser Stelle, einige Ableitungen der Funktion [latex]f[/latex] zu berechnen und sich davon zu überzeugen, dass das Verwenden der Potenzreihe des Kosinus obige Rechnung erheblich verkürzt.
10.4 – Extremwerte
Definition 10.28: Extrema
Sei [latex]f[/latex] eine reellwertige Funktion auf einer Menge [latex]X[/latex]. Dann sagen wir, dass [latex]f[/latex] in [latex]x_{\max } \in X[/latex] ein Maximum annimmt, falls [latex]f(x) \leq f(x_{\max })[/latex] für alle [latex]x \in X[/latex] gilt. Die Funktion [latex]f[/latex] nimmt ein striktes Maximum in [latex]x_{\max }\in X[/latex] an, falls [latex]f(x) Maximum von [latex]f[/latex]. Analoge Begriffe definiert man für das Minimum. In beiden Fällen sprechen wir von (globalen) Extremwerten.
Sei nun [latex]X[/latex] ein metrischer Raum. Dann sagen wir, dass [latex]f[/latex] in [latex]x_{\max } \in X[/latex] ein lokales Maximum annimmt, falls es ein [latex]\delta >0[/latex] gibt, so dass [latex]f(x) \leq f(x_{\max })[/latex] für alle [latex]x \in B_{\delta }(x_{\max })[/latex]. Weiter nimmt [latex]f[/latex] in [latex]x_{\max } \in X[/latex] ein striktes lokales Maximum an, falls es ein [latex]\delta >0[/latex] gibt, so dass [latex]f(x) lokales Maximum bezeichnet. Die Definition eines lokalen Minimum ist analog und beide werden als lokale Extremwerte bezeichnet.
In Satz 9.66 haben wir bereits gesehen, dass stetige Funktionen auf kompakten metrischen Räumen beide Extremwerte (also Maximum und Minimum) besitzen. Des Weiteren wissen wir wegen dem Satz von Heine-Borel (Satz 9.70), dass dies insbesondere für abgeschlossene und beschränkte Teilmengen in [latex]\mathbb {R}^n[/latex] anwendbar ist. Die Methoden dieses Kapitels sind aber eher für offene Teilmengen des [latex]\mathbb {R}^n[/latex] relevant. Für abgeschlossene Teilmengen des [latex]\mathbb {R}^n[/latex] mit «glatten Rändern» werden wir die hier behandelten Methoden im nächsten Kapitel weiter verfeinern.
Proposition 10.29: Notwendige Bedingung für lokale Extrema
Sei [latex]U \subseteq \mathbb {R}^n[/latex] offen, sei [latex]f:U \to \mathbb {R}[/latex] eine Funktion und sei [latex]x_0 \in U[/latex] ein Punkt. Falls [latex]f[/latex] in [latex]x_0[/latex] ein lokales Extremum annimmt und [latex]f[/latex] in [latex]x_0[/latex] differenzierbar ist, so ist [latex]\thinspace {\rm {D}}_{x_0}f = 0[/latex].
Der Beweis dieser Proposition ist weitgehend analog zum Beweis im eindimensionalen Fall (siehe Proposition 7.17).
Beweis
Wir nehmen ohne Beschränkung der Allgemeinheit an, dass [latex]f[/latex] in [latex]x_0[/latex] ein lokales Maximum annimmt. Für alle [latex]j \in \left \lbrace {1,\ldots ,n} \right \rbrace[/latex] und genügend kleine [latex]h \in \mathbb {R}[/latex] gilt nach Annahme
Daher ist
und gleichzeitig auch
Da [latex]j \in \left \lbrace {1,\ldots ,n} \right \rbrace[/latex] beliebig war, folgt [latex]\thinspace {\rm {D}}_{x_0}f = 0[/latex] aus Proposition 10.6. ∎
Wie schon für Funktionen auf Intervallen in [latex]\mathbb {R}[/latex] (zum Beispiel für [latex]x \in \mathbb {R} \mapsto x^3 \in \mathbb {R}[/latex]) ist das Verschwinden der Ableitung aber keine hinreichende Bedingung für das Vorliegen eines Extremwerts. Trotzdem ist Proposition 10.29 in der Praxis sehr nützlich, um die Kandidaten für lokale Extrema aufzuspüren. In der Tat sind die Kandidaten jene Punkte, bei denen die Ableitung entweder nicht existiert oder verschwindet.
Definition 10.30: Kritische Punkte
Sei [latex]U \subseteq \mathbb {R}^n[/latex] offen und sei [latex]f:U \to \mathbb {R}[/latex] eine differenzierbare Funktion. Ein Punkt [latex]x \in U[/latex] heisst kritischer Punkt von [latex]f[/latex], falls [latex]\thinspace {\rm {D}}_x f =0[/latex]. Ist allgemeiner [latex]f[/latex] eine differenzierbare Abbildung von [latex]U[/latex] nach [latex]\mathbb {R}^m[/latex], so ist [latex]x \in U[/latex] ein kritischer Punkt, falls [latex]\thinspace {\rm {D}}_x f[/latex] Rang kleiner als [latex]\min (m,n)[/latex] hat.
Weiter nennt man [latex]x \in U[/latex] einen regulären Punkt der Abbildung [latex]f:U \to \mathbb {R}^m[/latex], falls [latex]x[/latex] kein kritischer Punkt von [latex]f[/latex] ist. Das Bild eines kritischen Punktes unter [latex]f[/latex] nennt man auch einen kritischen Wert; Punkte in [latex]\mathbb {R}^m[/latex] im Komplement der kritischen Werte von [latex]f[/latex] heissen reguläre Werte.
Für die Untersuchung, ob bei einem kritischen Punkt ein lokales Extremum angenommen wird, benötigen wir weitere Begriffe aus der Linearen Algebra.
Definition 10.31
Sei [latex]A \in \operatorname {Mat}_{n,n}(\mathbb {R})[/latex] eine symmetrische Matrix (das heisst, [latex]A^t = A[/latex]). Dann nennt man die Abbildung
die zu [latex]A[/latex] assoziierte quadratische Form in [latex]n[/latex] Variablen. Die quadratische Form [latex]Q_A[/latex] oder auch die Matrix [latex]A[/latex] heisst
- positiv definit, falls [latex]Q_A(v) > 0[/latex] für alle [latex]v \in \mathbb {R}^n \setminus \left \lbrace {0} \right \rbrace[/latex],
- negativ definit, falls [latex]Q_A(v)
- indefinit, falls [latex]w_-,w_+ \in \mathbb {R}^n[/latex] existieren mit [latex]Q_A(w_+)> 0[/latex] und [latex]Q_A(w_-)
- nicht-degeneriert, falls [latex]\det (A) \neq 0[/latex].
Bemerkung: Zwei weitere Begriffe zu quadratischen Formen
Sei [latex]A[/latex] eine symmetrische Matrix und [latex]Q_A[/latex] die assoziierte quadratische Form. Nebst den oben eingeführten Begriffen zu [latex]Q_A[/latex] existieren weitere wichtige Begriffe, die wir hier aber nicht verwenden werden. Die quadratische Form [latex]Q_A[/latex] nennt sich positiv semidefinit, falls [latex]Q_A(v) \geq 0[/latex] für alle [latex]v \in \mathbb {R}^n[/latex], und negativ semidefinit, falls [latex]Q_A(v) \leq 0[/latex] für alle [latex]v \in \mathbb {R}^n[/latex].
Der Begriff der Definitheit erlaubt es uns nun wie in Korollar 7.37 zu entscheiden, ob bei einem kritischen Punkt ein lokales Maximum angenommen wird oder nicht.
Korollar 10.32
Sei [latex]U \subseteq \mathbb {R}^n[/latex] offen, [latex]f: U \to \mathbb {R}[/latex] zweimal stetig differenzierbar, [latex]x_0 \in U[/latex] ein kritischer Punkt und
die quadratische Form assoziiert zur Hesse-Matrix [latex]H(x)[/latex] von [latex]f[/latex] bei [latex]x_0[/latex]. Dann gilt
- Ist [latex]Q[/latex] positiv definit, so nimmt [latex]f[/latex] bei [latex]x_0[/latex] ein striktes lokales Minimum an.
- Ist [latex]Q[/latex] negativ definit, so nimmt [latex]f[/latex] bei [latex]x_0[/latex] ein striktes lokales Maximum an.
- Ist [latex]Q[/latex] indefinit, so hat [latex]f[/latex] bei [latex]x_0[/latex] kein lokales Extremum.
Um sich die obigen Aussagen merken zu können, empfiehlt sich die folgenden einfachen Beispiele im Gedächnis zu behalten.
- [latex]f(x,y) = x^2+y^2[/latex] hat ein lokales Minimum bei [latex]0[/latex].
- [latex]f(x,y) = -x^2-y^2[/latex] hat ein lokales Maximum bei [latex]0[/latex].
- [latex]f(x,y) = x^2-y^2[/latex] hat kein lokales Extremum bei [latex]0[/latex]. Allerdings ist [latex]0[/latex] ein kritischer Punkt von [latex]f[/latex].
In dem indefiniten Fall spricht man auch von einem Sattelpunkt, siehe folgendes Bild.
Beweis
Nach Korollar 10.25 gilt
[latex]
\begin{aligned}[]\label{eq:mehrdiff-prooflokextr} f(x_0+h) - f(x_0) = \tfrac 12\| {h}\| ^2 \left (Q\bigg (\frac {h}{\| {h}\| }\bigg ) + \alpha (x_0,h)\right )\end{aligned}
[/latex]
für [latex]\alpha (x_0,h) = o(1)[/latex] für [latex]h \to 0[/latex]. Falls [latex]Q[/latex] positiv definit ist, dann gilt [latex]Q(w) > 0[/latex] für alle [latex]w \in \mathbb {S}^{n-1} = \left \lbrace {v \in \mathbb {R}^n} \mid {\| {v}\| =1}\right \rbrace[/latex]. Da [latex]\mathbb {S}^{n-1}[/latex] nach dem Satz von Heine-Borel (Satz 9.70) kompakt ist und [latex]Q[/latex] stetig ist, existiert daher ein [latex]c >0[/latex] mit [latex]Q(w) \geq c[/latex] für alle [latex]w \in \mathbb {S}^{n-1}[/latex] (siehe Satz 9.66(5)). Es existiert weiter ein [latex]\delta > 0[/latex], so dass der Fehlerterm [latex]\alpha (x_0,h)[/latex] in (10.12) im Absolutbetrag kleiner als [latex]\frac {c}{2}[/latex] ist für [latex]h\in \mathbb {R}^n[/latex] mit [latex]\| {h}\| 10.12), dass
für alle [latex]h \in B_\delta (0)[/latex] gilt, wodurch [latex]f[/latex] in [latex]x_0[/latex] ein striktes lokales Minimum annimmt.
Falls [latex]Q[/latex] negativ definit ist, so ersetzen wir [latex]f[/latex] durch [latex]-f[/latex], womit [latex]Q[/latex] durch [latex]-Q[/latex] ersetzt wird. Die quadratische Form [latex]-Q[/latex] ist aber positiv definit und somit nimmt [latex]-f[/latex] in [latex]x_0[/latex] ein striktes lokales Minimum an, was die Aussage beweist.
Falls [latex]Q[/latex] indefinit ist, so existieren [latex]w_-,w_+ \in \mathbb {S}^{n-1}[/latex], so dass [latex]Q(w_-) 0[/latex]. Für hinreichend kleine [latex]s \in \mathbb {R}\setminus \left \lbrace {0} \right \rbrace[/latex] ist dann
und damit
Daher nimmt [latex]f[/latex] bei [latex]x_0[/latex] weder ein lokales Minimum noch ein lokales Maximum an. ∎
Auf Grund von Korollar 10.32 sind wir daran interessiert, für eine gegebene Matrix entscheiden zu können, ob sie positiv definit, negativ definit oder indefinit ist. Folgendes Kriterium aus der Linearen Algebra ist dafür sehr nützlich.
Satz 10.33: Charakterisierungen von Definitheit
Sei [latex]A = (a_{ij})_{ij}\in \operatorname {Mat}_{n,n}(\mathbb {R})[/latex] eine symmetrische Matrix. Dann gilt
- [latex]A[/latex] ist genau dann positiv definit, wenn alle der folgenden Determinanten positiv sind:
- [latex]A[/latex] ist genau dann negativ definit, wenn [latex]-A[/latex] positiv definit ist, was genau wechselnden Vorzeichen der Determinanten beginnend mit negativen Vorzeichen entspricht.
- Falls [latex]A[/latex] nicht-degeneriert ist und weder positiv noch negativ definit ist, dann ist [latex]A[/latex] indefinit.
Der Beweis dieses Satzes verwendet nur Methoden der Linearen Algebra und wird deswegen in den nächsten Teilabschnitt ausgelagert. Selbstverständlich existieren weitere, nützliche Charakterisierungen von Definitheit (beispielsweise via der Eigenwerte).
Beispiel 10.34
Seien [latex]a,b \in \mathbb {R}[/latex] feste Parameter. Wir definieren [latex]f: \mathbb {R}^2 \to \mathbb {R}[/latex] durch
für [latex](x,y)^t \in \mathbb {R}^2[/latex] und betrachten den kritischen Punkt [latex](0,0)^t[/latex]. Die Hesse-Matrix von [latex]f[/latex] bei [latex](0,0)^t[/latex] ist durch
gegeben. Wir wenden Satz 10.33 und das Kriterium in Korollar 10.32 an und erhalten folgende Fälle.
- Falls [latex]a > 0[/latex] ist und [latex]4ab-1> 0[/latex] ist, so ist [latex]H[/latex] positiv definit und [latex]f[/latex] hat bei [latex](0,0)^t[/latex] ein lokales Minimum.
- Falls [latex]a0[/latex] ist, so ist [latex]H[/latex] negativ definit und [latex]f[/latex] hat bei [latex](0,0)^t[/latex] ein lokales Maximum.
- Falls [latex]4ab-1 =0[/latex] ist, so ist die Hesse-Matrix degeneriert und unsere Kriterien greifen nicht (was nicht heisst, dass man diesen Fall nicht trotzdem entscheiden kann).
- Falls [latex]4ab-1
Übung 10.35
Finden Sie alle kritischen Punkte der Funktion [latex]f: (x,y) \in \mathbb {R}^2 \mapsto x^3-y^3+3\alpha xy[/latex] zu [latex]\alpha \in \mathbb {R}[/latex]. Entscheiden Sie jeweils, ob es sich um ein Extremum handelt und wenn ja, ob ein lokales Minimum oder Maximum angenommen wird.
10.4.1 – Beweis des Kriteriums für Definitheit*
Wie angekündigt beweisen wir hier Satz 10.33.
Beweis von Satz 10.33
Wir bemerken zuerst, dass für [latex]J \in \operatorname {GL}_n(\mathbb {R})[/latex] die Matrix [latex]A[/latex] genau dann positiv definit (negativ definit oder indefinit) ist, wenn dies für [latex]J^t A J[/latex] der Fall ist.
Der Beweis der ersten Aussage erfolgt per Induktion nach [latex]n[/latex]. Für [latex]n=1[/latex] folgt die Behauptung direkt aus der Definition. Für den Beweis des Induktionsschrittes schreiben wir [latex]A\in \operatorname {Mat}_{n+1,n+1}(\mathbb {R})[/latex] als die Blockmatrix
für eine symmetrische Matrix [latex]B \in \operatorname {Mat}_{n,n}(\mathbb {R})[/latex], [latex]v \in \mathbb {R}^n[/latex] und [latex]c \in \mathbb {R}[/latex]. Falls die Matrix [latex]B[/latex] invertierbar ist, dann gilt mit
dass
wobei wir [latex]\tilde {c} = -v^tB^{-1}v + c[/latex] gesetzt haben.
Falls nun [latex]A[/latex] positiv definit ist, dann ist auch [latex](w^t,0)A\Big ({\scriptsize \arraycolsep =0.3\arraycolsep \ensuremath {\begin{matrix}w\\ 0\end{matrix}}}\Big )> 0[/latex] für alle [latex]w \in \mathbb {R}^n \setminus \left \lbrace {0} \right \rbrace[/latex]. In obiger Notation folgt daraus, dass [latex]B[/latex] ebenfalls positiv definit ist. Gemeinsam mit der Induktionsannahme erhalten wir, dass die ersten [latex]n[/latex] Determinanten positiv sind und insbesondere [latex]B \in \operatorname {GL}_n(\mathbb {R})[/latex] ist. Wenden wir nun obige Rechnung an, so erhalten wir also eine Matrix [latex]J\in \operatorname {GL}_{n+1}(\mathbb {R})[/latex], so dass
Da [latex]A[/latex] als positiv definit vorausgesetzt wurde, gilt [latex]\tilde {c}> 0[/latex] und wegen [latex]\det (J) =1[/latex] auch
Dies beweist den Induktionsschritt in der ersten Richtung.
Sei nun [latex]A\in \operatorname {Mat}_{n+1,n+1}(\mathbb {R})[/latex] eine symmetrische Matrix, so dass alle Determinanten wie im Satz positiv sind. Insbesondere hat [latex]B[/latex] eine positive Determinante und ist auf Grund der Induktionssannahme positiv definit. Wir verwenden wieder die oben definierte Matrix [latex]J[/latex] und sehen, dass
und somit [latex]\tilde {c} > 0[/latex]. Daraus folgt aber, dass
und damit auch [latex]A[/latex] positiv definit sind. Dies vollendet den induktiven Beweis der ersten Aussage im Satz.
Für die zweite Aussage verwenden wir, dass [latex]A[/latex] genau dann negativ definit ist, wenn [latex]-A[/latex] positiv definit ist (was direkt aus der Definition folgt). Gemeinsam mit der Multilinearität der Determinante und der ersten Bedingung ergibt sich die gewünschte Charakterisierung mittels der Folge der Determinanten.
Die letzte Behauptung ist keine Charakterisierung, sondern nur eine hinreichende Bedingung. Ihr Beweis ist etwas anders aufgebaut und verwendet folgenden Satz aus der linearen Algebra: Jede symmetrische Matrix [latex]A[/latex] ist diagonalisierbar, wobei es sogar eine orthogonale Matrix [latex]K[/latex] gibt für die [latex]K^{-1}AK[/latex] diagonal ist. Für die orthogonale Matrix [latex]K[/latex] ist aber [latex]K^{-1}=K^t[/latex] und wie schon zuvor haben dadurch [latex]A[/latex] und die Diagonalmatrix [latex]D=K^tAK[/latex] das gleiche Verhalten bezüglich Definitheit. Nach Vorraussetzung ist [latex]A[/latex] nicht-degeneriert, womit alle Eigenwerte von [latex]A[/latex] (also die Diagonaleinträge von [latex]D[/latex]) nicht gleich Null sind. Da [latex]A[/latex] nicht positiv definit ist, ist auch [latex]D[/latex] nicht positiv definit und es existiert ein negativer Eintrag in [latex]D[/latex]. Dies gilt analog für nicht negativ definit, und zusammen sehen wir, dass sowohl [latex]D[/latex] als auch [latex]A[/latex] indefinit sind. ∎
10.5 – Parameterintegrale
Seien [latex]a
welches von einer oder mehreren Variablen [latex]x[/latex] abhängt, wird als Parameterintegral bezeichnet.
Satz 10.36: Differentiation unter dem Integral
Sei [latex]U \subseteq \mathbb {R}^n[/latex] eine offene Teilmenge, [latex]a
für [latex]x \in U[/latex] eine stetige Funktion [latex]F:U \to \mathbb {R}[/latex]. Falls zusätzlich die partiellen Ableitungen [latex]\partial _kf[/latex] für [latex]k=1,\ldots ,n[/latex] existieren und auf ganz [latex]U\times [a,b][/latex] stetig sind, dann ist [latex]F[/latex] stetig differenzierbar und es gilt
für alle [latex]x \in U[/latex] und [latex]k \in \left \lbrace {1,\ldots ,n} \right \rbrace[/latex].
Beweis
Man beachte zuerst, dass auf Grund der Stetigkeit von [latex]f[/latex] die Abbildung [latex]t \in [a,b] \mapsto f(x,t)[/latex] für jedes [latex]x \in U[/latex] stetig und somit Riemann-integrierbar ist (Satz 4.42).
Sei nun [latex]x_0 \in U[/latex] und [latex]\eta > 0[/latex], so dass [latex]K = \overline {B_\eta (x_0)} \subseteq U[/latex]. Nach dem Satz von Heine-Borel (Satz 9.70) ist [latex]K\times [a,b][/latex] kompakt und [latex]f|_{K\times [a,b]}[/latex] ist gleichmässig stetig nach Proposition 9.77. Sei also [latex]\varepsilon > 0[/latex]. Dann existiert ein [latex]\delta \in (0,\eta )[/latex], so dass für alle [latex]x \in B_\delta (x_0)[/latex] und [latex]t\in [a,b][/latex] die Abschätzung
gilt. Dies impliziert
für alle [latex]x \in B_{\delta }(x_0)[/latex] und beweist Stetigkeit von [latex]F[/latex] bei [latex]x_0[/latex].
Sei nun [latex]k \in \left \lbrace {1,\ldots ,n} \right \rbrace[/latex] und angenommen [latex]f[/latex] besitzt die stetige partielle Ableitung [latex]\partial _k f[/latex]. Seien [latex]x_0 \in U[/latex] und [latex]K = \overline {B_\eta (x_0)} \subseteq U[/latex] wie oben. Für [latex]s \in (-\eta ,\eta ) \setminus \left \lbrace {0} \right \rbrace[/latex] und [latex]t \in [a,b][/latex] existiert nach dem Mittelwertsatz (Satz 10.14) ein [latex]\xi _{t,s} \in (0,1)[/latex] mit
Wir wählen für ein [latex]\varepsilon > 0[/latex] mittels der gleichmässigen Stetigkeit von [latex]\partial _kf[/latex] auf [latex]K \times [a,b][/latex] ein [latex]\delta \in (0,\eta )[/latex], so dass [latex]x \in B_\delta (x_0)[/latex] die Abschätzung
impliziert. Gemeinsam ergibt sich nun für [latex]s \in (-\delta ,\delta ) \setminus \left \lbrace {0} \right \rbrace[/latex]
Da [latex]\varepsilon > 0[/latex] beliebig war, folgt
Nach dem ersten Teil des Satzes ist [latex]\partial _k F[/latex] stetig und da [latex]k \in \left \lbrace {1,\ldots ,n} \right \rbrace[/latex] beliebig war, folgt stetige Differenzierbarkeit von [latex]F[/latex] aus Satz 10.10. ∎
Beispiel 10.37: Umfang der Ellipse
Satz 10.36 erlaubt uns insbesondere, Funktionen zu analysieren, die nur mittels Integralen gegeben sind. Ein Beispiel einer solchen Funktion wollen wir hier finden, indem wir den Umfang der Ellipse berechnen. Seien [latex]a,b > 0[/latex] und (ohne Beschränkung der Allgemeinheit) [latex]a \geq b[/latex]. Die Ellipse mit Parametern [latex]a,b[/latex] ist dann gegeben durch die Lösungsmenge der Gleichung
Eine mögliche Parametrisierung der Ellipse ist somit [latex]\gamma :t \in [0,2\pi ] \mapsto (a\cos (t),b\sin (t))[/latex]. Der Umfang der Ellipse ist also (siehe Abschnitt 8.3.2)
wobei [latex]\varepsilon = \sqrt {1-\frac {b^2}{a^2}}[/latex] die Exzentrizität der Ellipse bezeichnet, welche gewissermassen die Abweichung der Ellipse von einem Kreis misst. Das Parameterintegral
nennt sich das vollständige elliptische Integral zweiter Art.
Korollar 10.38
Sei [latex]U \subseteq \mathbb {R}^n[/latex], seien [latex]a
stetig differenzierbar und für [latex]k \in \left \lbrace {1,\ldots ,n} \right \rbrace[/latex] gilt
für alle [latex]x \in U[/latex].
Beweis
Wir kombinieren Satz 10.36, den Fundamentalsatz der Integral- und Differentialrechnung (Theorem 8.2) und die mehrdimensionale Kettenregel in Satz 10.13. Dazu definieren wir die Hilfsfunktion
Wir zeigen zuerst, dass [latex]\phi[/latex] stetig ist. Sei also [latex](x_n,\alpha _n,\beta _n)\in U \times (a,b)^2[/latex] eine Folge, die gegen [latex](x,\alpha ,\beta )\in U \times (a,b)^2[/latex] konvergiert. Wir wählen ein [latex]\varepsilon >0[/latex] so dass [latex]\overline {B_\varepsilon (x)}\subseteq U[/latex] und definieren
Da sowohl [latex]\alpha =\lim _{n\to \infty }\alpha _n\in (a,b)[/latex] und [latex]\beta =\lim _{n\to \infty }\beta _n\in (a,b)[/latex] folgt [latex]c,d\in (a,b)[/latex]. (Wieso?) Damit ist [latex]K=\overline {B_\varepsilon (x)}\times [c,d]\subseteq U\times (a,b)^2[/latex] eine kompakte Teilmenge und
existiert. Für alle hinreichend grossen [latex]n[/latex] gilt dann aber [latex]x_n\in B_\varepsilon (x)[/latex] und es folgt
wobei wir die Dreiecksungleichung für das Integral (Satz 4.24(iii)) über die Teilintervalle zwischen [latex]\alpha _n[/latex] und [latex]\alpha[/latex] (beziehungsweise [latex]\beta _n[/latex] und [latex]\beta[/latex]) und die Schranke [latex]M[/latex] für die Funktionswerte von [latex]f[/latex] verwendet haben. Für [latex]n\to \infty[/latex] folgt nun aus Satz 10.36, dass dieser Ausdruck gegen [latex]0[/latex] strebt. Da die Folge [latex](x_n,\alpha _n,\beta _n)\in U \times (a,b)^2[/latex] eine beliebige Folge mit beliebigem Grenzwert [latex](x,\alpha ,\beta )\in U \times (a,b)^2[/latex] war, erhalten wir, dass [latex]\phi[/latex] stetig ist (Proposition 9.37).
Des Weiteren gilt nach Satz 10.36, dass die partiellen Ableitungen [latex]\partial _k \phi[/latex] für [latex]k \in \left \lbrace {1,\ldots ,n} \right \rbrace[/latex] existieren und durch
für alle [latex](x,\alpha ,\beta ) \in U \times (a,b)^2[/latex] gegeben sind. Nach obigem Argument ist [latex]\partial _k \phi[/latex] ebenso stetig. Nach Theorem 8.2 existieren auch die partiellen Ableitungen von [latex]\phi[/latex] nach [latex]\alpha[/latex] und [latex]\beta[/latex] und sind gegeben durch
für [latex](x,\alpha ,\beta ) \in U \times (a,b)^2[/latex]. Insbesondere sind [latex]\partial _\alpha \phi ,\partial _\beta \phi[/latex] wiederum stetig nach Annahme. Nach Satz 10.10 ist [latex]\phi[/latex] also (stetig) differenzierbar.
Wir bemerken nun, dass die Funktion [latex]F[/latex] im Korollar
erfüllt und ist somit gegeben als Verknüpfung der Funktion
mit der stetig differenzierbaren Funktion [latex]\phi[/latex]. Nach Annahme im Korollar ist auch [latex]\psi[/latex] stetig differenzierbar und hat die totale Ableitung
bei [latex]x \in U[/latex]. Wir können also die Kettenregel anwenden und erhalten, dass [latex]F[/latex] stetig differenzierbar ist und bei [latex]x \in U[/latex] und [latex]y = (x,\alpha (x),\beta (x))^t[/latex] gilt
beziehungsweise
für [latex]k \in \left \lbrace {1,\ldots ,n} \right \rbrace[/latex] wie gewünscht. ∎
10.5.1 – Die Bessel-Differentialgleichung*
Als Anwendung der obigen, allgemeinen Theorie zu Parameterintegralen möchten wir diese hier verwenden, um eine Differentialgleichung zu lösen. Für einen Parameter [latex]n\geq 0[/latex] heisst die Differentialgleichung
[latex]
\begin{aligned}[]\label{eq:mehrdiff-besseldiffglg} x^2 J_n''(x) +x J_n'(x) + (x^2-n^2)J_n(x) =0\end{aligned}
[/latex]
auf [latex](0,\infty )[/latex] die Bessel-Differentialgleichung. Diese ist linear, homogen von zweiter Ordnung und tritt in mehreren Anwendungen innerhalb und ausserhalb der Mathematik auf.
Aus dem Existenz- und Eindeutigkeitssatz von Picard-Lindelöf (welchen wir gegen Ende des Semesters beweisen werden) folgt, dass (10.13) gemeinsam mit zwei beliebigen Anfangswerten [latex]J_n(x_0) = a[/latex] und [latex]J_n'(x_0) = b[/latex] für [latex]x_0>0[/latex] und [latex]a,b\in \mathbb {R}[/latex] eine eindeutig bestimmte Lösung auf [latex](0,\infty )[/latex] besitzt. Wir wollen hier ein Fundamentalsystem der Lösungen beschreiben oder in anderen Worten zwei linear unabhängige Lösungen angeben, mit denen sich alle weiteren Lösungen als Linearkombinationen ausdrücken lassen. Hierfür nehmen wir [latex]n \in \mathbb {N}_0[/latex] an. Obwohl die Bedeutung dieser Annahmen in (10.13) unklar ist, werden die von uns betrachteten Lösungen diese Annahme benützen.
Das Parameterintegral
[latex]
\begin{aligned}[]\label{eq:mehrdiff-besselfct1} J_n(x) = \frac {1}{\pi }\int _0^{\pi } \cos (x\sin (t)-nt)\thinspace {\rm {d}} t\end{aligned}
[/latex]
wird Bessel-Funktion erster Gattung genannt und löst die Differentialgleichung (10.13), was wir mit Hilfe von Differentiation unter dem Integral (Satz 10.36) nachrechnen können. In der Tat gilt für beliebige [latex]t\in [0,\pi ][/latex]
und daher
und analog
Für den Ausdruck [latex]x^2J_n''(x) + (x^2-n^2) J_n(x)[/latex] erhalten wir daraus
auf Grund von partieller Integration und der Annahme [latex]n \in \mathbb {N}_0[/latex]. Daher erfüllt (10.14) die Differentialgleichung (10.13).
Die Bessel-Funktion zweiter Gattung ist durch das uneigentliche Integral
für [latex]x \in (0,\infty )[/latex] definiert. Wir möchten kurz annehmen, dass [latex]Y_n[/latex] die Differentialgleichung (10.13) ebenfalls löst. Dann kann man die gesuchte Lösung eines Anfangswertproblems zu (10.13) in Anwendungen oft bereits mit nur einem Anfangswert [latex]f(x_0) = a[/latex] bestimmen. Denn falls bekannt ist, dass [latex]f[/latex] auf dem Intervall [latex](0,x_0][/latex] beschränkt ist, so muss [latex]f[/latex] ein Vielfaches der Bessel-Funktion [latex]J_n[/latex] der ersten Gattung sein. In der Tat gilt
nach Satz 10.36 und
[latex]
\begin{aligned}[]\label{eq:besselzweiasymp} \lim _{x \searrow 0} Y_n(x) = -\infty .\end{aligned}
[/latex]
Dies schliesst unter den Annahme, dass die gesuchte Lösung auf [latex](0,x_0][/latex] beschränkt ist, die Funkion [latex]Y_n[/latex] oder auch Linearkombinationen [latex]\alpha J_n +\beta Y_n[/latex] mit [latex]\beta \neq 0[/latex] aus. Interessanterweise müssen wir aber [latex]Y_n[/latex] wie oben kennen, nur um dann zu sagen, dass die gesuchte Lösung doch ein Vielfaches von [latex]J_n[/latex] sein muss.
Übung 10.39: Bessel-Funktionen zweiter Gattung
Sei [latex]n \in \mathbb {N}_0[/latex].
- Zeigen Sie, dass die Bessel-Funktion [latex]Y_n[/latex] zweiter Gattung wohl-definiert ist und beweisen Sie die Asymptotik in (10.15).
- Nehmen Sie eine geeignete Verallgemeinerung der Differentiation unter dem Integral für das uneigentliche Integrale an und beweisen Sie damit, dass [latex]Y_n[/latex] eine Lösung der Bessel-Differentialgleichung (10.13) darstellt.
- Für den Beweis der geeigneten Verallgemeinerung der Differentiation unter dem Integral betrachte man die Funktionen
und
Zeigen Sie, dass
gilt und dass [latex]F[/latex] alle Voraussetzungen von Satz 10.36 erfüllt.
10.6 – Wegintegrale
10.6.1 – Skalare Wegintegrale
Sei [latex]U \subseteq \mathbb {R}^n[/latex] eine offene Teilmenge und [latex]\gamma :[a,b] \to U[/latex] ein stetig differenzierbarer Weg. Wie wir bereits in Abschnitt 8.3.2 gesehen haben, kann man die Länge von [latex]\gamma[/latex] durch
definieren und berechnen. In Lemma 8.32 haben wir auch gesehen, dass man den Weg oft so reparametrisieren kann, dass [latex]\| {\gamma '(s)}\| = 1[/latex] für alle [latex]s\in [a,b][/latex] gilt, womit [latex]s[/latex] bereits die Bedeutung der Bogenlänge entlang des Weges annimmt (was ist die Länge des Weges bis zu Zeitpunkt [latex]t[/latex], falls [latex]\| {\gamma '(s)}\| = 1[/latex] für alle [latex]s[/latex] gilt?).
Der obige Begriff der Länge eines Weges lässt sich auf eine etwas grössere Klasse erweitern.
Definition 10.40: Stückweise differenzierbare Wege und deren Längen
Ein (wie immer stetiger) Weg [latex]\gamma :[a,b] \to \mathbb {R}^n[/latex] heisst stückweise (stetig) differenzierbar, falls eine Zerlegung [latex]\mathfrak {Z} = \left \lbrace {a=s_0
Eine Zerlegung [latex]\mathfrak {Z}[/latex] wie oben werden wir eine für die stückweise differenzierbare Funktion erlaubte Zerlegung nennen.
Übung 10.41: Wohldefiniertheit der Länge stückweise differenzierbarer Wege
Obiger Begriff der Länge eines stückweise differenzierbaren Weges verwendet strenggenommen die gewählte Zerlegung und sollte formal korrekt durch [latex]L(\gamma ,\mathfrak {Z})[/latex] bezeichnet werden. Zeigen Sie, dass der Begriff der Länge eines stückweise differenzierbaren Weges nicht von der Wahl einer erlaubten Zerlegung abhängt, also [latex]L(\gamma ,\mathfrak {Z})=L(\gamma ,\mathfrak {Z}')[/latex] gilt, falls [latex]\mathfrak {Z}'[/latex] eine weitere erlaubte Zerlegung von [latex][a,b][/latex] ist.
Es gibt auch Situationen, wo das skalare Wegintegral einer stetigen reellwertigen Funktion [latex]f: U \to \mathbb {R}[/latex] entlang eines stetigen differenzierbaren Weges [latex]\gamma :[a,b] \to U[/latex]
von Bedeutung ist. Wie zuvor die Weglänge lässt sich dieser Begriff auf stückweise differenzierbare Wege erweitern.
Zum Beispiel könnte für [latex]f:U \to (0,\infty )[/latex] der Wert [latex]f(x)[/latex] das Inverse der erlaubten Höchstgeschwindigkeit im Punkt [latex]x \in U[/latex] angeben. In der Tat falls [latex]\mathfrak {Z} = \left \lbrace {a=s_0 als die Gesamtdauer der Reise entlang des Weges [latex]\gamma[/latex], wenn man immer mit erlaubter Höchstgeschwindigkeit (von [latex]f[/latex] angegeben) reist. Damit kann man nun die minimale Reisedauer (streng genommen als Infimum definierte, nicht unterschreitbare Reisedauer) als eine natürliche Metrik auf [latex]U[/latex] einführen, die von der gewählten inversen Höchstgeschwindigkeit (Dichte des Verkehrs) [latex]f[/latex] abhängt. Falls [latex]f[/latex] die Dichte eines Mediums beschreibt, so hat dies wiederum eine mögliche physikalische Interpretation wie in Beispiel 7.54. Sei [latex]U \subseteq \mathbb {R}^n[/latex] eine offene, zusammenhängende Teilmenge und sei [latex]f: U \to (0,\infty )[/latex] stetig. Definieren Sie in Analogie zu Übung 10.18 die Distanz [latex]\mathrm {d}(x,y)[/latex] zweier Punkte [latex]x,y\in U[/latex] durch Zeigen Sie, dass [latex]\mathrm {d}[/latex] in der Tat eine Metrik auf [latex]U[/latex] definiert und dass diese die Standardtopologie auf [latex]U[/latex] induziert.
Für viele weitere Anwendungen ist hingegen ein anderer Begriff des Wegintegrals von Bedeutung. Sei [latex]U \subseteq \mathbb {R}^n[/latex] eine offene Teilmenge und sei [latex]f:U \to \mathbb {R}^n[/latex] ein stetiges Vektorfeld. Wir definieren das Wegintegral des Vektorfelds [latex]f[/latex] entlang eines stetig differenzierbaren Weges [latex]\gamma :[a,b] \to U[/latex] durch Ist [latex]\gamma :[a,b] \to U[/latex] stückweise differenzierbar und [latex]\mathfrak {Z} = \left \lbrace {a=s_0
Eine von vielen physikalischen Interpretationen ist die Berechnung der Arbeit entlang eines Weges [latex]\gamma[/latex]. Angenommen [latex]f(x)[/latex] gibt die Richtung und die Stärke einer Krafteinwirkung auf einen Körper an der Stelle [latex]x \in U[/latex] an. Dann ist [latex]\left \langle {f(\gamma (s_k))}, {\gamma (s_k)-\gamma (s_{k-1})} \right \rangle[/latex] näherungsweise die verrichtete Arbeit auf einem Teilintervall [latex][s_{k-1},s_k][/latex] einer Zerlegung [latex]\mathfrak {Z} = \left \lbrace {a = s_0 8.3 führen dann zur Interpretation von [latex]\int _\gamma f \cdot \thinspace {\rm {d}} {s}[/latex] als die geleistete Arbeit für die Reise entlang des Weges [latex]\gamma[/latex] von [latex]\gamma (a)[/latex] nach [latex]\gamma (b)[/latex]. Diese Gesamtarbeit hängt im Allgemeinen vom gewählten Weg und nicht nur vom Anfangsort [latex]\gamma (a)[/latex] und vom Zielort [latex]\gamma (b)[/latex] ab (siehe Beispiel 10.45 unten). Die geleistete Arbeit hängt aber nicht von der gewählten Parametrisierung des Weges ab (vergleiche Lemma 8.32). Sei [latex]U \subseteq \mathbb {R}^n[/latex] eine offene Teilmenge, [latex]f: U \to \mathbb {R}^n[/latex] ein stetiges Vektorfeld und sei [latex]\gamma : [a,b] \to \mathbb {R}^d[/latex] ein stetig differenzierbarer Weg für [latex]a
Weiter gilt für den umgekehrten Weg [latex]\tilde {\gamma }:t \in [-b,-a] \mapsto \gamma (-t)[/latex] mit [latex]\tilde {\gamma }(-b) = \gamma (b)[/latex] und [latex]\tilde {\gamma }(-a) = \gamma (a)[/latex] Sei [latex][\tilde {a},\tilde {b}][/latex] ein kompaktes Intervall mit Endpunkten [latex]\tilde {a}
Die zweite Aussage folgt mit selbiger Rechnung und der Funktion [latex]\psi :[-b,-a] \to [a,b], t \mapsto -t[/latex] mit [latex]\psi '(t) = -1[/latex] für alle [latex]t \in [-b,-a][/latex]. Überprüfen Sie dies. ∎ Wir betrachten das Vektorfeld [latex]f: \mathbb {R}^2 \to \mathbb {R}^2[/latex] definiert durch für [latex](x,y)^t \in \mathbb {R}^2[/latex] und betrachten im Folgenden mehrere Wege [latex]\gamma[/latex] von [latex](0,0)^t[/latex] nach [latex](1,1)^t[/latex] und berechnen das Wegintegral [latex]\int _\gamma f \cdot \thinspace {\rm {d}} {s}[/latex]. für [latex]t \in [0,2][/latex], was einen stückweise differenzierbaren Weg von [latex](0,0)^t[/latex] nach [latex](1,1)^t[/latex] definiert. Es gilt für [latex]t \in [0,2][/latex], was wiederum einen stückweise differenzierbaren Weg von [latex](0,0)^t[/latex] nach [latex](1,1)^t[/latex] definiert. Damit erhalten wir Wir sehen also, dass für den «Wirbelsturm» die geleistete Arbeit [latex]\int _\gamma f \cdot \thinspace {\rm {d}} {s}[/latex] vom gewählten Weg [latex]\gamma[/latex] abhängt. Bewegt man sich «senkrecht» zum Vektorfeld, so wird gar keine Arbeit geleistet (siehe [latex]\gamma _0[/latex]); bewegt man sich mit dem Vektorfeld, so wird positive Arbeit geleistet (siehe [latex]\gamma _1[/latex]), und bewegt man sich «entgegen dem Vektorfeld» , so wird negative Arbeit geleistet (siehe [latex]\gamma _{-1}[/latex]).
Sei [latex]U \subseteq \mathbb {R}^n[/latex] ein Gebiet und [latex]f: U \to \mathbb {R}^n[/latex] ein stetiges Vektorfeld. Dann heisst [latex]f[/latex] konservativ, falls Wegintegrale des Vektorfelds [latex]f[/latex] nur von Anfangs- und Endpunkt abhängen. Genauer formuliert, falls für alle stückweise stetig differenzierbaren Wege [latex]\gamma :[a,b] \to U[/latex] und [latex]\eta :[a',b'] \to U[/latex] mit [latex]\gamma (a) = \eta (a')[/latex] und [latex]\gamma (b) = \eta (b')[/latex] gilt Zeigen Sie, dass je zwei Punkte in einem Gebiet durch einen stückweise stetig differenzierbaren Weg miteinander verbunden werden können (siehe auch Übung 10.18).
Eine Schlaufe in einer offenen Teilmenge [latex]U \subseteq \mathbb {R}^n[/latex] ist ein Weg mit gleichem Anfangs- und Endpunkt (das heisst, ein Weg [latex]\gamma :[a,b] \to U[/latex] mit [latex]\gamma (a) = \gamma (b)[/latex]). Ob ein Vektorfeld konservativ ist oder nicht, lässt sich auch mit Schlaufen charakterisieren. Zeigen Sie, dass ein stetiges Vektorfeld [latex]f: U \to \mathbb {R}^n[/latex] auf einem Gebiet [latex]U \subseteq \mathbb {R}^n[/latex] genau dann konservativ ist, wenn für jede stückweise stetig differenzierbare Schlaufe [latex]\gamma[/latex] in [latex]U[/latex] gilt [latex]\int _\gamma f \cdot \thinspace {\rm {d}} {s} = 0[/latex].
Sei [latex]U \subseteq \mathbb {R}^n[/latex] ein Gebiet und [latex]f: U \to \mathbb {R}^n[/latex] ein stetiges Vektorfeld. Dann ist [latex]f[/latex] genau dann konservativ, wenn es eine stetig differenzierbare Funktion [latex]F: U \to \mathbb {R}[/latex] mit [latex]f(x) = \nabla F (x)[/latex] für alle [latex]x \in U[/latex] gibt. Des Weiteren gelten für ein stetig differenzierbares konservatives Vektorfeld [latex]f[/latex] und deren Komponenten [latex]f_1,\ldots ,f_n[/latex] die (partiellen) Differentialgleichungen für alle [latex]j,k \in \left \lbrace {1,\ldots ,n} \right \rbrace[/latex].
Die differenzierbare Funktion [latex]F[/latex] in obigem Satz übernimmt die Rolle der Stammfunktion im Fundamentalsatz der Integral- und Differentialrechnung und wird auch das zum Vektorfeld [latex]f[/latex] assoziierte Potential (Potentialfunktion) genannt. Diese Funktion existiert aber nicht für alle, sondern nur für gewisse (eben konservative) Vektorfelder. Zeigen Sie direkt und nochmals unter Verwendung von Satz 10.49), dass das Vektorfeld aus Beispiel 10.45 kein Potential besitzt.
Angenommen es gibt eine differenzierbare Funktion [latex]F: U \to \mathbb {R}[/latex] mit [latex]f(x) = \nabla F (x)[/latex] für alle [latex]x \in U[/latex]. Sei [latex]\gamma :[a,b] \to U[/latex] ein stetig differenzierbarer Weg. Dann ist für [latex]t \in [a,b][/latex] also [latex]f(\gamma (t)) = \nabla F(\gamma (t)) = (\thinspace {\rm {D}}_{\gamma (t)}F)^t[/latex] und somit nach der Kettenregel Falls [latex]\gamma[/latex] bloss stückweise stetig differenzierbar ist und und [latex]\mathfrak {Z} = \left \lbrace {a=s_0
Daher ist [latex]f[/latex] konservativ. Sei nun [latex]f[/latex] konservativ und [latex]x_0 \in U[/latex] ein fester Punkt. Da [latex]U[/latex] zusammenhängend ist, gibt es nach Übung 10.47 zu jedem [latex]x \in U[/latex] einen stückweise stetig differenzierbaren Weg [latex]\gamma _x[/latex] in [latex]U[/latex] mit Anfangspunkt [latex]x_0[/latex] und Endpunkt [latex]x[/latex]. Wir betrachten die Funktion welche nicht vom gewählten Weg [latex]\gamma _x[/latex] abhängt, da [latex]f[/latex] konservativ ist. Sei nun [latex]x \in U[/latex], [latex]k \in \left \lbrace {1,\ldots ,n} \right \rbrace[/latex] und [latex]h \in \mathbb {R} \setminus \left \lbrace {0} \right \rbrace[/latex] klein genug, so dass [latex]x+the_k \in U[/latex] für alle [latex]t \in [0,1][/latex]. Wir können dann mit Hilfe eines Weges [latex]\gamma _x:[a,b]\to U[/latex] von [latex]x_0[/latex] nach [latex]x[/latex] einen Weg [latex]\gamma _{x+he_k}[/latex] von [latex]x_0[/latex] nach [latex]x+he_k[/latex] durch definieren. Für die partielle Ableitung [latex]\partial _k F[/latex] von [latex]F[/latex] ergibt sich dadurch auf Grund von Satz 10.36 und der Stetigkeit von [latex]f_k[/latex]. Da dies für alle [latex]x \in U[/latex] und [latex]k \in \left \lbrace {1,\ldots ,n} \right \rbrace[/latex] gilt und [latex]f_1,\ldots ,f_n[/latex] per Annahme stetig sind, folgt aus Satz 10.10, dass die totale Ableitung von [latex]F[/latex] überall existiert und [latex]\nabla F(x) = f(x)[/latex] für alle [latex]x \in U[/latex] gilt. Sei nun [latex]f[/latex] konservativ und stetig differenzierbar. Dann existiert nach obigem eine Funktion [latex]F[/latex] mit [latex]\nabla F = f[/latex]. Für [latex]j,k \in \left \lbrace {1,\ldots ,n} \right \rbrace[/latex] gilt dann nach dem Satz von Schwarz (Satz 10.20). ∎ Wie wir in Satz 10.49 gezeigt haben, stellen die partiellen Differentialgleichungen Wir haben bereits einige Male zuvor gesehen, dass Eigenschaften von Funktionen auf verschiedenen Definitionsgebieten unterschiedlich zusammenhängen, und Konservativität und die Integrabilitätsbedingungen bilden ein weiteres Beispiel dafür: Für gewisse Gebiete reicht es tatsächlich, die Integrabilitätsbedingungen zu überprüfen, um entscheiden zu können, ob ein Potential existiert oder nicht; allerdings nicht für alle Gebiete, wie folgendes Beispiel zeigt. Wir betrachten [latex]n=2[/latex], das Gebiet [latex]U = \mathbb {R}^2 \setminus \left \lbrace {0} \right \rbrace[/latex] und das Vektorfeld [latex]f: U \to \mathbb {R}^2[/latex] gegeben durch für [latex](x,y)^t \in U[/latex]. In diesem Fall ist und womit die Integrabilitätsbedingungen in (10.16) auf ganz [latex]U[/latex] erfüllt sind. Dennoch ist [latex]f[/latex] nicht konservativ. Sei [latex]\gamma :[0,2\pi ] \to U[/latex] die stetig differenzierbare Schlaufe (der geschlossene Weg) definiert durch für [latex]t \in [0,2\pi ][/latex], die einmal im Gegenuhrzeigersinn um den Einheitskreis läuft. Dann ist obwohl [latex]\gamma[/latex] ein geschlossener Weg ist mit [latex]\gamma (0) = \gamma (2\pi ) = (1,0)^t[/latex].
In der Tat misst das Wegintegral in obigen Beispiel die Änderung des Winkels beim Ursprung, doch lässt sich der Winkel als Potential nicht stetig auf ganz [latex]\mathbb {R}^2\setminus \{ 0\}[/latex] definieren (was mit der Nicht-Existenz eines Logarithmus auf der komplexen Ebene äquivalent ist). Wie wir jetzt aber zeigen werden, sind für gewisse Gebiete die Integrabilitätsbedingungen dennoch hinreichend. Sei [latex]U \subseteq \mathbb {R}^n[/latex] offen und sternförmig. Ein stetig differenzierbares Vektorfeld [latex]f: U \to \mathbb {R}^n[/latex] ist genau dann konservativ, wenn [latex]f[/latex] den Integrabilitätsbedingungen für alle [latex]j,k \in \left \lbrace {1,\ldots ,n} \right \rbrace[/latex] genügt.
Die Notwendigkeit der Integrabilitätsbedingungen wurde bereits in Satz 10.49 bewiesen. Für die Umkehrung verwenden wir ein Zentrum [latex]z \in U[/latex] und das Wegintegral von [latex]f[/latex] über die gerade Strecke von [latex]z[/latex] nach [latex]x \in U[/latex], um eine Funktion [latex]F:U \to \mathbb {R}[/latex] durch für [latex]x \in U[/latex] zu definieren. Entsprechend dem Beweis von Satz 10.49 stellt [latex]F[/latex] gerade einen Kandidaten für ein Potential von [latex]f[/latex] dar. Wir fixieren ein [latex]j \in \left \lbrace {1,\ldots ,n} \right \rbrace[/latex] und betrachten als Vorbereitung zur Berechnung von [latex]\partial _j F[/latex] zuerst für [latex]h \in \mathbb {R}^n[/latex] Für [latex]t=0[/latex] hängt [latex]\psi _0=f_k(z)[/latex] ja nicht von [latex]x[/latex] ab, womit die partielle Ableitung [latex]\partial _j\psi _0[/latex] verschwindet. Wir setzen nun [latex]h = x-z[/latex], verwenden (10.17) in (10.18) und erhalten mit partieller Integration Daher ist [latex]f = \nabla F[/latex], [latex]F[/latex] ist stetig differenzierbar nach Satz 10.10 und der Satz folgt aus der Charakterisierung der Konservativität in Satz 10.49. ∎ Für welchen Wert von [latex]\lambda \in \mathbb {R}[/latex] ist das Vektorfeld [latex]f\colon \mathbb {R}^2\to \mathbb {R}^2[/latex] definiert durch für [latex](x,y)^t\in \mathbb {R}^2[/latex] konservativ? Bestimmen Sie für diesen Wert ein Potential von [latex]f[/latex].
Welche verschiedenen Werte für das Wegintegral (dargestellt unten rechts) können Sie erzielen wenn Sie geschlossene Wege betrachten? Warum ändert sich der Wert des Wegintegral meist nicht aber manchmal schon wenn Sie die mittleren drei Punkte bewegen? Das Vektorfeld wurde als Summe eines konservativen Vektorfeldes und des Wirbelsturms mit Singularität aus Beispiel 10.51 definiert. Dieses Kapitel stellt die Grundlagen für die restlichen Themen des Semesters zur Verfügung. In der Tat ist der Begriff der totalen Ableitung für alle weiteren Diskussionen wie zum Beispiel rund um Teilmannigfaltigkeiten im nächsten Kapitel oder auch der mehrdimensionalen Substitutionsregel von fundamentaler Bedeutung. Für die mehrdimensionalen Integralsätze werden wir allerdings noch weitere Ableitungsbegriffe kennenlernen, die allerdings ohne ein gutes Verständnis der Ableitung im Sinne von Definition 10.3 schwer verständlich sein werden. Der Begriff der partiellen Ableitung ist für die Theorie aber vor allem für alle praktischen Berechnungen unabdingbar und stellt einen direkten Zusammenhang zu allen Sätzen und Regeln der eindimensionalen Differentialrechnung her. Des Weiteren sind Wegintegrale für die Anwendungen (zum Beispiel in der Physik) aber auch für den weiteren Aufbau der mehrdimensionalen Analysis notwendig. Dies haben wir bereits bei der Besprechung der konservativen Vektorfelder gesehen. Die Sätze rund um diesen Begriff zeigen ebenso, dass die mehrdimensionale Analysis deutlich komplexer als die eindimensionale Analysis ist: Im Fundamentalsatz der Differential- und Integralrechnung haben wir gesehen, dass in der eindimensionalen Analysis jede stetige Funktion auf einem Intervall als Ableitung einer Funktion (Stammfunktion) auftritt. Doch ein Vektorfeld auf einer offenen Teilmengen in [latex]\mathbb {R}^n[/latex] ist nicht immer eine Ableitung einer Potentialfunktion. Selbst die notwendigen Integrabilitätsbedingungen (welche sich aus dem Satz von Schwarz ergeben) stellen keine Charakterisierung der Konservativität dar, da die Gestalt des Definitionsbereiches einen weiteren Einfluss auf den Begriff hat. Wir werden diesen Problemen etwas allgemeiner im Zusammenhang der mehrdimensionalen Integralsätze nochmals begegnen. Das Berechnen von höheren Ableitungen von reellwertigen Funktionen auf offenen Teilmengen von [latex]\mathbb {R}^n[/latex] ist zwar prinzipiell nicht schwierig, ist aber ab der dritten Ableitung kaum mehr praktisch. In der Tat hat bereits die dritte totale Ableitung [latex]\binom {n}3+n(n-1)+n[/latex] verschiedene Komponenten (da manche der [latex]n^3[/latex] iterierten partiellen Ableitungen nach dem Satz von Schwarz übereinstimmen). Für [latex]n=3[/latex] sind dies [latex]1+6+3=10[/latex] und für [latex]n=4[/latex] bereits [latex]4+12+4=18[/latex] Komponenten. Aus diesem Grund beschränkt man sich meist auf die erste und zweite Ableitung, welche durch den Gradienten und die Hesse-Matrix gegeben sind. Sollte die Berechnung einer höheren Taylor-Approximation gewünscht sein, so ist es einfacher diese mittels der Definition der gegebenen Funktion aus eindimensionalen Taylor-Approximationen zu berechnen. Die Hesse-Matrix und die Begriffe der positiv und negativ definiten Matrizen sind hingegen sehr nützlich, da wir diese zur Bestimmung von lokalen Extremwerten benötigen. Sei [latex]I[/latex] ein Intervall und [latex]f:I \to \mathbb {R}[/latex] eine Funktion. Zeigen Sie, dass [latex]f[/latex] genau dann konvex ist, wenn die Teilmenge der Punkte in der Ebene oberhalb des Graphen von [latex]f[/latex] konvex ist.
Sei [latex]f : \mathbb {R}^{2} \rightarrow \mathbb {R}[/latex] definiert durch In dieser Übung möchten wir eine zweimal differenzierbare Funktion [latex]f: \mathbb {R}^2 \rightarrow \mathbb {R}[/latex] konstruieren, deren partielle Ableitungen [latex]\partial _1\partial _2 f[/latex], [latex]\partial _2\partial _1 f[/latex] beim Punkt [latex](0,0)[/latex] nicht stetig sind und dort verschiedene Werte haben. Dies zeigt, dass die Annahme der zweifachen stetigen Differenzierbarkeit im Satz von Schwarz (Satz 10.20) notwendig war. Sei [latex]f: \mathbb {R}^2 \rightarrow \mathbb {R}[/latex] definiert für alle für [latex](x,y)^t \in \mathbb {R}^2[/latex] durch Zeigen Sie, dass das vollständige elliptische Integral zweiter Art (siehe Beispiel 10.37) der Differentialgleichung genügt.
Sei [latex]U \subseteq \mathbb {R}^n[/latex] eine offene, zusammenhängende Teilmenge und sei [latex]f: U \to \mathbb {R}[/latex] stetig. Sei [latex]\gamma :[a,b] \to U[/latex] ein stetig differenzierbarer Weg. Zeigen Sie, dass der Wert gleich bleibt unter Reparametrisierungen des Weges [latex]\gamma[/latex].
Sei [latex]\gamma :[a,b] \to \mathbb {R}^n[/latex] ein stückweise differenzierbarer Weg. Zeigen Sie, dass eine Reparametrisierung von [latex]\gamma[/latex] existiert, die stetig differenzierbar ist. Um auf differenzierbare Weise um eine «Ecke» zu gehen, muss man vor der Ecke abbremsen und nach der Ecke wieder beschleunigen. Sei [latex]U \subseteq \mathbb {R}^n[/latex] ein Gebiet und [latex]f:U \to \mathbb {R}^n[/latex] ein konservatives Vektorfeld. Zeigen Sie, dass Potentiale von [latex]f[/latex] sich um Konstanten unterscheiden.
Sie können wiederum die Lernkarten für Ihre Wiederholung der Themen des Kapitels verwenden.Übung 10.42: Metrik über gewichtete Längen von Wegen
10.6.2 – Wegintegrale von Vektorfeldern
Definition 10.43: Wegintegral eines Vektorfelds
Lemma 10.44: Reparametrisierungen und Richtungsumkehr eines Weges
Beweis
Beispiel 10.45: Wirbelsturm mit Auge
10.7 – Konservative Vektorfelder
Definition 10.46
Wichtige Übung 10.47: Verbindbarkeit
Übung 10.48: Schlaufencharakterisierung
Satz 10.49: Stammfunktion
Übung 10.50: Wirbelsturm hat kein Potential
Beweis
10.7.1 – Integrabilitätsbedingungen
[latex]
\begin{aligned}[]\label{eq:mehrdiff-intbed} \partial _k f_j = \partial _j f_k\end{aligned}
[/latex]
für [latex]j,k \in \left \lbrace {1,\ldots ,n} \right \rbrace[/latex] zu einem stetig differenzierbaren Vektorfeld [latex]f[/latex] auf einem Gebiet eine notwendige Bedingung für die Existenz eines Potentials zu [latex]f[/latex] dar. Wir nennen diese die Integrabilitätsbedingungen und wollen hier diskutieren, inwiefern sie auch hinreichend sind.Beispiel 10.51: Wirbelsturm mit Singularität
Satz 10.52: Integrabilitätsbedingungen auf sternförmigen Gebieten
Beweis
[latex]
\begin{aligned}[]\label{eq:mehrdiff-intbedbew1} \partial _h f_j = \sum _{k=1}^n h_k \partial _kf_j = \sum _{k=1}^n h_k \partial _jf_k\end{aligned}
[/latex]
nach den vorausgesetzten Integrabilitätsbedingungen. Nach Satz 10.36 über Differenzierbarkeit von Parameterintegralen existiert für [latex]j\in \{ 1,\ldots ,n\}[/latex] die partielle Ableitung [latex]\partial _j F[/latex] der Funktion [latex]F[/latex], die gleichzeitig als Weg- und als Parameterintegral definiert ist. Des Weiteren gilt für [latex]x \in U[/latex]
[latex]
\begin{aligned}[]\partial _j F(x) &= \partial _{x_j} \int _0^1 \left ( \sum _{k=1}^n f_k\Big (z+t(x-z)\Big ) (x_k-z_k) \right ) \thinspace {\rm {d}} t\nonumber \\ &= \int _0^1 \left ( \sum _{k=1}^n (\partial _jf_k)\Big (z+t(x-z)\Big )t (x_k-z_k) +f_j\Big (z+t(x-z)\Big ) \right ) \thinspace {\rm {d}} t,\label{eq:integbedkompliziert}\end{aligned}
[/latex]
da einzig der Term mit [latex]k=j[/latex] die Produktregel erfordert und da die partielle Ableitung von [latex]x \in U \mapsto f_k\big (z+t(x-z)\big )[/latex] nach [latex]x_j[/latex] durch [latex]t(\partial _jf_k)\big (z+t(x-z)\big )[/latex] für [latex]x \in U[/latex] gegeben ist. Letzteres folgt aus der mehrdimensionalen Kettenregel oder wie folgt: wir definieren für [latex]t \geq 0[/latex] die Funktion [latex]x \mapsto \psi _t(x)=f_k\big (z+t(x-z)\big )[/latex] und betrachten die partielle Ableitung [latex]\partial _j\psi _t(x)[/latex]. Für [latex]t > 0[/latex] berechnet man direkt Übung 10.53
Applet 10.54: Integrabilitätsbedingungen
Hinweis.
10.8 – Weitere Lernmaterialien
10.8.1 – Verwendung des Kapitels
10.8.2 – Übungen
Übung: Konvexität für Funktionen und Teilmengen
Übung
Übung: Notwendigkeit der Annahmen im Satz von Schwarz
Übung
Übung: Unabhängigkeit von Parametrisierung
Übung: Differenzierbare Reparametrisierungen
Hinweis.
Übung: Eindeutigkeit des Potentials
10.8.3 – Lernkarten