Google Gemini: KI mit Riesenhirn • Stefan Golling Konzepte

Im Rennen um KI-Fortschritte (und letztlich KI-Marktanteile) ist Google Gemini ein interessantes Angebot, vor allem wenn man die Abo-Version „Advanced“ nutzt. Allerdings ist der Datenschutz eher, sagen wir mal, eigenwillig, wodurch ich das System nicht für den geschäftlichen Einsatz empfehlen würde.

Inhalt

Was ist Gemini?
Was ist Gemini Advanced?
- Lohnt sich Gemini Advanced?
Google Gemini kann Search, vgl. SearchGPT
Was kann Gemini noch?
Gemini / Imagen Bild-Beispiel
Gemini-Beispiel
Pferdefuß: Haarige Datenspeicherung
Datenschutz: Mannmannmann
Vergleich: Gemini vs. ChatGPT vs. Copilot
Fazit

Was ist Gemini?

Google Gemini¹ ist das KI-Angebot von Google – also ein Chatbot. Zur Nutzung braucht man zwingend ein Google-Konto, immerhin ist die Normal-Variante kostenfrei. Android-Nutzer kennen Gemini vor allem als KI-Assistenten vom Smartphone, also als App, während es für Business-User eher eine Alternative zum Microsoft Copilot ist.

Du nutzt den Browser Chrome? Dann kannst du in der Adresszeile direkt einen Chat mit Gemini starten. Gebe zum chatten mit Gemini einfach „@gemini“ plus deinen Prompt ein und drücke auf Enter. Klappt natürlich nur, wenn du in Chrome mit deinem Google-Account eingeloggt bist.

Als Sprachmodell (LLM) wird das hauseigene Gemini 1.5 Pro benutzt. Es „spricht“ sehr gut Deutsch. Google nutzt schon lange KI, u.a. Bard. KI spielt auch bei der Google Suche, bei Google Ads oder YouTube eine Rolle, allerdings mehr unter der Haube und für den Anwender bzw. Werbetreibenden kaum sichtbar.

Was ist Gemini Advanced?

Gemini Advanced ist die „Profi“-Variante von Google Gemini. Um es zu nutzen, musst du das „Google One AI Premium Abo“ abschließen, das € 21,99 im Monat kostet. Nur dann ist Gemini auch für Gmail, Docs etc. inklusive – und im Ideallfall hat man noch ein Abo von Google Workspace, damit man Gemini (im Team) voll nutzen kann. Bei Google Docs ist man nicht auf Gemini angewiesen, es gibt massenweise KI-Add-ons (= Plug-ins) von Fremdanbietern.

Lohnt sich Gemini Advanced?

Gemini Advanced bietet ein Kontextfenster von 1 Million Token (teils bis 2 Mio. Token), während in der Free-Version immerhin noch 128.000 Token drin sind – wie bei GPT-4 Turbo von Open AI. In die Nähe kommte der Enterprise-Plan von Claude (Anthropic) mit 500.000 Token.
Vor allem aber ist Advanced voll in die Google-Suite integriert, also Mail und Docs – und das ist spannend. Außerdem muss man mindestens die Advanced-Version abonnieren, um „Gems“ nutzen zu können. „Gem“, also auf Deutsch Juwel, angelehnt das Sternchen im Gemini-Logo, sind die GPTs von Gemini. Wie mit den GPTs von ChatGPT oder mit den HuggingChat Assistants, oder wie mit den meisten KI-Tools, kannst du vorgepromptete Assistenten bauen. Bei den Gems gibt es on Top noch Helferlein, um diese Prompts in strukturierter Form zu generieren. Das kennt man unter anderem auch von Anthropic. Allerdings gilt die Warnung: Lange Prompts verbessern nicht unbedingt die Endergebnisse, denn sie fressen Tokens und damit „Arbeitsspeicher“.

Gemini Advanced hat dann wieder Imagen mit drin, die skandalumwitterte KI-Bildergenerierung von Google, mit Menschengenerierung. Ich würde sie nicht nutzen, da es qualitativ hochwertigere und rechtssichere Alternativen gibt, oder auch Copyrights-sind-mir-Wurscht-Angebote mit deulich kreativeren Ergebnissen (Midjourney, Flux etc.).

Zurück zu den Tokens: Die 1-2 Mio. Token sind absolut superkrass. Die Tokenmenge kann man vergleichen mit dem Kurzzeitgedächtnis: Alles, was man reinfüttert, kann sich die KI aktiv merken – und damit arbeiten. Bei anderen KIs kennt man aufgrund kurzer Kontextfenster Probleme bei längeren Chats: Die KI weiß nicht mehr, was am Anfang war und verhaspelt sich bzw. bekommt Halluzinationen.

Laut Google² entsprechen die 1 Mio. Tokens 1 Stunden Video bzw. 700.000 Wörter Text. Google braucht das evtl. selbst, um bspw. bessere YouTube-Untertitel / Video-Zusammenfassungen zu erzeugen. Du kannst es verwenden, um komplexe Tasks zu bearbeiten.

Stelle dir einen Chatbot vor, den du mit der gesamten Bedienungsanleitung eines Autos fütterst. Da alle Inhalte im Kontextfenster Platz haben, kann die KI alle Fragen beantworten. Und jetzt stelle dir das in Kombination mit Spracherkennung vor. Und dann siehst du, wo die Reise hingeht. Im Prinzip kann man sich dann teilweise RAG oder das Finetuning von Sprachmodellen sparen. Für RAG, also vereinfacht gesagt „chatten mit meinen Dokumenten“ kannst du mit Kotaemon rumspielen. Einfach out-of-the-box nutzbar ist das allerdings nicht, da du zuallererst einen API-Key einer KI brauchst. EInfacher klappt das mit Notebook LM von Google, Acrobat PDF (allerdings nur für das Dokument, das du offen hast), oder mit den „Projects“ in Claude.

Google Gemini kann Search, vgl. SearchGPT

SearchGPT ist als „Suchmaschine“ von ChatGPT gedacht, um Google Konkurrenz zu machen.

Hat Google sowas auch? Ja klar, die wollen sich ja nicht das Geschäft kaputt machen lassen.

Google Gemini hat eine Funktion, die wie SearchGPT funktioniert, also eine Mischung aus Suchmaschine und KI. Das funktioniert sogar ganz gut, man muss es nur gut prompten.

Gemini kann nämlich im Internet suchen, hat aber nicht immer Lust drauf. Deshalb muss man Quellenangaben anfordern, und gebenenfalls einen „Self Refine“ Durchgang einstellen.

Beispiel:

Die Gemini KI soll mir eine Liste von 5 Hugging Face Spaces erstellen, die mit KI-Videos zu tun haben. Das ist eine gute Aufgabe. Die Google-Suche würde hier auch funktionieren, ist aber unübersichtlicher.
Damit es funktioniert, bestelle ich bei der KI: Bitte liefere Bild und URL mit. Dadurch bekommt man gleich einen Eindruck.
Nich bestellt, aber super: Eine kurze Zusammenfassung, um was es in dem Space geht. Das ist ein 1a Feature, denn viele Spaces sind absolut rätselhaft.

Was kann Gemini noch?

Gemini gibt stets 3 Antwortmöglichkeiten zur Auswahl. Das ist ganz angenehm.
KI-Chatbot-Jobs: Wie man es so kennt. In der Regel werden am Ende von Antworten „Hilfreiche Ressourcen“ angegeben, also Links mit Quellen – du kennst das von Copilot. Außerdem kann Gemini googlen. Wenn man sich eine Liste von z.B. Dienstleistern erstellen lassen will, klappt das hervorragend – echte Namen, echte Handynummern etc. Gemini sagt zwar „Die Handynummern wurden aus Datenschutzgründen anonymisiert“ – das stimmt aber nicht (immer). In meinem Test waren die Handynummern einmal gut, danach nicht mehr.
Die Antwortlänge ist übrigens übel kurz: Sich mal eben eine Präsentation mit 20 Charts basteln lassen klappt nicht, da kann schon mal nach 6 Charts Schluss sein.
Bilder verstehen: Du kannst Bilder / Grafiken / Charts hochladen und dann einen Prompt formulieren, also ein aufgebohrtes Google Lens. Dazu gibt’s gleich ein Beispiel. Bilder generieren geht, mit dem eingebauten „Imagen“ von Google! Bilder googlen (u.a. von Freepik) & und in Ergebnisse einbauen geht aber. Eine KI zum Bilder generieren hat Google (Imagen) natürlich (bisher aufgefallen durch schlechte Ergebnisse), und in Workspace ist das Tool nutzbar.
Du kannst auch das Mikro anmachen: Gemini versteht Audio – oder kann dir nervtötend lange Podcastes zusammenfassen.

Gemini / Imagen Bild-Beispiel

Ein Basis-Prompt ist bei Gemini ist die Aufgabe, ein Mocktail-Rezept zu erzeugen. Mit Spezi. Und mit Bild. Das generierte Rezept basiert auf Spezi, O-Saft, Grenadine, Limittensaft und Minzstängel – und es ist Quatsch, denn man soll zuerst Spezi ins Glas geben und am Ende den Zucker. Die eigentliche Frage ist jedoch: Passt das Bild? Nein. Spezi plus O-Saft plus Grenadine müsste ein dunkelbraunes Getränk ergeben. Das Bild zeigt das nicht. Ein „Reasoning“ hat nicht stattgefunden. Die Deko im generierten Rezept stimmen aber.

Rezept

Zutaten

200 ml Spezi

50 ml frisch gepresster Orangensaft

15 ml Grenadine

15 ml Limettensaft

1 Teelöffel Zucker

Eiswürfel

Orange-Scheibe zur Dekoration

Minze-Stängel zur Dekoration

Zubereitung:

Füllen Sie ein hohes Glas mit Eiswürfeln.
Gießen Sie das Spezi, den Orangensaft, die Grenadine und den Limettensaft in das Glas.
Rühren Sie die Zutaten vorsichtig um, bis sie gut vermischt sind.
Fügen Sie den Zucker hinzu und rühren Sie erneut um, bis er sich vollständig aufgelöst hat.
Garnieren Sie das Getränk mit einer Orange-Scheibe und einem Minze-Stängel.

Tipp:

Sie können auch andere Früchte wie Erdbeeren oder Himbeeren verwenden, um das Mocktail zu verfeinern.

Genießen Sie Ihren Spezi-Mocktail!

Gemini-Beispiel

Ich habe bei Gemini folgendes Chart von mir hochgeladen (zum Thema KI-Beratung). Der Prompt: „Erstelle aus dem Bild eine Tabelle“. Der Task ist also klar:

OCR: Text aus der Grafik extrahieren und verschriftlichen
Verständnis: Verstehen, dass es sich im einen mehrstufigen Prozess handelt
Ausgabe: Erstellung einer Tabelle

Ergebnis: Gemini erstellt daraus diese Tabelle (Vorschlag 3)

Auffälligkeiten:
OCR klappt 100 % perfekt
Zusätzlich wurde overperformt: Die Phasen des Charts wurden um eine Beschreibung ergänzt. Die Inhalte sind korrekt, strenggenommen aber redundantes Bla-Bla.

Tabelle: KI-Beratung auf die Reihenfolge achten

Phase	Beschreibung
User Stories entwickeln (interne Nutzer, externe Kunden)	In dieser Phase werden die Anforderungen der Nutzer an die KI-Lösung ermittelt. Dazu werden User Stories erstellt, die die gewünschten Funktionen und Abläufe beschreiben.
KI-Tools auswählen (Fertiglösungen, Baukastensysteme)	In dieser Phase werden die verfügbaren KI-Tools auf ihre Eignung für die Umsetzung der User Stories bewertet. Dabei werden verschiedene Kriterien berücksichtigt, z. B. die Funktionalität, die Benutzerfreundlichkeit und die Kosten.
KI-Tools evaluieren (mit Key-Usern/-Stakeholdern)	In dieser Phase werden die ausgewählten KI-Tools mit den Key-Usern und Stakeholdern evaluiert. Dazu werden die Tools in der Praxis getestet und Feedback eingeholt.
Kosten & Nutzen bewerten (Produktivität, Qualität, Finance)	In dieser Phase werden die Kosten und der Nutzen der KI-Lösung bewertet. Dazu werden die erwarteten Einsparungen und Verbesserungen quantifiziert.
Roll-out & Optimierung (Schulungen, Verstetigung)	In dieser Phase wird die KI-Lösung eingeführt und optimiert. Dazu werden die Mitarbeiter geschult und die Lösung kontinuierlich weiterentwickelt.

Außerdem schüttet mich Gemini noch mit Text voll:

Zusätzliche Informationen:
Die Tabelle kann verwendet werden, um den Ablauf der KI-Beratung zu planen und zu verfolgen. Die einzelnen Phasen der KI-Beratung können je nach Projekt unterschiedlich sein. Es ist wichtig, dass alle Beteiligten an dem Projekt an der KI-Beratung beteiligt sind.
Beispiel:
Nehmen wir an, Sie möchten eine KI-Lösung für die Kundenbetreuung in Ihrem Unternehmen einsetzen. In der Phase "User Stories entwickeln" würden Sie die Anforderungen Ihrer Kunden an die KI-Lösung ermitteln. Dazu würden Sie User Stories erstellen, die die gewünschten Funktionen und Abläufe beschreiben.
In der Phase "KI-Tools auswählen" würden Sie die verfügbaren KI-Tools auf ihre Eignung für die Umsetzung der User Stories bewerten. Dabei würden Sie verschiedene Kriterien berücksichtigen, z. B. die Funktionalität, die Benutzerfreundlichkeit und die Kosten.
In der Phase "KI-Tools evaluieren" würden Sie die ausgewählten KI-Tools mit den Key-Usern und Stakeholdern evaluieren. Dazu würden Sie die Tools in der Praxis testen und Feedback einholen.
In der Phase "Kosten & Nutzen bewerten" würden Sie die Kosten und den Nutzen der KI-Lösung bewerten. Dazu würden Sie die erwarteten Einsparungen und Verbesserungen quantifizieren.
In der Phase "Roll-out & Optimierung" würden Sie die KI-Lösung einführen und optimieren. Dazu würden Sie die Mitarbeiter schulen und die Lösung kontinuierlich weiterentwickeln.
Ich hoffe, diese Informationen sind hilfreich.

Zusätzlich gibt es noch Finetuning-Optionen:

Und Sharing-Optionen, womit der Workflow ins Gmail- und Docs-Universum auch ohne Abo klappt. Oben an der Tabelle gab es noch den Extrabutton „In Google Sheets“ exportieren. Wenn man unten auf „In Docs exportieren“ klickt, wird ein Textdokument erzeugt. Unschöner Bug: Generierte Bilder / Grafiken werden nicht rübergebeamt.

Spannend ist auch der „Antwort in der Google Suche überprüfen lassen“ Button. Der tut es allerdings nicht immer. Wenn es klappt, werden u.a. Deeplinks zur Google-Suche generiert – oder generierte „Copy & Paste“ Textpassagen werden gegoogelt, womit ein kleiner Plagiatsscan möglich ist.

Pferdefuß: Haarige Datenspeicherung

Google Gemini ist nur mit Google-Login nutzbar, und meist bleibt man im Browser – also meistens Chrome – die ganze Zeit eingeloggt.

Dumme Sache, denn Gemini speichert die Daten bzw. Chats gut zugänglich via https://myactivity.google.com/product/gemini. Jeder, der am Rechner sitzt, kann sich die generierten Chatverläufe ansehen, wenn sich der Hauptnutzer nicht vorher ausgeloggt hat. Das ist vor allem blöd, wenn sich Kollegen den gleichen Rechner teilen (z.B. Schichtdienst), und dann Person A sich Bewerbungen generieren lässt und Person B sich das anschaut.

So sieht das dann aus:

Datenschutz: Mannmannmann

Google nutzt deine Inputs und die generierten Daten, um damit die eigenen KI-Modelle zu trainieren. Das ist nicht ganz ideal, wenn man Geschäftsgeheimnisse einfüttert und diese dann im Big Brain landen.

Außerdem dürfen Google-Mitarbeiter die Chats lesen.

Geben Sie in Ihren Unterhaltungen keine vertraulichen Informationen und keine Daten an, die Prüfer*innen nicht sehen sollen
Gemini-Apps-Hilfe

Üble Sache. Personenbezogene Daten sollten also auf keinen Fall als Input genutzt werden.

Sich also eine Antwort auf eine G-Mail generieren zu lassen, also, ich weiß nicht. Ich hätte da Bauchschmerzen.

Vergleich: Gemini vs. ChatGPT vs. Copilot

Die „großen Drei“ der generativen KI-Angebote sind vergleichbar, und dann wieder nicht.

ChatGPT: Die KI von Open AI entwickelt sich in Richtung „Omni“, und ist speziell in der Team-Variante interessant für Teams – um KI-Mini-Apps mit Kollegen zu teilen.
Microsoft Copilot: Hier ist der Vorteil die Integration in MS Office, Outlook, Teams etc. Für den Einsatz in Unternehmen gibt es spannende Use Cases. Außerdem hat Microsoft ja noch die „Power Platform“ zur Automatisierung von Bürogedöns bzw. Geschäftsprozessen, inklusive SharePoint etc.
Google Gemini: Wenn man im Unternehmen ohnehin die Google Cloud nutzt, also für Dokumente, Termine, Cloud, whatever, dann integriert sich Gemini wunderbar rein. Für den Anfang auch ohne Abo. Da der Datenschutz allerdings sehr eigenwillig ist, wäre ich beim Einsatz eher zurückhaltend.

Auf LinkedIn folgen

Über den Autor

Stefan Golling, Köln. Seit 2011 Freelance Creative Director, freier Texter, Creative Consultant und Online-Marketing-Berater mit Kunden von Mittelstand bis S&P 500. Erfahrung: 1998 mit Radiowerbung in Stuttgart gestartet, 2000 als Junior-Werbetexter zu Publicis München, 2001 Counterpart Köln, 2002 als Copywriter zu Red Cell Düsseldorf (heißt heute Scholz & Friends), dort ab 2007 Creative Director.

Fazit

Google Gemini ist eine spannende KI – wenn man die Advanced-Version abonniert und ohnehin viel mit Google-Produkten arbeitet. Und wenn einem Datenschutz wurschtegal ist.

Wenn man mit der Firma voll auf Microsoft setzt, wird man eher mit Copilot & Power Automate glücklich werden – oder mit Chat GPT als Teams-Version.

Für Apps, also wenn es auf eine API ankommt, sind m.E. ChatGPT / OpenAi bzw. Anthropic leicht vorne, aber natürlich hat auch Google eine API für Gemini. Wenn man da wirklich tief einsteigen will, muss man tief in die Kostenstrukturen einsteigen. Die „großen“ Sprachmodelle sind ja tendenziell sehr fett („Mixture of Experts“, also Monsterstruck-SUVs), aber für manche Aufgaben wäre ein „Fachidiot“ besser, wie u.a. fürs Coding das fette, aber spezialisierte „Codestral“ von Mistral oder auch was ganz Schlankes für harmlose Aufgaben.

Und wo wir schon dabei sind: Nicht vergessen darf man die (teils) Open Source LLMs von Meta (LLama) und Mistral. Es bleibt also spannend.