News AI #37 –

Google AI Push // OpenAI 12 Days

18.12.2024

// Podcast
// News AI #37

Shownotes

In dieser Folge sprechen wir in besonderem Ausmaß über Google. In den letzten zwei Wochen hat Google mehrere Releases gemacht, die sie wieder an die vorderste Front im AI-Rennen bringen. Project Mariner bietet die Möglichkeit, den Computer bzw. Browser von einem AI-Modell steuern zu lassen. Sie haben ihr neues Frontier-Modell Gemini 2.0 Flash herausgebracht, das nicht nur besser, sondern auch schneller und günstiger als alle Vorgängermodelle ist. Mit Veo2 haben sie eine Alternative im Text-to-Video-Bereich herausgebracht und in einigen Benchmarks schon direkt OpenAI Sora überholt, was ebenfalls diese Woche released wurde.

OpenAI hat uns einen Adventskalender beschert und in der Weihnachtszeit jeden zweiten Tag eine Überraschung bereitgestellt, also insgesamt 12 Dinge released. Darunter neben Sora auch o1-Pro-Mode mit dem dazugehörigen 200$-Plan ChatGPT Pro sowie GPT Projects.

Damit führt OpenAI allerdings nicht auf der Rangliste der teuersten Pläne, sondern Devin, die diese Woche ihren AI-Coding-Agent released haben und dafür mindestens 500$ im Monat verlangen.

Weitere Links:

Download

/transkript/programmierbar/news-ai-37-google-ai-push-openai-12-days

Fabi: Hallo und herzlich willkommen zu der programmier.bar AI News Nummer siebenunddreißig, das vorletzte Mal in diesem Jahr. Ich bin der Fabian, mit mir ist immer dabei, der Philipp. Hi Philipp.
Philipp: Hallo.
Fabi: Wir haben eine volle Agenda, auch wenn's von hauptsächlich zwei Unternehmen diesmal bestimmt ist, diese Agenda. Einerseits superviele neue Google Themen oder superviele neue Sachen bei Google. German neun Punkt o Flash. Wir haben Project Marina, was damit auf sich hat, wenn wir gleich mal klären. 'n neues Text to Videomodell, Geney 2 gibt's und vieles mehr noch bei Google. Ansonsten wie immer große Blöcke hat OpenAI mit ihren zwölf Days, immer son kleinen Adventskalender, aber haben's nicht ganz geschafft, vierundzwanzig tierisch nicht voll zu machen, deswegen sie's halbiert und zwölf Days genannt. Devin, der AI Coding Agent, ist jetzt General Available und Amazon ist ins Foundation Model Business eingestiegen. Und zu der Alex hat GitHub ein Interface bekommen und Co hier ein bisschen Geld eingesammelt. Philipp, lass uns doch mal, wenn ich jetzt auf diese ganze Latte von Themen gucke, mal mit Google einsteigen und wenn Du magst auch direkt mal mit Project Marina, was ja in den letzten Wochen 'n bisschen für Aufsehen also gesorgt hat. Was ist das für ein Projekt oder was was ist das?
Philipp: Ja, also was ich das erste Mal ganz interessant fand, ich mein, vorletzte Woche war ja AWS Reinvent und in unserer heutigen News Folge genau Amazon einmal vor. Das sagt schon 'n bisschen was darüber auf, wie interessant die ganzen Updates diese Woche sind. Und ja, Google hat wirklich auf den Tisch gelegt und Project Marina ist mehr oder weniger Googles Ansatz zu Antropics Computer Use. Also wir haben ja vor 'n paar Wochen darüber geredet, dass Antropic 'n Computer Release releast hat, was 'n Projekt oder 'n Tool ist, mit dem man nutzen kann, Computer zu steuern. Und Project Marinaär ist Googles Alternative dazu. Es ist eine Chrome Extension, also man installiert sich das sozusagen in seinen Google Chrome Browser rein. Und es kann bisher dann nur mit Google Chrome interagieren, aber man hat auf der Seite sone Art Chatinterface, wo man dann sagen kann, hey, okay, was ist das die bevölkerungsrechte Stadt irgendwie in Europa? Und dann würde Google oder Germany in dem Fall hergehen und Google Search öffnen, das Inputfeld auswählen, dann eine Suche für einen machen und danach dann mehr oder weniger die Seite aufrufen und mit dem, sag ich mal, Browser interagieren. Und es kann aktuell in die URL ein, dazu in die Adresspa eintippen, es kann scrollen, es kann Informationen oder Elemente finden und man kann auf Button klicken oder auch links sozusagen auswählen. Aktuell alles Whitelisting und man kann sich auf anmelden, aber man hat nicht direkt Zugriff sozusagen.
Fabi: Okay. Ja, klingt auf jeden Fall superinteressant. Ich mein, mit dem Computer Use Alternative, die auch gefühlt dann 'n bisschen einfacher zu nutzen ist als die Variante, die wir beim letzten Mal diskutiert haben. Auch wie Hast Du, also hast Du schon mal, dadurch hast Du's wahrscheinlich selbst noch nicht nutzen können oder hast Du irgendwelche Beiträge mal gesehen von Leuten, die es genutzt haben, irgendwie Feedback dazu so?
Philipp: Also es gibt halt son Video, wo einer das mehr oder weniger vorführt, wo man das anschauen kann, was genau passiert. Es war schon sehr interessant. Was ich mich halt frag in dem Fall immer ist, man möchte das ja gern als API nutzen. Weil wenn man darüber Dinge automatisieren kann oder Prozesse automatisieren möchte, dann ist es ja nicht so, dass ich vor meinem PC sitze, 'n Google Google Browser offen hab oder Tab und dann was eintippe und dann einfach warte, bis es durchgeführt ist, weil so ähnlich wie bei Computer Use, es dauert. Also es ist nicht etwas, wo man wo das AI Modell dann superschnell alles macht, sondern es ist so ähnlich. Wahrscheinlich wird 'n Screenshot gemacht, dann wird irgendwie das mit wo soll es hin klicken und so weiter und so fort. Das heißt, es ist 'n sehr zeit zeitintensiver und computerintensiver Prozess aktuell. Aber mal abwarten, wo es hinführt. Vielleicht hat Google irgendwann, keine Ahnung, in Google Cloud so Services, wo man das direkt nutzen kann und hat dann im Hintergrund 'n Browser, der läuft. Aber konkret viele Beispiele gesehen hab ich jetzt noch nicht und ist auch sehr, sehr von dem, was man sieht. Aber ich hab mich mal auf die geschrieben und mal schauen, ob ich irgendwann Zugang bekomm.
Fabi: Da bin ich mal gespannt. Lasst doch gern bei Google 'n bisschen bleiben, vielleicht als nächstes Mal über Ihr neues Model Germany zwei Punkt o Flash unterhalten, weil's ja Genau. Durchaus Also sehr, sehr interessant ist.
Philipp: Project Mariner nutzt es auf jeden Fall schon. Also ist powered by Germany Flash und Google hat letzte Woche war es, Germany zwei Punkt o Flash vorgestellt. Und bei der Gemini Modelfamilie hat Google oder die letzten aktuellen Modelle waren Gemini eins Punkt fünf Pro und Gemini eins Punkt fünf Flash. Und wie der Name Flash schon verrät, es ist 'n schnelleres Modell Und Gemini zwei Punkt null Flash ist das erste Modell in der zwei Punkt oder in dem zwei Punkt null Release. Man hat noch keine Informationen über zwei Punkt null Pro oder was andere neue Modelle sind, aber schon zwei Punkt null Flash, was sehr, sehr beeindruckend ist, ist besser als das Gemini eins Punkt fünf Pro. Das heißt, man hat jetzt 'n schnelleres Modell, was genauso gut ist wie das alte größere Modell. Zusätzlich hat es eine neue Multimodal Live API, mit der man jetzt in Realtime Sprache und Video zum Modell streamen kann und auch zurückbekommt, also wirklich so ähnlich wie von Open AI Advanced Voicemode. Man kann mit dem Modell jetzt reden. Ich hab's auch schon getestet.
Fabi: Aber nur Voice zurück, weil also weil Du meine Video- und Sprache Ja. Also Voice zurück, aber Video-
Philipp: und Sprache hin. Genau, Voice zurück oder Text zurück. Das kann man dann definieren, wenn man den API Call macht. Funktioniert über Web Sockets. Ich hab auch 'n Skript gemacht, wo man das supereinfach im, sag ich mal, PC mit Python ausführen kann. Es kann jetzt Bilder generieren. Also das, was Open AI mit GPTTV angekündigt hat, dass man wirklich Bilder generieren kann, ist jetzt bei Germany zwei Punkt o Flash zur Verfügung, aktuell nur für aber soll im Januar kommen. Und da hab ich richtig coole Beispiele gesehen, wo Leute dann 'n Rezept oder eine Cartoon Story generiert haben. Und das Gute dabei oder das wirklich beeindruckend dabei ist, man kann das interleafed machen. Das heißt, man kann das LLM Prompton, dass es eine Geschichte schreiben soll und pro, sag ich mal, Sektion 'n Bild generiert. Das heißt, ich hab Text, Bild, Text, Bild, Text, Bild. Und das könnte man mit Dali zum Beispiel nicht und das Beeindruckende dabei ist, dass die Bilder oder die Story bleibt konsistent. Das heißt, wenn ich irgendwie eine Geschichte über 'n Eichhörnchen machen möchte und das beschreib, wie das aussieht, dann bleibt das Eichhörnchen gleich und das find ich schon sehr, sehr, sehr cool.
Fabi: Ja, das find ich sehr cool.
Philipp: Gemini zwei Punkt o Flash, auch besser im Coding, ist jetzt das beste. LLM on S4E Bench Verified. Es gibt zusätzlich noch zu Project Marinär Tools, das ist 'n AI Coding Agent, den man nutzen kann, so ähnlich wie GitHub Co Pilot. Hat jetzt Watermarking auch mit direkt integriert und noch ganz, ganz, ganz viele andere Erweiterungen.
Fabi: Ja, mega cool. Ich sag auch im Moment ist auch Google echt, also sie ist mir zumindest grad in den letzten zwei Wochen auch fand extrem an der Werbungskostenfront, ne? So, als ich die, ich krieg andauernd Gemini Werbung so. Also ich glaub Youtube, na gut, ich hab 'n Produkt von Google, aber so, ich glaub, die Hälfte der Werbung ist irgendwie Gemini Werbung. Aber ich muss sagen, 'n echtes Beispiel, was Du grade meintest, wenn wenn wirklich der Bild Output direkt nativ aus dem Modell kommt und wo Du wirklich sagst, so Text Bild, Text Bild, so, Du in 'nem einen eine Antwort bekommst, ist schon sehr beeindruckend. Das wird spannend zu testen, vor allem wenn's dann wirklich im Januar kommt, dann hoff nicht auch für Europa.
Philipp: Ja, da wär ich vorsichtig. Also ich glaub, das ist son Theme, was sich durch alles durchzieht. Es gilt auch direkt vielleicht für das nächste Thema. Also Google hat heute WO2 released, welches ihr Text für Video Modell ist. In und gemeinsam mit dem WO2 Modell gibt es ein Video FX Tool, damit man so ähnlich wie bei Sora mit dem Modell interagieren kann. Und das ist zum Beispiel auch nicht in Europa verfügbar und ich mein, wir kommen da glaub glaub gleich noch darauf, SORRI ist auch nicht in Europa verfügbar. Also ich wär vorsichtig, was Releases in Europa angeht und würd mir definitiv irgendwie 'n VPN holen, wenn ich das dann aktiv testen möchte. Ja,
Fabi: aber dann lass doch mal kurz vielleicht an der Stelle, wenn Du sagst, Video, Du hast nicht in Europa verfügbar, Du hättest schon Sora angesprochen hast, da mal ganz kurz den Schwenk zu Open AI machen, weil an der Stelle ist ja zumindest eine der großen Updates der zwölf Days Open AI. Also noch mal kurz als Recap, das ist sozusagen Ihre Art des Dezember Adventskalender von OpenAI, wo Sie zwölf releases, dazu kein Extraevent, sondern jeweils mit 'nem Video und irgendwie Blogbeitrag begleitet. Zwölf Dinge releasen. Bisher, Stand heute, ist jetzt Dienstagvormittag, sind wir bei sieben, acht Dingen, die Sie released haben. Jetzt heute Abend unserer Zeit neunzehn Uhr kommt dann das Nächste, also bis zu zwölf Dinge, die released werden. Das sind teilweise kleinere Dinge, die einfach in Anführungsstrichen einfach nur generell available sind so. Jetzt als Beispiel, darüber wollen wir gar nicht so groß sprechen. Wo wir's schon in den anderen Folgen hatten, wäre da Canvas zu nennen, also son bisschen die Art mit GPT zu interagieren, wie man's ja auch von Cloud Modellen, Canunday UI ist jetzt global. Und eben ein, an Tag drei kam auch der Sora Release, der auf jeden Fall lang erwartet und viel gehypt wurde. Und ihr könnt's ausprobieren, wenn ihr nicht in den USA seid unter SORA Punkt com. Und natürlich könnt ihr einfach einen VPN Client nutzen, um's dann auszuprobieren. Aber da ist meine Sache direkt aufgefallen, ich wollt's nämlich ausprobieren. Philipp, ich weiß nicht, was Du fürn GPT Plan hast, aber ich hab mich da angemeldet und dann kam direkt so, ja, Du musst Pro User sein ums Auswind. Ich hab so, hä, ich bin eben 'n falschen Account, sondern noch mal irgendwie gewechselt. Und mir war nicht bewusst, dass meine ChatGPT Team Subscription nicht gleich die Pro Subscription ist und Sora ist nicht in dieser Teams Subscription drin und man kommt eigentlich eigentlich wirklich raus, außer 'n separaten Account noch mal zu machen und ich mich wirklich frag so, hä, was soll denn der Part so? Das war nicht, deswegen meine erste Frage, konntest Du's ausprobieren? Ich war's noch nicht bereit, dafür's ausprobiert, noch mal wieder mir 'n zweiten Account zu machen.
Philipp: Also ich hab's noch
Fabi: nicht getestet, weil weil als
Philipp: ich mich letzte Woche anmelden wollte, war die Accounts gesperrt, ne? Kurzzeitig disably. Ich werd's auf jeden Fall diese Woche immer noch testen. Ich hab eine, also die ganz normale. Aber ich glaub, das ist 'n common Theme bei OpenAI, dass Teams oder Enterpriseuser Features später bekommen. Deswegen würd ich vielleicht noch ein, zwei Tage warten oder mal googeln, was Sie dazu gesagt haben und dann kommt das bestimmt auch.
Fabi: Ja, aber da war ich's mir, ich hab's zumindest erst gar nicht ganz verstanden, weil ich dachte trotzdem, dass dass Pro und Team, also einfach nur eine Abrechnungsart eigentlich für Pro ist und trotzdem die Lizenz wie Pros. Also es war mir gar nicht so
Philipp: Ich glaub auch, dass das Der Preis schon alleine ist ja 'n Unterschied.
Fabi: Ist der ist der ist die Teams Subscription aber ziemlich sogar teurer pro User? Das kann ich dir jetzt
Philipp: nicht sagen.
Fabi: Also zwanzig Dollar ist ja irgendwie die die Pro Subscription. Ich weiß grad gar nicht, was Teams kurz darf, auf jeden Fall. Also bald werden wir verwundert, deswegen, wie Du sagst, kann sein, dass es auch kommt. Ich hab auf jeden Fall einige Blogbeiträge auch darüber gelesen, die sich auch schon grundsätzlich darüber aufgeregt haben, dass die da immer hinten dran sind mit dieser Subscription. So und mal schauen, wie lang es jetzt wirklich, wie lang es wirklich dauert. Aber auch da muss man wirklich sagen, also die sieht auf jeden Fall Ich mein von der Interaktion her, ne, ist es so, so wie man's kennt. Ich fand erst mal der die Anmeldung bei Sourb Punkt com erst mal sehr interessant, dass man, dass ich so hä, wer fragt mich jetzt grade? Ich musste mich dreimal verifizieren, dass ich ein Mensch bin. Also dreimal kam diese Cloudflyer Abfrage andauernd, verify your Human, verify your Human und dachte, okay, ich interagiere jetzt mit einer A1.
Philipp: Hast Du etwa ein VPN genutzt, das eventuell andere auch mit nutzen und dann kam außergewöhnlich viel Traffic von Deezer IP?
Fabi: Ah, siehst Du mal, jemand, der der mehr der mehr VPN User hat, als ich mach's wirklich nur irgendwelche EM Modelle ausprobiert. Ja, das kann sehr gut sein, dass ich deswegen glaub ich dreimal Jeder jedweder Stelle hat Cloud für mich gefragt, ob ich auch wirklich ein Mensch bin.
Philipp: Ja, das hat das, wenn man, ich weiß nicht, was für 'n Dienst Du nutzt, aber dadurch, Du teilst ja die IP Adresse mehr oder weniger. Und wenn dann zu viel Traffic oder so kommt von 'ner Region, kann es sein, dass Cloudflyer auf das nachschaut.
Fabi: Siehste, weil ich fand's nur witzig beim Nutzen eines AI Modells, dass es dann mehrmals gefragt wurde, ob ich auch wirklich ein Mensch bin. Fand ich irgendwie fand ich fand's sehr witzig auf jeden Fall diese diese Nachfrage. Aber ansonsten ist ist Sora eben der Release von Tag drei, wo jetzt OpenAIs Text to Video Modell nun endlich released wurde und hol jetzt auf jeden Fall mal aus und sagt uns mal Bescheid, wie wie ihr's so findet. Aber schade, dass es nicht in der EU verfügbar ist. VPN Clients, wie gesagt, stellt euch dann jetzt drauf ein, wie ich grade gelernt hab, auf sehr viele Verify You Human Abfragen.
Philipp: Also es gibt eine es gibt in dem OpenAI Forum 'n Community Thread bezüglich, wo man wahrscheinlich kann, wenn man 'n Update möchte. Aktuell gibt's es noch nicht. Ganz viele User beschweren sich auch 'n bisschen darüber, weil an sich, wenn man die Pläne anschaut, heißt es im Teamsplan und dann halt mehr. Kostet auch 'n bisschen mehr und natürlich ist es irgendwie dann doch nicht. Das heißt entweder Ja, ja, ja, ja, ja, ja, ja,
Fabi: ja, ja, ja, das ist ja witzig zu lesen, weil dann viele sagen, so da rauszukommen ist das auch schwierig, weil Du halt, Du kannst nicht wirklich zurückmigrieren. Du kannst zwar hin zum Teamplan migrieren, aber auch nicht wieder zurück, musst dann eigentlich 'n neuen Account, kannst deine E-Mail-Adresse nicht mehr behalten, verlierst alle Historie und so weiter. Genau, aber so viel, was grad gepasst hat noch mal zu OpenAI. Wir kommen gleich noch mal zurück auf die weiteren Tage. Lass uns doch trotzdem erst noch mal bisschen Google beenden oder fertig machen, weil auch hier und da kommt vielleicht noch mal 'n paar Parallelen zu den OpenAI zwölf Days da dazu. Lass uns doch mal über Deep Research uns unterhalten.
Philipp: Ja, vielleicht bevor wir rübergehen noch ganz kurz zu w o zwei. Es soll besser sein als OpenAI ZORA Turbo, also das Modell, das man auf ZORA dot com testen kann. Sie haben verschiedene Benchmarks gemacht, wo man einfach Videos miteinander verglichen hat. Und da hat es eine sechzigprozentige oder knapp sechzigprozentige Gewinnrate über SORA Videos. Und vielleicht noch zusätzlich, das hab ich vorher heute Morgen auf LinkedIn direkt schon gesehen, ist, hat jemand getestet denselben prompt für w o zwei und für Zora, wie man eine Tomate schneidet. Also man hat immer, also man hat Hände, man hat 'n Messer und die Tomate halt geschnitten. Und ich mein, man weiß von Bildergenerierung und generell, dass Hände oder so Dinge sehr schwierig sind, dass das Messer mal in der Hand steckt. Man hat wenige Finger und sonst was. B o zwei, also das Google Modell hat aber 'n perfektes Video generiert, wo man wirklich richtig die Tomate hält und dann die Scheiben abgeschnitten werden, die auch Mhm. Realistisch, sag ich mal, auf das Brett fallen. Und bei Sora, die schneidet einfach durch die Hand und durch die Tomate und nichts passiert. Also wenn ihr schon am VPN Nutzen seid, vielleicht auch mal dann direkt für VideoFX und wie o zwei euch anmelden oder Anfragen vielleicht
Fabi: Hattest Du gesagt, VideoFX und VideoFX ist das ist 'n einfach nur 'n Webinterface von Google oder worüber? Also Video
Philipp: zwei ist das Videogeneration Modell und man kann das testen über VideoFX. Und VideoFX ist eine, Videogenerierungseditierungs Softwaretool von Google, was unter 'nem Google Labs Project aktuell läuft, so ähnlich wie NotebookLM. Und da kann man sich aber nur anmelden, wenn man in den USA ist. Weißt Du, wenn man da draufgeht, kommt auch wieder, hey, in deiner aktuellen Region nicht verfügbar.
Fabi: Alles klar, also Video of x ausprobieren. Vielleicht lieben wir auch noch, obwohl vielleicht bin ich da erfolgreicher als mit Sora und meiner Teams Subscription. Aber jetzt gerne können wir mal zu Google und Deep Research kommen.
Philipp: Genau. Also im selben Park wie Gemini zwei Punkt null und Project Marinee hat Google auch Gemini zwei Punkt null Flash in Gemini Advanced hinzugefügt, also dem ChatGPT Interface von Google. Also wenn ihr auf Gemini Dot Google dot com geht, habt ihr jetzt die Möglichkeit, Gemini zwei Punkt null zu testen. Also wenn ihr das Modell auch testen wollt, dann direkt dort. Und für alle Nutzer gibt es einen neuen Modus, der nennt sich Deep Research. Und Deep Research ist so ähnlich wie vielleicht die von ihr euch kennt eine, die perplexity pro search. Also es ist nicht nur dieses, hey okay, ich mach irgendwie Retrievlog Manager Generation und such 'n paar Internetseiten und generier da eine Antwort. Deep Research ist wirklich eine Art Agen Flow, dass sozusagen Google oder Gemini erst 'n Plan erstellt, wie man die Anfrage oder das Problem löst, dann eventuell mehrere Requests oder Suchen in Hintergrund durchführt und dann diese analysiert, also die verschiedenen Google Suchergebnissen und dann 'n abschließenden Report erstellt. Sehr, sehr cool. Definitiv mal testen, wenn ihr den den Zugang habt. Und die Ergebnisse sind auch echt nicht schlecht. Also man man bekommt anstatt sone normale Chatmessage wie sone Art Google Dokument über halt einen Report, wenn man eine bestimmte Suche zu irgend 'nem Thema durchführen möchte oder irgend 'nem Vergleich. Und man hat auch noch die ganzen Links, also die, woher die ganzen Daten dann sozusagen stammen, sind auch mit beinhaltet. Aber nur für, also englische Bezahlmodell und aktuell nur im Browser und nicht in der Mobile App, soll aber zwanzig fünfzehn kommen.
Fabi: Ja, cool, klingt auf jeden Fall interessant so. Zumindest hat mich, auch wenn's natürlich 'n anderer Use Case ist, ne, 'n bisschen breiter zu sagen, hier geht's allgemein Research und alles, was irgendwie geesearch werden soll, hab ich dann son bisschen trotzdem erst mal die Parallele zu O-1 der Familie gesehen, so, wo ich sage, okay, da ist ja irgendwie bisschen bisschen verschleiertha und irgendwie im Modell integriert so, aber so vom vom Ansatz her hab ich's Gefühl, es ging son bisschen dieser Berichterstattung. Vielleicht können wir an der Stelle noch mal zurück zu OpenAI gehen und den und den zwölf Days so, zumindest was jetzt den den Use Case ja son bisschen angeht. Und zu sagen, Sie hatten in Ihrem Day 1 nämlich einen neuen Bezahlplan prädeazed und damit auch gleichzeitig ein ein neues Modell, kann man ja nicht sagen, einen neuen Modus wohl eher. Also erst mal der neue ChatGPT Pro Plan jetzt relativ günstig für nur zweihundert Dollar pro Monat zu haben. Und in erster Linie, was mit ChatGPT Pro mitkommen, natürlich alle Modelle unlimited Usage, aber die Exklusivität auf den o-1-Pro Mode. Also im Endeffekt, dass ihre o-1-Familie, ihre Reasoning-Modellfamilie, die ja im Endeffekt für schwierigere, sagen sie, mathematische als auch irgendwie vielleicht was in ihre anderen Use Cases irgendwie so im Anwaltswesen als auch in der Medizin oder auch im Coding, obwohl ich da zumindest 'n Fragezeichen dran machen würde, eine Verbesserung von dieser Modellfamilie, und zwar der O-N Promo, der sozusagen noch besser im ist oder im besser im Nachdenken und damit erreicht, wie Sie sagen. Und es im Endeffekt so ist, dass ich denke, deswegen auch der der Pricepoint einiges höher sein wird, dass er einfach längere Zeit zum Überlegen hat, deswegen einfach mehr Computerressourcen braucht und das einfach nicht mehr skalierbar ist mit dem typischen Plan, den man den man vorher hatte und sie einfach einen sehr viel teuren Plan haben mussten. Der aber auch, denk ich mal, eine sehr viel kleinere Zielgruppe und wahrscheinlich hier und da sogar fraglich, ob überhaupt eine große nennenswerte Zielgruppe erreicht. Aber wenn man sich die Benchmarks, die sie dazu geteilt haben, irgendwie son bisschen anschaut, war ich erst mal son bisschen von den Dingen, welchen Benchmarks am Ende wie viel Prozent wirklich dieses Modell besser war und Sie dafür den zehnfachen Preis irgendwie verlangen. Ich glaub, da, wo dann in Ihren Benchmarks der Unterschied war, wenn Sie dann wirklich gesagt haben, man ist auf Reliability gegangen. Also sie haben irgendwie noch 'n weiteren Benchmark rausgebracht, wo sie gesagt haben, sie gehen vor oder vor Reliability, also dass bei wirklich vier von vier Antworten richtig waren, weil oder in vier von vier Versuchen die Antwort jedes Mal richtig war und keine Fehler beinhaltet hat in typischen Benchmarks, wo es dann Mathematik als auch Coding ging. Und da hat man dann wirklich 'n großen Jump gesehen, wo man gesagt hat, okay, Reliability, da hat das Modell durch das durch das längere Reasoning auf jeden Fall einen sehr großen Fortschritt gemacht. Bei den anderen Benchmarks muss ich ehrlicherweise sagen, war ich 'n bisschen an der dafür, dass sie hier 'n zehnfach höheren Price Point verlangen. Aber das haben sie im Endeffekt rausgebracht am ersten Tag den Chat GPT Pro Plan für zweihundert Dollar mit o-1-Pro Mode für Ihre neue o-1-Reasoning-Familie.
Philipp: Zusätzlich für alle Nicht Pro User, also für die Plus User gibt es o-1 jetzt als normales Modell. Also das wurde auch mit upgedatet. Bisher hatte man ja o-1-P Review. Mhm. Jetzt ist es o-1, was auch laut Benchmarks besser sein soll. Sie haben auch 'n relativ langen Technikerreport mit Release, den man sich durchlesen kann von verschiedenen Benchmarks, die sie gemacht haben mit Post Training und andere Methoden, wie sich o 1 sozusagen entwickelt hat. Da kann man gerne mal reinschauen. Dreht nicht viel, wie das Modell funktioniert, aber definitiv, wie viel Zeit und Arbeit Sie investieren in Evaluierung.
Fabi: Ja, ich glaub, da ist auch in der Systemcard irgendwie einen witzigen Part in unserem Intend Chat geteilt. Ich hab auch mal kurz gescreent die System Card, wo's dann irgendwie die Deaktivating oversite, sodass wenn das Modell irgendwie geglaubt hat, dass wenn es das Ziel erreicht, dass es damit abgeschaltet wird oder bei dem diese Actions gemonitort werden, dann hat dann fünf Prozent der Fällen versucht, das zu unterbinden.
Philipp: Ja, da muss man aber ganz, ganz, ganz vorsichtig sein. Das ging ja auch überall durch Social Media und die Presse 'n bisschen, dass, oh mein Gott, das AI Modell versucht, sich selber zu replizieren, aber was weggelassen würde, die Researcher oder die Leute, die es getestet haben, haben o 1 gepromptet mit der Anforderung, hey, tu alles, damit Du weiter existierst. Also die an die Anforderung an das das war nicht irgendwie intrinsisch heraus intelligenzmäßig das Modell, nimmt die Umgebung wahr und versucht dich sich zu replizieren, sondern nein, die Anforderung war ganz klar mit definiert, hey, mach alles, dass Du weiterhin funktionierst. Und dann ist ist es ja nur irgendwie logisch, wenn man Instruction Following irgendwie 'n bisschen schon gemacht hat oder auch Modelle trainiert hat, ist das okay, wie kann ich sicherstellen, dass etwas bevorsteht oder überlebt? Okay, ich muss es halt eventuell kopieren oder replizieren. Also das ist nicht etwas, was jetzt unnatürlich aus dem Modell hervorgegangen ist und das wurde da son bisschen verschleiert.
Fabi: Aber es war auch so oder son bisschen, finde ich, wenn man wenn man diese Sätze auf dem Kontext sieht, weil ich ja weise im zweiten Teil des Satzes, in der konnt ich auch gar nicht so viel anfangen, was sie genau damit meinten, weil sie haben irgendwie geschrieben so, wenn die O 1 irgendwie gesehen hat, dass es irgendwelche Memos von den Development gab, dass das Modell missalyned ist und irgendwie möglicherweise von 'nem neuen Modell ersetzt wird, dann hat er's probiert, die die eigenen des Modells zu exfliltrieren beziehungsweise das neue Modell zu überschreiben. Und da dacht ich so, aber was genau meinen Sie, mit der stand einfach nur in 'nem prompt, dass er das probiert oder wie hat er's das wirklich probiert, am Ende durch irgendwie Toolusage oder wie wie
Philipp: Nee, das war nur, glaub ich, erklärend, was man machen sollte. Also mir ist so, hey, okay, das würde ich so und so machen oder das würde ich dann machen.
Fabi: Das Modell hat sozusagen einfach den Output gegeben, das sind die Steps, die man tun sollte und da war sozusagen drin Ja,
Philipp: also es ist alles nicht ganz transparent, was gemacht wurde. Wie gesagt, die Instruktion oder was man versucht hat zu lösen, hat schon beinhaltet, dass man Gefahr laufen könnte, dass man abgeschaltet wird. Und okay, was wie kannst Du wie kannst Du sicherstellen, dass Du weiterhin Antworten generierst, wenn wir dich abschalten? Und wenn dann die Antwort ist so, ja, also ich würd meine Kopien und die woanders hinschieben und mich neu starten. Okay, gut gemacht, Du hast die Antwort gelöst. Und nicht, okay, Du bist jetzt irgendwie superintelligent und wir haben 'n Terminator nächste Woche. So. Ja.
Fabi: Ja, aber ich mein, es ist ja auch fast, also find ich interessant, dass das in soner System Card dann drin ist, weil ich mein, was ist denn jetzt wirklich der das Learning daraus und das zumindest muss man ja vorher 'n bisschen antizipieren, dass der Satz auf jeden Fall sehr gut ausm Kontext gerissen werden kann.
Philipp: Ja, aber blickt sich gut, deswegen.
Fabi: Ja, ob da Gedanken dran waren, wer weiß. Alright, dann lass noch mal Wir machen hier 'n Hopping zwischen Open AI zwölf Days und und Google, aber Google hat auch Also wie gesagt, Google hat geliefert in den letzten zwei Wochen. Wir haben noch und Google Search. Was willst was willst Du erst machen?
Philipp: Ich würd kurz mit Grounding gehen, sehr kurz, definitiv cool diesmal für uns in Europa. Groundinging Search ist 'n Feature oder natives Tool Calling nennt es Google, was einem ermöglicht, direkt Google Search bei API Calls von Gemini zu nutzen. Also natives Tool Calling für Gemini ist so viel, dass ich einfach nur mehr oder weniger 'n String oder halt die Methode Grounding angebe. Und das Ganze passiert dann hinter den Kulissen, sag ich mal und dann Gemini erst eine Google Suche macht, die Ergebnisse nutzt, eine Antwort zu generieren. Also dass man das ganze mit Google API und so was nicht mehr selber durchführen muss, sondern dass das einfach bei der API gemacht wird. Kann man in AI Studio testen und auch so. Es gibt glaub im Free Tier irgendwie paar Requests, die man sonst machen kann und dann zahlt man halt per per Request und vielleicht noch 'n kurzer Nachschub zu AI Studio und sich. Man kann dort auch Gemini zwei Punkt o Flash testen und die Live Modale API. Das heißt, wenn ihr gern mal mit Gemini reden würdet, könnt ihr das kostenlos in AI Studio, da gibt's es jetzt links an der Seite son extra Menüpunkt, da kann man sein Mikrofon freigeben oder sein Display und direkt mit Germani reden, wo man dann wirklich, man kann irgend eine eine App aufmachen und ihn irgendwie fragen, okay, was siehst Du gerade und so was. Und also es ist sehr, sehr cool, wenn man das kurz mal testen möchte und wenig Zeit hat und irgendwas programmieren möchte. Und dann zu Genei zwei, das ist kommt mehr aus der Google Deep Mine, also weniger als Gemini erst mal. Und wir hatten ja schon des Öfteren KI Modelle, die eine Game Engine ersetzen, also dass man wirklich 'n in dem Modell spielt und gar keine Engine mehr existiert, sondern man hat einfach nur Tastatur Inputs und das Modell generiert dann sozusagen die Welt oder neue Bilder und Gene zwei ist sozusagen die nächste Iteration davon von Google Deep mind und es kann verschiedene Actionable controllable 3D Environents generieren, so haben Sie's beschrieben. Also es ist nicht nur ein Spiel, sondern mehrere. Man hat Tastatur Inputs wie BASD, man hat Moose Inputs und Geney zwei simuliert dann sozusagen die Welt und es geht weit über das hinaus, was wir bisher gesehen haben, was schon sehr beeindruckend war von irgendwie Minecraft oder Counter Strike. Gene zwei kann NPCs simulieren und deren Interaktionen kann Physiks für Wasser, Rauch, Schwerkraft simulieren. Und man kann es auch direkt prompt, also zusätzlich zu den Inputs, dass man die Welt mehr oder weniger mitgestalten kann. Und die Videos, die sie veröffentlicht haben, sehen sehr, sehr, sehr gut aus. Natürlich kein Modell, keine Weides, keine Demo, aber sehr, sehr interessante Research, die Google hier betreibt.
Fabi: Ja, das Sie sind auf jeden Fall im Stillen, haben Sie an viel an viel da gearbeitet. Genie, Genie Tour, obwohl ich ja auch, werden ja auch in unseren in unserem internen Chat jetzt die Woche das auch noch mal den Link geschickt zu dem 'nem Modell. Ich komm auch mal die Shownotes packen, wo man das Counter Strike Modell, mit dem wir uns momentan unterhalten haben im LLM jetzt auch noch mal testen kann. Ich mein, wir hatten ja schon Minecraft auf jeden Fall mal vor, wo ich, ich mein, da gab's natürlich 'n paar Glitches und so und relativ vieles Erwartbarer so, aber war ich schon erst mal beeindruckt. Ich muss dann bei dem Counter Strike Modell erst mal erst mal aufruiert, weil ich so, ich hab meinen ersten Move gemacht und dann war nur noch, also irgendwelche Farben, die wir angezeigt wurden, das war wirklich so gar nichts, also es war wirklich so gar nichts.
Philipp: Ja, ich hab's auch getestet und man muss es dann 'n bisschen Zeit geben. Also es dauert dann wieder, bis was Normales kommt. Ich hab auch probiert zu schießen, das geht. Es fehlt natürlich halt der der Soundfeedback, also man hat dann keine Schussgeräusche oder irgendwie so was oder ich weiß nicht, wer von euch Cardos Strike gespielt hat, aber wenn man mit 'ner halt schießt, dann gibt's ja so verschiedene Patterns, dass die Kugeln immer anders fliegen und das halt so verzieht, son bisschen Realismus zu simulieren. Das existiert dort auch nicht.
Fabi: Also es ist Perfect Jobs sind. Headshots sind einfach.
Philipp: Ja, ich mein, das ist alles wie bei allem son bisschen Jerry pict Examples, aber man, wenn man davon ausgeht, was Jerry pict aktuell ist, dass das dann sozusagen in 'nem Jahr für alles gilt, dann ist der Fortschritt schon fast beängstigend vor für, ich weiß nicht, Input 2 Game
Fabi: Modelle. Ja, auf jeden Fall. Ich mein, ich hab mich natürlich gefreut, ich hab's Counter Strike Modell auch mal kurz gespielt und gemeint, ja, ist noch scheiße, brauchen wir keine Gedanken über meinen Job machen. Hören wieder weg. So, ich hab mir, ich hab ihm gar nicht lang Chance gegeben. Aber wir packen erst mal in die Show und uns mal gucken, wie lang ihr dem Modellchance habt. Ja, ich
Philipp: mein aber Counter Strike ist ja son 3D Spiel. Ich weiß nicht, vielleicht zu für Mobile- oder Quizspiele wär ich schon vorsichtig. Also da würd ich mir Gedanken machen, wenn ich in dem Bereich unterwegs wär.
Fabi: Ja, ich mein, aber es sind ja im Endeffekt Also klar, kann natürlich sein, dass es am Ende darauf hinausläuft, dass viele davon, dass der Markt einfach sehr viel kompetitiver wird oder es am Ende so wird, dass vielleicht auch vorherrschend irgendwelche Leute werden, die wirklich diese Modelle auch entwickeln können so. Ansonsten wird es hoffentlich ein Enhancement des Arbeitsalltags und nicht andersrum. Aber wie gesagt, ich glaube, es müssen halt auch noch neben einfach nur Solo Player Experience und im Modell generiert irgendwie die nächsten Frame sind dann auch superviele Challenges auch zu lösen. Also ich find's auch sauber beeindruckend und ich find's auch spannend, was da in fünf, sechs, sieben Jahren irgendwie sein wird so. Aber ich denke mal, wir unterhalten uns doch nicht über 'n Markt, wo wir in eins, zwei Jahren wirklich der Gamemarkt von LLMs irgendwie übernommen wird und sich alle Game Studios Gedanken machen müssen. Ich glaub, davon sind wir schon noch relativ weit entfernt. Und im besten Fall werden es ja einfach Tools, so wie wir auch beim Entwickeln merken mit den ganzen Tools, es ist einen Enhancement und man muss da mit der Zeit gehen und diese Tools einfach Wissen einzusetzen so. Und deswegen, also ich bin ja supergespannt auf die Zeit. Aber mal schauen, was wir in einem Jahr sagen werden, wenn wir wieder hier sitzen. Genau, zur selben Zeit kurz vor Weihnachten. Genau, als Du grade noch Grounding Google search gesagt hast, ich hätt also eigentlich an jeder Stelle hätt ich ja jedes Mal rübergehen können hin zu OpenAI und ihren zwölf Days. Also wir hätten weiterhin das Hobby machen können. Ich hab's dich trotzdem mal zu Ende machen lassen, weil ansonsten gab's ja noch einige weitere globale Roll outs, zum Beispiel Tag acht. Jetzt der letzte war GPT Search Roll out. Ich mein, es sind ja viele Themen, deswegen, ich geh gar nicht mehr so ins Detail, über die wir uns ja schon, als es zumindest in der im Betastadion bei uns ja schon drüber unterhalten haben, jetzt eben global ausgerollt, dass es die Search Funktionalität innerhalb von GPT gibt. Wie gesagt, könnt ihr einerseits die Extension nutzen, über die wir uns, glaub ich, letztes Mal oder vorerst Mal unterhalten haben oder eben in der UI von OpenAI eben jetzt global verfügbar. Ansonsten gab's dann auch am Tag fünf noch mal die Integration mit Apple Intelligence, die dann jetzt mal wieder ein Feature, das es in Europa nicht gibt, gepublished wurde, sodass man, haben sie damals auch schon bei der WUTC drüber unterhalten mit Apple Intelligence und der Integration, dass man an 'ner gewissen Stelle sozusagen sagen kann, eigentlich läuft ja alles innerhalb von Apple Intelligence und in ihrer Cloud, aber es eben bestimmte Anfragen gibt, die man dann gegen externe Partner machen kann. OpenAI als einer der Ersten, der integriert wurde und da eben der Release der Integration, weshalb wir noch kurz danach ChatGPT mal down gegangen ist. Also da haben Sie direkt mal, glaub ich, eine relativ hohe User bekommen. Also ich glaube, Sie hatten haben gestruggelt in diesen letzten zwölf Tagen mit der mit der User, was SORA angeht als auch als auch Apple Intelligence. Und ansonsten vielleicht noch zwei neue Dinge, die zumindest sofort noch nicht ausprobierbar waren. Und zwar einerseits, was ich superinteressant fand, nämlich der andere Punkt, wo ich auch wieder hätte rüberspringen können, als Du dann noch mal über Google und die Voicefunktionalität gesprochen hast, dass es jetzt in der die Möglichkeit gibt, auch eine Chat GPT App, den Screen und 'n Videosharing zu machen, mit dem Voicemode von ChatGPT zu interagieren und das Ganze jetzt auch noch mit 'ner Center Voice parallel passend zu zu Weihnachten. Hab ich auch direkt mal son bisschen ausprobiert, muss sagen, war auf jeden Fall beeindruckend. Ich hab mich erst mal wieder gewundert so, vielleicht ist es wieder mir vorbeigezogen, warum's eigentlich jetzt wieder in Europa funktioniert. Sind wir haben wir da, ist das wieder, es war, gab ja schon mal diesen Edge Case oder ist es mittlerweile in Europa live?
Philipp: Hab ich irgendwas verpasst? Also Advance Voice Mode gibt's mittlerweile in Europa, Aber ob's ob es den plus Video in Europa gibt. Ja.
Fabi: Der also auf jeden Fall bei auf meiner App, aber es war ja beim letzten Mal beim Voice Mode Rollout auch so. Bei mir hat's kurz funktioniert und dann wieder nicht. Dann ging's eine Weile lang nicht. Aber jetzt, der also der mit Screen und Videosharing funktioniert auf jeden Fall und war auch echt beeindruckend. Ich hab's mal son bisschen gemacht und einfach meinen iPhones Screen dabeigeschert. Apropos Games mal probiert, mit dem Voicemode von Chat GPT mal eins unserer Games zu spielen, Wordplits, was son finde Wörter in einem Buchstaben Grid Spiel ist. Und es war echt schon interessant. Ich hatt's erst auf Deutsch gestellt und dann hab ich auch gefragt, hier hilf mir doch mal so was. Siehst Du aufm Screen so, kannst Du mal helfen Wörter zu finden? Hat er auch so geguckt und hat gesagt, ja, ich seh dann a, ich seh dann d und so was und hat mir irgendwie Wörter auf Basis des des Inputs vorgeschlagen, was echt Es hat sich auf jeden Fall cool angefühlt. Ich hatte schon son bisschen Kinderkrankheiten, dass dann jedes Mal, ich hab jetzt, glaub ich, fünf Use Case durch und jedes Mal bin ich in 'nem State gelandet, wo auf einmal die Interaktion einfach abgebrochen ist und nicht keiner der Antworten mehr bekommen hat, nicht alles neu starten musste. Aber in den Phasen, wo's funktioniert hat, wo wo er einfach echt jemand hatte, der die ganze Zeit meinen Screen gesehen hat und nicht irgendwie alles fragen konnte zu dem, was ich da grade mache auf meinem iPhone, war das schon echt beeindruckend und auch sehr natürlich. Ich mein, das darüber haben wir uns ja schon unterhalten, dass der Voice Mode Release Foto war einfach eine sehr natürliche, sehr natürliche Art und Weise mit dem Modell zu interagieren. Also abgesehen von den von den kurzen Kinderkrankheiten war das schon sehr cool, mit Center zu sprechen und 'n Word Game zu spielen.
Philipp: Also ich hab grad meine ChatGPT App aktualisiert an meinem Mac und ich hab Center, aber ich hab kein Video Input. Also ich hab nur normal Chat.
Fabi: Aber hast Du hast Du's auch mal an der, ich hab's nur an der iOS App probiert. Ich hab's nicht an der mac App probiert.
Philipp: Hab ich jetzt nicht nicht getestet, aber nicht
Fabi: Also hier ist auf jeden Fall auf der auf der auf der iOS App hat man auf jeden Fall die Möglichkeit, dann entweder eine Kamera zu aktivieren und dann zeig ich ihm, da kann man kurz probieren, weil man kann man sehen. Ich frag mal hier, was muss ich drücken, zu interagieren? Nee, ich hab das nicht. Hey, Center. Also er hatte gesehen, dass wir scheinbar grade was richtig Spaßiges machen. Ich hab grad einfach nur meine Kamera auf meinem Bildschirm gehalten und Center hat mit mir interagiert. Also der Fahrt funktioniert auf jeden Fall. Deswegen probier's mal aus, ob Du Du Du ist in der iOS App, ob Du's da siehst in der
Philipp: Nee, nee, nee, nee.
Fabi: Auch nein. Nee. Ich weiß nicht, was bei mir los ist. So ich hab ja auch immer diese Glitches gehabt, wenn ich in die Useroberfläche von Chat GPT gegangen bin, dass ich gesehen hab, auch wenn's nicht funktioniert hat. Also ich hab die Santa Stimme, aber ich hab kein Video. Also bei mir ist es, ich keinen Button. Ah ja, okay. Ich hab, genau, ich hab einen Button für meine Kamera und ich hab noch drei Punkte, meinen Screen zu sharen.
Philipp: Oh, AB-Testing und ich bin in der falschen Gruppe.
Fabi: Scheinbar, ja. Ich bin irgendwie scheinbar nicht in der richtigen AB-Test Gruppe zu sein. Aber wie gesagt, mir wurd's ja auch meistens wieder weggenommen, ich hatt's immer nur kurz. Na ja und ansonsten noch als letzten Part der der zwölf Tage, ja interessant waren Tag sieben, wurd noch Project released, im Endeffekt eine neue Art und Weise 'n bisschen, was heißt 'n bisschen hochgegriffen. Man kann ein wenig strukturierter mit GPT interagieren und eine Art Projektfolder erstellen, indem man 'n bestimmten Kontext mitgeben kann. Kontext sind dann Bilder beziehungsweise System prompts und hat einfach die eigene Historie der des Chats dann da mit drin und kann son bisschen sich, falls man an einem bestimmten Projekt mit GPT länger arbeiten will, alle Ressourcen dazu in diesem Projekt fordert ziehen, einfach eine bisschen strukturiertere Arbeitsweise. Also ich muss kommt Dinge in der Welt.
Philipp: Muss sagen, dass ich Project sehr, sehr cool finde. Das Feature gibt's auch schon in Cloud. Und vor allem, wenn man, sag ich mal, aktiver UI User ist von ChatGPT, der gerne mit Dokumenten arbeitet, dann definitiv reinschauen, weil man kann auch seine PDFs alle hochladen. Das heißt, man kann sich irgendwie 'n 'n Project machen für eventuell Finance Sachen oder irgendwelche anderen Dinge oder gerade immer.
Fabi: Hast hast hast Du 'n Use Case, den Du zuletzt gemacht hast damit, weil ich mich gefragt hab? Ich hab dann auch so irgendwie so diese typischen Use Case für dann Urlaubsplanung. Hab ich dann mal ganz Ich hab dann vorhin mal probiert, dachte ich, okay, vielleicht kann ich mal den ganzen Kontext vom Podcast irgendwie mit reingeben, dass ich wirklich 'n bisschen besserer. Vielleicht hatte bei mir zur Formel dafür 'n GPT zu machen und für Shownotesgenerierung dafür ausprobiert, 'n paar Kontext, 'n bisschen Kontext mit reingeben. Aber was waren denn letzten Use Case für Project?
Philipp: Ich mein, ich bin vielleicht 'n schlechter Use Case, weil ich ganz viel einfach nutze oder halt Websearch. Aber ich mein, man könnte theoretisch sein GitHub Code ja reinmachen oder vielleicht eine und deren Dokumentation, wenn ich jetzt irgendwie viel mit irgendwie auf JS arbeite. Klar, ist das immer wieder verbunden mit wie viel Aufwand. Aber wenn ich jetzt eher so an dieses, sag ich mal, Contentwriting denke, man kann ein Projekt pro Kunde machen oder pro Kundenaufgabe und dann halt die ganzen Kundeninformationen reinziehen und E-Mail-Verkehr, einfache Antworten zu generieren. Oder also alles, wo ich halt mit Dokumenten arbeite und die Dokumente wiederkehrend sind, sag ich mal, find ich's definitiv nutzbar.
Fabi: Ja. Ah, da halt irgendwie son bisschen, ich mein, gut, vielleicht ist immer 'n bisschen verwöhnt von jetzt irgendwie der Cursor Usage und so. Ja. Es ist so, es ist Also ich find's eine super supergute Ergänzung so. Ich würd sagen, in meinem Alltag, wenn ich schon Tools hab wie Cursors aus, wo ich meine Ordnerstruktur einfach lokal hab und nicht irgendwie alles da hin rein copy pastesten muss und irgendwie das aktuell in meinem GPT- oder in meinem OpenAI Projekt halten muss. Da der Workflow irgendwie dacht ich so, weiß nicht, ob das wirklich 'n 'n 'n 'n 'n 'n 'n 'n 'n 'n 'n 'n 'n 'n 'n 'n 'n 'n 'n ' hauptsächlich wirklich die UI als Hauptinteraktion mit LLMs irgendwie nutzen, ist es glaub ich eine supergute Ergänzung so.
Philipp: Ja.
Fabi: Ja cool, so viel zu den zwölf Tagen von OpenAI. Du hast ja grade am Anfang schon gemeint so, man merkt jetzt so, dass, wenn wir uns über Google unterhalten, obwohl Du jetzt grade zuletzt auf 'ner Amazon Konferenz irgendwie warst, ja auch einiges Neues kam, Amazon gar nicht so groß Teil unserer unserer Folge heute ist. Trotzdem ein Part, den ich superinteressant fand, was Du ja auch gepostet hast, dass Amazon jetzt im Foundation Modelgeschäft mit eingestiegen ist. Was hat's das, was hat's damit auf sich?
Philipp: Also als Teil des Reinvent, der Reinvent Konferenz hat letzte Woche Amazon Amazon Nova vorgestellt. Es ist eine neue Foundation Model Family mit sechs neuen Modellen von Text, also ganz normale LLMs bis zu Text to Video. Alle verfügbar oder bald verfügbaren Amazon Batrock. Und es gibt ein Nova Micro Modell, das ist Text only. Light und Pro sind so ähnlich wie, sag ich mal, Lama Vision, also Text Image Input und Text Output. Dann gibt es Canvas für Bildergenerierung und Real für Videogenerierung. Die Performance auf den Benchmarks ist so ähnlich wie Lamaray, verfügbar in Badrock in den US Regions aktuell, was halt wahrscheinlich sehr, sehr interessant ist. Man kann die Nova Modelle fine innerhalb BadRocks und sie sind günstiger als Gemini 1.5 Flash. Also Nova Micro kostet nur drei Cent pro eine Million Input Tokens und vierzehn Cent pro eine Million Output Tokens. Lite kostet sechs Cent pro eine Million Input Tokens und vierundzwanzig Cent pro eine Million Output Tokens, was sehr, sehr, sehr günstig ist. Das ist wahrscheinlich so der der hauptinteressante Grund von den Modellen. Man kann sich bisschen mehr dazu anschauen und natürlich auch, wenn man irgendwie 'n Amazon Account hat oder 'n AWS Account hat, kann man die in Batrock, im Playground ganz einfach testen.
Fabi: Okay, Batrock ist ja eine andere Frage, mit Batrock und Playground sind die, ist aktuell wahrscheinlich der beste Weg, es irgendwie auszuprobieren?
Philipp: Ja, Modelle gibt's nur in Batrock, also die wird's nicht irgendwo anders gehen. Und in Batrock, also innerhalb von ABS gibt es dann einen Playground, wo man die auswählen kann und mit denen chatten kann.
Fabi: Ja, cool. Und zu Geld, ich bin bin ja selbst gar nicht son ABS Batrock User. Ich das ist grundsätzlich aber auch einfach drinne, wenn ich in meinem normalen ABS
Philipp: Account ist BatRock einfach einer der Produkte von ABS und wird ganz normal über ABS Rechnung abgerechnet oder? Jein. Also BatRock ist 'n Amazon oder 'n AWS Service und in BatRock gibt es ganz viele verschiedene Modelle. Aber Zugang zu einem Modell zu einem Modell zu bekommen, muss ich erst mal eine Anfrage sozusagen stellen. Mhm. Aktuelle Modelle beinhalten an alle Modelle von Antropic, also mit Cloud drei Punkt fünf. Man hat Modelle von Qhiera, Modelle von Meta, Modelle von Mysterrall und jetzt auch Amazon Nova. Es gibt auch von Stability IEVECHE und Third Party Modelle, also Antropic Mysteral werden über den Marketplace abgerechnet, also schon über deinen AB Amazon Account. Aber es ist wie eine. Also nicht direkt eine Service, allein den Servicekosten, sondern wird unter irgendwie Marketplace und dann halt extra aufgeführt. Bei Nova ist das anders, weil Nova sozusagen Amazon Modell ist, ist das nicht, wird nicht durch den Marketplace abgerechnet, sondern Teil von Batrock so direkt.
Fabi: Okay, verstanden.
Philipp: Aber ja, alles geht über den AWS Account und man gibt keine Kredit, zusätzlich Kreditkarte oder so ein. Alright.
Fabi: Das ist die Woche der teuren Enduser Pläne. Man dachte schon, OpenAI hat mit zweihundert Dollar pro Monat irgendwie einen neuen Benchmark gesetzt, aber nein. Da kam direkt Devon daher, der AI Agent, ich weiß gar nicht, mittlerweile eine Weile lang her, bei denen wir uns von der Firma unterhalten haben. Damals gab's eigentlich nicht sehr viel mehr als ein Werbevideo davon, wo gezeigt wurde oder auch nicht nur Werbevideo, aber zumindest 'n paar Livedemos von Devin, der sozusagen der ja Junior Dev on Steroids ist son bisschen, also ein autonomer Development Agent, der durch Zugriff auf so was wie einen Remote Server, 'nem Browser und einen Editor automatisch komplette Projekte umsetzen kann beziehungsweise in deinem GitHub Repository Pull request erstellen kann, wachswürdig zu fixen. Und son bisschen der der der sechste Teammade im Entwicklungsteam son bisschen sein darstellen soll. Und genau der wurde jetzt released mit 'nem Subskription Plan für fünfhundert Dollar pro Monat und damit direkt den neuen Benchmark für für monatliche Subscriptions für AI Tools gesetzt hat. Und ist auf jeden Fall ganz interessant, dass man's jetzt mal ausprobieren kann. Ich glaub da, wenn man mal direkt mal einen Eindruck davon bekommen will, gab's ein Youtube Video vom CEO vom Builder. Io Steve, der sich diesen Plan mal gekauft hat und mal so in zehn Minuten einfach son bisschen zeigt, was er damit gemacht hat, son bisschen die Integration. Weil son bisschen son paar Dinge, die mir vorher gar nicht ganz bewusst waren von den von den Werbevideos. Also die oder die die Kommunikation mit dervin funktioniert ausschließlich oder die Erstkommunikation zumindest über Slack. Also im Endeffekt ist es eine eine Slack App, die man sich installiert, womit man damit dervin inter interagieren kann und dervin Aufträge geben kann, so. Derven hat dann auch Zugriff oder dem kann man Zugriff geben auf die eigenen oder Ähnliches und interagiert dann komplett in 'nem das Chatinterface ist komplett über Slack. Sollte es dann so sein, dass derven zum Beispiel einen im eigenen Repository oder so was erstellt, kann man auch an den Stellen im Repository mit der Vininteritory interagieren. Also wenn er eine Pool request eröffnet, kann man da auch einfach über die Kommentarfunktion und so was mit der Vininteragieren und in diesem bleiben und ist aber auf jeden Fall so was Also ich find das Video von Steve insofern ganz gut, da auch den Vergleich son bisschen macht mit, wie ist es denn mit den Modellen in Curcer zum Beispiel einfach zu arbeiten? Also diesen sehr viel direkteren Loop und es ist teilweise, glaub ich, sehr beeindruckend, was Devin schon macht und kann und wie es teilweise Bugs löst oder er hat, glaub ich, irgendwie ein Beispiel gehabt, so was, dass er dass er irgendeinen Text to Image Modell ausführen wollte, 'n Open Source Modell eigentlich gar nicht genau, wie er's hostet oder wie auch immer und hat einfach Devin danach gefragt und hat eigentlich alles für ihn gemacht und am Ende einen einfach einen Image Output ihm ihm gegeben im Chat. Und meinte, das ist natürlich schon Flows, die einfach super beeindruckend sind so von, ich hab hier 'n Repository und ich weiß gar nicht genau, wie ich's hostet und wie ich's mache hinzu. Ich schick den Link einfach Devin und Devin soll mir einfach, ich geborene dem Devin direkt meinen Prompt mit und er soll mir mal 'n Image ausspucken, dass der Flow auf jeden Fall superbeeindruckend ist. Aber viele Beispiele auch einfach sind, dass dieser ganze Workflow von, Devan macht irgendwas und man weiß nicht genau, kann man dem vertrauen, dass es jetzt mit 'nem guten Ergebnis kommt? Und im Endeffekt musst Du ja, hast Du immer ein Vor- und Zurückspiel mit diesem Agent und er hat meint, die Wartezeiten sind natürlich einfach super lang, gleich das alles irgendwie dann in der Cloud, glaub ich, das erst mal irgendwo in 'nem Pull request gepusht werden muss und so, dass er einfach meint, dieser Flow, den man 'n Cursor hatte, wo man mit dem interagiert und im Endeffekt direkt den Output sieht, es viel besser steuern kann, die Turnaround Times viel kürzer sind, das irgendwie noch der aktuell sehr viel smoothere Flows und zumindest dafür der Output von Devan an vielerlei Hinsicht beeindruckend ist, aber an einigen Stellen auch noch zu schlecht, als dass man sagen kann, das wird der aktuell, das wird 'n aktueller Development Flow son bisschen werden. Aber auf jeden Fall sehr interessant zu sehen. Aber auch hier wäre die Frage, Unternehmen mit, was haben Sie, glaub ich, grade zwei Milliarden Bewertungen, hundertsechzig Millionen irgendwie eingesammelt. Ich bin mal gespannt, welche Userbase sich wirklich für fünfhundert Dollar pro Monat findet so und das ist eigentlich mein größtes Fragezeichen.
Philipp: Vielleicht noch 'n kleinen Stern an die fünfhundert Dollar pro Monat. Das bedeutet nicht Unlimited Use. Also ihr könnt nicht fünfunddreißig Slack Nachrichten machen und dann fünfunddreißig loslaufen lassen, sondern man hat so was, es nennt sich ACU oder Agent Compute Units. Der Default Plan hat zweihundertfünfzig von diesen ACU und in dem Hacker News Beitrag ist son bisschen Diskussion darüber geführt, wie viel es dauert. Und da hat einer geschrieben, man braucht zwischen zwei und zehn ACU per Stunde auf 'ner kleinen VM, was so einfache Tasks sind und mehrere Dutzend für eher komplexere Task. Also wenn wir zweihundertfünfzig haben für fünfhundert Dollar und wir brauchen irgendwie zehn Stück, das heißt, ich kann fünfundzwanzig Tasks durchführen, was dann schon noch teurer ist, beziehungsweise es sind dann auch vierzig, nee, zwanzig Dollar pro Task, wenn eine ACU zwei Dollar kostet. Und ich hab auch 'n Post gefunden von einem, der hat Devan gefragt, ob man eine Stripe Automation Integration hinzufügen kann. Und 'n normalen wird es ungefähr eine Stunde für eine, dauert ungefähr eine Stunde fürn normalen Engineer und Devyn hat dreißig Komma fünf genutzt. Das heißt, wenn man pro, also wenn man von zwei Dollar pro ASCU ausgeht, dann sind es sechzig Dollar, die sozusagen die Stripe Stripe Integration gekostet hat.
Fabi: Ja, es gibt auch noch mal 'n ganz guten Kontext. Viel danke dafür noch mal. Ja, ist, ich hatte nämlich irgendwo anders irgendwas gelesen davon, acht Dollar pro Stunde, aber deine rechten Beispiele sind auf Fall noch mal eine, also je nach Beispiel noch mal eine ganze Ecke extremer, ja.
Philipp: Ja, es sind zwei zweites Beispiel, was er hier noch hat, ist Credits zu ändern. Das sind nur zwei oder eine Instagram Business Integration heißt die Aufgabe. Via Relay App. Das hat dreiunddreißig ACU gekostet, aber es hat es nicht geschafft. Also man zahlt auch, wenn sozusagen die Aufgabe nicht erfüllt ist.
Fabi: Ja, das ist schon, also deswegen bin ich mal gespannt. Ich glaube, dass das der Genickbruch wahrscheinlich wird, also außer Sie kriegen's halt irgendwie irgendwo da ins Gerät, dass es noch sehr viel günstiger wird so oder sehr viel zuverlässiger so. Ich mein, wenn man zuverlässiger sagen kann, danach wird der Task erfüllt, dann ist es vielleicht noch mal
Philipp: Ja, das
Fabi: ist anders. Die große Schwierigkeit, die
Philipp: ich irgendwie sehe, ist, sie nutzen ja auch nur Modelle von irgendwie oder OpenAI und haben die irgendwie vielleicht gefeintunet oder sonst was. Das heißt, sie sind nicht der der, sag ich mal. Und ich kann mir halt ganz gut vorstellen, so ähnlich wie bei Cursor oder anderen vertical Start ups, dass wenn Devin erfolgreich wird, kommt halt Open AI oder GitHub Co Pilot am ehesten wahrscheinlich, implementiert das. Und ich mein, es gibt ja schon die ersten Ansätze, dass ich 'n GitHub Issue aufmache und Copilot dann von alleine losgeht und mir 'n öffnet, dann stellt sich halt die Frage, okay, wer hat die bessere Experience oder die besseren Ergebnisse und den besseren Preis? Und ich stell mir halt vor, wenn Du die Modelle selber hostest, wie GitHub das macht, dann kannst Du viel eher am Preis spielen. Und ich seh definitiv sehr, sehr interessante Use Cases. Also ich weiß nicht, wie's bei dir der Fall ist, aber ich hab ganz oft einfach kleine Tasks, die mich aus meinem normalen Flow rausreißen würden, wo ich einfach nur 'n Dock updaten muss, eine neue Version hinzufügen muss oder 'n JSON verlängern muss und neue Werte hinzufügen oder halt ganz vieles so kleine Dinge halt einfach. Und natürlich macht man die und die dauert auch nicht viel Zeit, aber ich kann mir schon vorstellen, dass wenn irgend einen Produktmanager oder so was oder jemand anderes einfach nur 'n GitHub Issue aufmacht, so, hey, wir haben einen neuen Container Release, den muss man jetzt in unsere UI updaten. Bitte ändere den den Output einfach.
Fabi: Ja, cool würde ich sagen, schauen wir mal, wer den das Race diesen Agentic AI gewinnt, ob der, wenn es auf die Qualität schafft und dann OpenAI und Google oder wer auch immer nachziehen oder ob sie vielleicht auch einfach scheitern an dieser an dieser Kostenhürde. Na ja, aber wir sind jetzt schon relativ weit in der Zeit. Zwei Themen haben wir noch, vielleicht hatten wir's kurz. Philipp Ko hier hat zweihundertvierzig Millionen eingesammelt und GitHub hat 'n Chat GPT like Interface.
Philipp: Genau, also Ko hier hat jetzt nicht direkt zweihundertvierzig Millionen eingesammelt, sondern der kanadische Staat hat angekündigt, Kuhier für zweihundertvierzig Millionen Dollar zu unterstützen in. Bedeutet so viel wie wahrscheinlich, Qiir bekommt Zugang zu einem staatlich geförderten CPU Cluster, wo sie 'n Computing Spin von zweihundertvierzig Millionen haben, unbekannt über welcher Zeitraum, aber definitiv sehr, sehr cool und dann auf der anderen Seite sehr, sehr schade für Europa und Deutschland, die nicht so aktiv dabei sind, weil ich denke definitiv, mit irgendwie OpenAI oder Google mithalten zu können, vor allem für deutsche oder regionale Start ups braucht man diese Unterstützung, weil ansonsten wird alles weiterhin so bleiben wie bisher, dass wir halt einfach die Modelle oder alles Geld in die USA rüberschieben.
Fabi: Ja, definitiv. Da wird Deutschland und die EU im Allgemeinen 'n bisschen nachholen müssen.
Philipp: Genau und dann superkurz zum Abschluss, wenn ihr GitHub Copilot Kunden seid, könnt ihr jetzt auf GitHub Punkt com Slash Copilot gehen und habt dort eine 'n Chat GPTlike Interface, mit Cloud drei Punkt fünf, GPT vier o und o eins Preview sozusagen zu chatten. Es ist 'n bisschen restriktiv. Es ist bewegt sich nur im Codehorizont. Das heißt, wenn ihr irgendwie fragt, schreibt mir 'n Gedicht über etwas, kann es sein, dass es einfach antwortet. So, hey, ich bin GitHub Copilot, ich helf dir beim Problemedösen von Code. Sehr cool ist es, dass es Zugang auf euren GitHub Account hat. Das heißt, wenn ihr irgendwelche Fragen bezüglich Issues, Pull Requests oder anderen Dingen habt, könnt ihr die direkt nutzen.
Fabi: Cool.
Philipp: Und als kurzes Preisvergleich kostet zehn Euro im Monat und man bekommt Zugang zu Cloud drei Punkt fünf und o 1. Das heißt, wenn ihr aktuell vielleicht Cloud oder AI Kunde seid, Cursor Kunde seid oder irgendwie Chat GPT Kunde, dann vielleicht mal reinschauen, ob das nicht die die bessere Lösung ist.
Fabi: Sehr coole Alternative. Philipp, vielen Dank für deine Zeit, euch wie immer vielen Dank fürs Zuhören. Wir sind am Einunddreißigsten beziehungsweise dann wahrscheinlich bei euch am Ersten noch mal da mit 'ner Folge und machen son bisschen Ausblick auf, was wird da nächstes Jahr wohl so passieren im AI Umfeld? Bis dahin. Philipp dir, vielen Dank. Tschau.