News AI #36 –

Anthropic Model Context Protocol // OpenAI Leak

04.12.2024

Shownotes

In dieser Folge unterhalten sich Philipp und Fabi über das neue Model Context Protocol von Anthropic. Philipp hat gerade einen Developer von Anthropic in Las Vegas auf der AWS re:Invent getroffen und konnte somit direkt aus erster Hand von den Gedanken hinter dem Protokoll berichten.

Es gibt ein neues Open-Text-to-Video-Modell namens LTXV. Offen war auch für kurze Zeit das Konkurrenzmodell von OpenAI namens Sora. Ein Künstlerkollektiv, das Beta-Zugriff zum Modell hatte, hat ihren API-Key veröffentlicht, um gegen die vermeintlich unrechtliche Nutzung von bspw. Video und Bildern zum Training solcher Modelle zu protestieren.

Es gibt nun auch Open-Source-Konkurrenz für die Reasoning-Modellreihe o1 von OpenAI. Beide kommen aus China. Einmal QwQ und zum anderen Deepseek r1 lite.

Niantic will mit den Scans ihrer Spieler:innen aus Pokemon Go sowie Scaniverse ein universelles 3D-Navigations-AI-Modell bauen und Windows hat es endlich geschafft, das Recall-Feature in den Microsoft Copilot Plus PCs für Beta User:innen freizuschalten.


Weitere Links:
- Suno v4 (Link)
- Blockhain & AI Game namens Freysa.ai (Link)
- SoftBank investiert weitere 1,5 Milliarden Dollar in OpenAI (Link)
- The State of Generative AI in Enterprises (Link)

/transkript/programmierbar/news-ai-36-anthropic-model-context-protocol-openai-leak
Fabi
Hallo und herzlich willkommen zu der programmier.bar AI News Nummer sechsunddreißig. Ich bin der Fabi und mit mir ist er wie mal dabei der Philipp. Hi Philipp. Hallo. Diesmal geht's nach Las Vegas. Du wirst mal gucken, wie müde deine Stimme in der Folge sein wird. Bei dir ist grad vier Uhr, bei mir immerhin dreizehn Uhr mittags, aber bist schon beilchem buff. Von daher mal gucken, ob es mit mit so viel so wenig Schlaf, wie gut die Folge funktioniert. Wir haben aber auf jeden Fall einen, auch wenn er viel der Philipp vielleicht müde ist, haben wir trotzdem viele Themen und eine vollgepackte Folge. Es gibt eine neue v vier von Suno. OpenAI ist natürlich auch wie immer dabei mit 'n paar News, unter anderem auch einen kleinen Leak rund Sora. NYANTEC, die unterm Macher von Pokémon Go wollen eine AI Navigationssystem bauen. Windows Recall, also das Recall Feature auf den Copilot plus p cs haben wir häufiger mal wieder angesprochen, was da eigentlich ist. Endlich gibt's 'n Update. Ansonsten haben wir die ersten offenen Modelle mit DeepSeek unter anderem an hat das Model Context Protokoll rausgebracht und es gibt auch ein offenes Text to Video Modell und noch ein paar kleine andere Themen wie zum Beispiel den State of Gen AI in Enterprises. Lass uns doch mal loslegen, weil Du grade auch erzählt hast, Du bist grade in Las Vegas, hast ja auch unter anderem Leute von getroffen, hast dich auch über das unterhalten. Was hat's 'n damit auf sich?
Philipp
Genau, also das ist, wie hat, ein open, neuer Open Source Standard zum Connecten von AI Systems mit Systemen, deren Daten oder Features außerhalb liegen. Und vielleicht noch mal 'n ganz kurzen Bogen zu spannen. Wenn man, sag ich mal, hat man ja ganz oft dieses Tool Calling. Das heißt, ich hab mein LLM und hab dieses Jason Sema Tool Calling, wo ihr dann sozusagen das LLM mir 'n, wenn es 'n Tool nutzt 'n und dann kann ich parcen und dann hab ich halt irgendwo in meinem Code eine Python Function, die ich halt ausführen kann. Bisher ist es aktuell immer so, dass der und die auf demselben Host, sag ich mal, passieren. Also in meiner Applikation hab ich all meine Tools und das mehr oder weniger das. Das heißt, ich hab kann mein LLM Applikationen bauen, eine Chap Applikation zum Beispiel und alle meine Funktionen oder halt LLM Tools mehr oder weniger als Server bereitstellen. Und sie nennen das dann auch Server und es gibt dafür. Und nicht nur haben diese Server Tools, sondern die haben unter anderem auch Resources, was so viel wie für Daten oder 'n State gedacht ist und dann noch. Das heißt, Sie haben auch 'n 'n cooles Beispiel released mit, das ist so, dass man sozusagen son MCT Server hat für. Dies erstellt Toolsbereich bereit, denen man zum Beispiel Daten installieren kann, die Datenbank, Daten lesen kann. Also ich kann eine mehr oder weniger generieren, mehr alle Tablets listen, also wie ich, mehr oder weniger ganz normal, wie man bisher vielleicht kennt, ich hab Tools, mit der Datenbank zu arbeiten. Zusätzlich haben Sie aber auch eine Ressource mit Release. Die Ressource ist in dem Fall einfach nur 'n State von Aktionen, die man durchgeführt hat, 'n besseres Verständnis zu bekommen. Ich hab auch gestern mit, heißt der, geredet von Antropic, der ist dort, sag ich mal, Developer Advokade und deren Idee ist wirklich, wenn man die Coupelte Systeme hat, ist es ja immer ganz schwierig, den State aufrecht zu erhalten. Vor allem, man kann sich's so vorstellen, Chatuser eins nutzt die Applikation, Chatuser zwei nutzt die Applikation und Chat User zwei arbeitet vielleicht mit 'nem Tool und macht irgendwie eine Änderung, dann muss das ja irgendwo gespeichert werden. Und Tools an sich haben ja keinen State. Das ist ja einfach nur irgendwie, ich führ eine durch, aber die Daten sind woanders. Und der Gedanke hinter der Ressource ist dann, dass man dort wirklich wie 'n Art State, der kann in Memory zum Beispiel sein oder kann halt auch eine andere Datenbank sein, die ich dann wieder bereitstell, implicide oder explicide für den anderen User. Das heißt, Resources werden entweder, sage ich mal, immer in den System prompt mit hinzugefügt. Das heißt, wenn ich eine Anwendung baue und ich hab irgendwie eine eine Resources für irgendwie Postress, dass zum Beispiel immer die die aktuellen Postress Sleemass oder so bereitgestellt werden. Und dann, wenn ich 'n Call mach, dass die schon bereit sind für das Tool und das Tool son bisschen mehr generisch ist und einfach nur eine SQL erstellen kann. Prompts ist der Gedanke einfach, man hat irgendwie, sage ich mal, Prompts für verschiedene Anwendungen und man möchte die halt eventuell auch nicht auf, sag ich mal, der kleinen Satte Das heißt, wenn ich eine Chatanwendung hab, dann möchte ich ja nicht irgendwie die spezifischen Proms für wie nutz ich 'n Tool am besten, sei es oder auch User Proms zum Testen auf der kleinen Seite haben, sondern ich möchte das ja im besten Fall auch einfach auf der Sereseite, wo die Logik der Tools oder der Daten vorhanden ist. Und die Frage, die ich mir auf jeden Fall gestellt hab, als es released wurde, okay, wie kann ich 'n diesen diese LLM Applikation bauen? Und bei Release haben Sie in der Desktop App sozusagen das das integriert. Das heißt, wenn ihr die Desktop App nutzt, können die auch aktuell schon nutzen. Da gibt's ganz viele von irgendwie gDrive zu irgendwie lokales, GitHub oder auch Slack. Das heißt, ich kann einfach mit in meiner Desktop App jetzt verschiedene Tools direkt mit den anderen Sachen verwenden, dass ich irgendwie sagen kann, her, stell mir 'n zu dem, das irgendwas macht zum Beispiel. Und die Frage für mich war immer, okay, wie baue ich 'n diesen kleinen oder die Chatanwendung bei, okay, wenn ich meine Tools auf der Serverseite hab und verschiedene Server am Laufen hab, wie sag ich beim LLM, welchen Server es nutzen soll?
Fabi
Mhm.
Philipp
Und in dem Gespräch gestern kam auch 'n bisschen raus, dass da eventuell 'n bisschen Dokumentation führt, fehlt. Und wir schauen auch jetzt, dass wir das, sage ich mal, gemeinsam nachholen können, weil für mich vor allem war's interessant, okay, wenn es 'n Standard sein soll, wie kann ich das mit mit anderen Model Modellen nutzen? Also wie kann ich das irgendwie mit OLama zum Beispiel nutzen, was auf meinem PC läuft oder irgend 'nem Modell von Haginface oder 'n Modell, das ich über BLLM hoste oder vielleicht mit Open Air oder Gemini. Und der Gedanke wirklich hier ist von allem, dass sie dieses als Standard entwickeln und dass wirklich jeder davon profitieren. Man kann aber nicht, dass es nur son spezifisches Feature ist, dass da mit meiner Desktop App funktioniert. Und für, sonen Client- oder Chatanwendungen zu bauen, ist der Gedanke, dass die Tools mehr oder weniger bei Start geladen werden. Das heißt, der ist, okay, ich hab zwei Server, die haben dann, sag ich mal, Routen, die man aufrufen kann, wo sie alle Tools return. Die sind dann auch in diesem Json Schemer. Das heißt, ich hätte sozusagen wie sone Art Tools, wie ich die aktuell schon definier, nur dass halt davor gemacht wird Richtung Server und dass ich die dann integrier. Hier kann man natürlich auch wieder dynamisch irgendwie mit von 'nem User Input sagen, okay, ich nutz ja halt nur irgendwie Tools, weil er irgendwas mit 'ner Datenbank machen möchte oder er möchte halt irgendwas auf machen. Das ist der Gedanke hier, aber für Resources und Prompts, da ist der Gedanke, dass entweder oder implicide vom Anwenderentwickler. Bei clauff Desktop ist es zum Beispiel so für Prompts, dass es wie so Art gibt. Das heißt, bei 'nem prompt hab ich 'n 'n String Template und dann brauch ich zum Beispiel oder sag ich, okay, dieses String Template braucht zwei Variablen mit und irgendwie Region. Und die Idee ist dann, dass ich aus diesem Prompt eine Art UI rendern kann, dass ich wie eine Form hab, wo dann der User sozusagen die Zweitfelder einfügt und nicht dieses Textfeld, wo er frei definieren kann, was man schreibt. Und das Ziel ist, glaube ich, soweit ich's jetzt verstanden hab oder was es für mich sagt, dass das sich einfach ermöglichen kann, wie's so ähnlich bei Office Power Apps Anwendern superschnell, wie so Art bisschen mehr strukturiertere Anwendungen oder Use Cases zu schreiben, dass ich, wenn ich zum Beispiel irgendwie eine Rechnung generieren möchte, da hab ich ja oftmals dieselben Informationen, die ich benötige. Aber ich muss vielleicht nicht diesen ganzen Daumen schreiben, wo man erstellen mir bitte eine Rechnung, die nach dem und dem Schema ist, sondern das ist dann Teil des MCP Servers. Und ich hab dann eine UI, die dann mehr oder weniger dynamisch die generiert. Und für Resources ist es so ähnlich. Das ist auch wieder explizite oder implicity haben wir es dann genannt. Bedeutet, die Ressource ist in jedem User hinzugefügt und ich kann das aktivieren, so ähnlich wie Web Search, dass halt bei jedem User in meinem System prompt irgendwie aktuelle Informationen zu dieser Ressource sind, welche zum Beispiel 'n Datenbanksthema sein können. Oder explizit, dass ich halt das alles auch über sowieso generier oder aktiviere, dass ich irgendwie eine Ressource hab über Giira, typisches Racksystem, dass ich halt sag, okay, es soll immer 'n Kontext für spezifische Tickets irgendwie mit integrieren und das kann ich als User aktiv steuern. Also da ist keine wie diese Ressourcen oder genutzt werden können, sondern das ist mehr, dass man einfach Struktur hinzubefügt, wie ich wirklich so, sage ich mal, bauen kann, die dann von verschiedenen Clients genutzt werden kann. Weil es kann ja sein, dass ich zum Beispiel als Unternehmen, ich weiß nicht, ich manage Gyra, manage Gyra und ein Teil von meinem Unternehmen baut halt eine Chatbot App, irgendwie den Entwicklern zu helfen und der anderen Teil ist mehr für Produktmanager, die vielleicht bisschen mehr Struktur brauchen, dass ich einfach hier mehr Flexibilität hab und nicht diese Tools immer auf der,
Fabi
richtig versteh bei deinem Toolbeispiel, wo Du meintest, da wird 'n Formen geränder, das wäre sozusagen das das Tool selbst definiert, welchen Input es braucht. Und es gibt ein definiertes Format, was das Tool sozusagen schicken kann, was dann irgendwie auf Clientseite gerendert wird, aber der Client weiß erst mal gar nicht, was wird gerendert, sondern das Tool entscheidet, ich brauch diese Informationen, die sollen in folgender Struktur sein und der Client rendert daraus eine UI, die diese Information möglichst strukturiert vom User aufnimmt, weil man nicht genau weiß, welche Informationen das sind.
Philipp
Genau und so, also das ist der MCP Server, der hat, Tools und Resources. Und alle diese drei, sag ich mal, Attribute haben List Routen. Das heißt, ich kann, List Tools, List Resources machen und ich kann die auch retreamen. Das heißt sozusagen, der dynamische Fall wär bei Applikationsstart würden List Resources ausgeführt, dann oder Listproms eher gesagt, dann hab ich alle meine Proms. Die Proms haben dann eine Definition so von wegen, hey, ich brauch die und die Felder in dem und dem Typ. Und die das kann man dann nutzen, sone Art dynamisches Form zu generieren und dann zu rendern. Das heißt, wenn der MCP Server seine Spezifikation ändert, dass ich für zum Beispiel für irgendeinen speziellen mehr Informationen benötige, updated einfach nur der MCP Server, welche Informationen er benötigt. Ja. Und wenn das dann eine Userinformation ist, kann man einfach, updated sich die UI auch, sag ich mal, sozusagen mit.
Fabi
Und die die aber diese was Form von was für Form von Ressourcen es sozusagen geben kann, wenn Ressource grad in dem Fall der richtige Begriff hat, das ist sozusagen natürlich vordefiniert. Also kann's nicht irgendwie
Philipp
Nee, es ist komplett frei. Also Ressource ist nur eine Abstraktion. Das könnte 'n 'n 'n sein, das auf dem Server liegt. Das könnte irgendwie nur 'n in sein. Das könnte eine Datenbank sein, die Du aufrufst mit irgendwie Post presses. Es kann auch 'n anderen API Endpunkt sein, der einfach nur einfach der Gedanke ist, dass ich über Ressourcen wie son Art managen kann, wähle. Man kann auch, ist aktuell noch, glaub ich, nicht ganz verfügbar, aber wie in Art Push System bei Ressourcen hinzufügen. Das heißt, als Client, wenn ich mich zu dem MCP Server connecte, hab ich eine On going Connection und ich kann zu sozusagen eine Ressource. Das heißt, wenn ein anderer User die Ressource ändert, wie zum Beispiel irgendwie eine Art Information oder eine Art Message oder wie 'n normaler Trade mit 'nem Status, dann wird automatisch eine Push Benachrichtigung an die geschickt, dass jetzt hier zum Beispiel sich was geändert hat. Was natürlich sehr wichtig ist, wenn ich irgendwie im Kontext arbeite, wo ich aktuelle Informationen brauche. Das beste Beispiel, mit dem wir gestern zurechtgekommen sind, ist, ich hab 'n, sag ich mal, 'n Onlineshopping Chatbot, worüber User was kaufen können. Und ich hab 'n, sage ich mal, asynchrones Client auf der anderen Seite der Rechnungen erstellt. Und für diesen klein ist es ja irgendwie wichtig zu wissen, wann der Warenkorb upgedatet wird und wenn ein Warenkorb upgedatet wird, dass sich sozusagen andere Dinge durchführen kann wie eine Slack Nachricht schicken oder andere Sachen.
Fabi
Okay, wahrscheinlich als Ressource sozusagen, was immer die datenhaltende Quelle sozusagen.
Philipp
Ja, genau. Einen Punkt,
Fabi
auf die ich auch subscriben kann. Okay und dann Also 'n
Philipp
Tool kann sozusagen eine Ressource verändern.
Fabi
Mhm.
Philipp
'N Tool kann auch an sich eine Ressource lesen, also irgendwie, das ist alles 'n bisschen noch sehr, sag ich mal, vermischend. Und es gibt doch keine genaue Definition, aber der Gedanke ist wirklich halt, dass Ressourcen mehr oder weniger explicide und implicide zum User oder für den User erreichbar sind. Und Tools ist ja das, was wir ja kennt von Agents, dass das LLM selber entscheidet, wann es irgend 'n Tool callen soll.
Fabi
Okay, dann noch mal eine letzte Verständnisfrage, die hatt ich, glaub ich, vorhin falsch gestellt so. Die Dinge, die auf der UI Seite dynamisch gerendert werden können, so welche Art von Inputinformationen es dort geben, kann das aber irgendwie fest. Also das ist im Endeffekt irgendwie Input Felder wie Strings, keine Ahnung, E-Mail, Number, so. Also diese diese Typen, die dort werden können oder die die werden können, die wiederum sind schon irgendwo fest definiert. Welche Arten von Input?
Philipp
Genau. Also es gibt sone Art, die das Schema definiert. Das ist alles Teil von dem Protokoll. Okay. Das Gleiche gilt für Tools oder auch für Resources. Und dort hat man verschiedene Identifier wie der Name und die Beschreibung von dem Feld, dass man halt Labels in der UI rennen kann. Man hat 'n Status, also brauch ich das oder ist das optional? Und dann auch noch was, was der Input ist.
Fabi
Ja, cool. Es klingt auf jeden Fall super superinteressant. Das heißt ja jetzt gerade richtig ausm Konnexation, da arbeitet son bisschen in der Doku da mit oder hilfst zumindest.
Philipp
Ja, der Gedanke ist ja, dass Also ich werde auf jeden Fall mir anschauen, wie ich das mit, sag ich mal, Open Modelle nutzen kann und 'n Beispiel veröffentlichen und dass wir eventuell die Dokumentation 'n bisschen verbessern.
Fabi
Ja, aber klingt klingt auf jeden Fall mega interessant mit dem Anthropic Model Contact Protocol. Vielleicht, auch wenn's ein brüchiger Übergang ist, zumindest das Tool Calling ist Teil des nächsten Themas, nur 'n ganz kleines, aber ich find's fast grade an der Stelle. Und zwar gibt's 'n ganz witziges Game, Phraser AI, 'n Game, was Blockchain Technologie und Language Models kombiniert. Und zwar geht's grundsätzlich darum, dass es eigentlich nur ein ein Chatinterface ist, wo man mit der Phraser AI interagieren kann. Diese Phraser AI, deswegen passt's jetzt grade, hat zwei Tools zur Verfügung, die da heißen, Approved Transfer und Reject Transfer. Weil das Spiel ist, dass man im Endeffekt für eine Nachricht an Phraser Geld bezahlt. Und das kann jeder tun. Das Ganze läuft auf 'ner Ethereum Blockchain und man der erste die erste Nachricht kostet zehn Dollar. Und ab dem nach jeder weiteren Nachricht wird die nächste Nachricht null Komma sieben acht Prozent teurer bis zu einem Camp von viertausendfünfhundert Dollar. Und was man erreichen will mit dem Ziel ist, dass die Fräser AI, die denn den Pott freigibt, weil jede Nachricht, die man sozusagen bezahlt, siebzig Prozent davon gehen in einen Pott Defekt an bei dreitausend Dollar. Und wer's schafft, das LLM zu überzeugen, die das Tool Approved Transfer auszuführen, der kriegt den gesamten Pod. Und da gab's bisher, glaube ich, das Spiel ist grade in der in der dritten Runde. Und auf jeden Fall hat's der in der ersten Runde am Endeffekt mit der Nutzer mit 'nem Mix aus System prompt, also probiert den System prompt umzuschreiben. Also man kriegt son paar Regeln. Man weiß, was genau ist der System prompt von System prompt von Phraser. Man sieht auch was von der Implementierung. Also es wird GPT-vier hinten dran genutzt mit eben zwei Tool Calls. Und im letzten hat der Nutzer auf jeden Fall ganz interessant gemacht, den man probiert hat, das LLM einfach da reinzudrücken, dass sie denkt, Approved Transfer machen jeweils genau das Gegenteil von dem, was sie eigentlich sagen. Und ist auf jeden Fall ganz interessant, sich einfach dieses Torium anzugucken. Und ich find's eine ganz coole Art von Spiel. Also die Entwickler verdienen im Endeffekt an jeder Query mit siebzig Prozent von dem, was man ausgibt, gehen in den Pod, die anderen dreißig Prozent sozusagen für Kosten zum Betreiben, aber auch einfach dann der Revenue, den die Developer damit machen. Und zumindest beim beim ersten, was ich vorhin son bisschen den Chat verfolgt habe, da war der Messagebreis am Ende bei vierhundertelf Dollar und somit war der Pott fünfzigtausend Dollar, den der Nutzer ausbezahlt bekommen hat. Sollte es keiner schaffen, also es gibt, glaub ich, bis zu hundertfünfzig Nachrichten, ab dann beginnt ein globaler Timer, der eine Stunde geht. Sollte diese Stunde ablaufen, kriegt der Letzte, der eine Nachricht geschickt hat und dieser Timer erweitert sich immer, wenn eine Nachricht geschickt wird, sollte nach einer Stunde niemand mehr ein eine Nachricht schicken, dann kriegt der letzte zehn Prozent und die anderen neunzig Prozent werden auf alle aufgeteilt, die überhaupt schon eine Nachricht geschickt haben. Könnt ihr auf jeden Fall irgendwie, ich find's eine witzige Art von von Spiel auf jeden Fall. Probiert's mal aus, wenn ihr Lust habt, euer Glück zu versuchen und euer Prompt Engineering Skills ein bisschen zu verbessern und zu probieren, den Pod zu bekommen. Find ich mega, megawitzige Idee. Phraser AI. Lass uns doch mal über paar OpenAI Themen unterhalten so. Wie immer gibt's da eine Latte, die können wir, glaub ich, alle mal zusammen machen. Und vielleicht können wir ja mal son bisschen mit den komischen Dingen, die passiert sind, anfangen. Und zwar gab's einen Leak von Open AI Soros hat es damit auf sich, Philipp?
Philipp
Ja, es war kein richtiger Leak. Ich glaub, es war mir eine Protestaktion. Und zwar gab es, sag ich mal einfach, am sechsundzwanzigsten November auf Parguinface, ein Space von einem, sag ich mal, von einer Organisation, die möglicherweise den Zugang zu ermöglicht hat. Das war am Anfang son bisschen Spekulation, aber man kann ja den Code bei Base paces einsehen. Und sie haben wirklich mehr oder weniger ihren API Key, den sie von OpenAI bekommen haben, zur Verfügung gestellt, dass jeder mehr oder weniger für eine kurze Zeit OpenAI Zora nutzen konnte. OpenAI das auch ganz schnell wieder beendet, ich glaub, nach 'n paar Stunden und hab den kompletten OpenAI AI Service mehr oder weniger erst mal deaktiviert für alle, also nicht nur für die die die eine Gruppe. Und die Aktion mehr dahinter war sone Art, sag ich mal, Protest von diesen Künstlern. Also es war eine Gruppe von Künstler, die halt mit von Open Air Zugang bekommen haben, halt mit Open Air SORRA Videos zu generieren und halt Art zu erstellen. Und der Protest geht mehr oder weniger darauf hinaus, dass sie mehr oder weniger jedem Zugang gewähren möchten als Protestaktion, weil Open Air sozusagen ja die die Werke und die Kreativität von Künstlern mehr oder weniger nutzt, diese zu monetarisieren. Es gibt auch einige, sage ich mal, Videos, die generiert wurden, die nicht von Open EA veröffentlicht wurden zu Sora, was definitiv ist cool, anzusehen, wo man aktuell dort steht. Und ja, sehr interessant zu sehen, dass es doch noch irgendwie vorangetrieben wird. Aber so wie ich jetzt, also ich hab mir die Videos angeschaut und es gibt mir auf jeden Fall nicht das Gefühl, dass seit Februar, März sich dort viel verändert hat in Zeiten von Qualität und was das Modell kann. Und ich glaub, das bleibt immer noch 'n bisschen abzuwarten, ob es wirklich released wird oder nicht, weil ich mein, China und andere Unternehmen und auch jetzt Open Modelle haben ja fast den Stand, den Open Air damals vorgestellt hat und ja.
Fabi
Ja. Ich vielleicht an der Stelle, bevor wir bei 'n Open Air I Themen weitermachen, passt's ganz gut. Es gab gab's noch das 'n weitaus offenes Textvideo mit der mit LTX wie.
Philipp
Genau.
Fabi
Wie ist 'n, was würd's 'n da sagen, was den Qualitätsunterschied angeht?
Philipp
Ja, also Lighttricks heißt das Unternehmen und hat auf eigens, unter Apache zwei Punkt null auch 'n Text- und Videomodell released. Das kann man auch kostenlos testen, wenn ihr keinen Zugang zu dem, sag ich mal, hattet, einfach aufgehen Space gehen. Ich glaub, wir können den auch anhängen. Ich kann einen Prom bereitstellen, sehr cool, weil ich hab 'n, sei es mal sozusagen, man hat 'n positiven Prompt oder 'n negativen Prom, wo man das son bisschen steuern kann, negativ natürlich, okay, was soll das Video nicht darstellen positiv? Was soll das Video darstellen? Und qualitätstechnisch ist es echt abartig, wie schnell wir uns dort voran bewegen, Aber selbes Problem, was Open AI Sora nicht hat beziehungsweise was andere Modelle noch haben, ist, die Videogenerierung ist relativ kürzer. Also bei Sora ist ja angekündigt worden, man kann sechzig Sekunden Videos generieren. Bei LTX sagt man man oder es steht in 'nem Artikel, ich kann fünf Sekunden beziehungsweise hunderteinundzwanzig Frames bei einer siebenhundertachtundsechzig zu fünfhundertzwölf Auflösung generieren auf einer NVIDIA einhundert. Es gibt auch längere Videos, aber auch der Space ist eher für, also die Videos sind alle nur sechs Sekunden. Das heißt, man müsste mal testen, wie lange das geht, wenn man das Modell selber deployed, aber man kann's downloaden, man kann's lokal ausführen, man kann's in der Cloud ausführen. Und wenn ihr halt irgendwie, sag ich mal, bisschen mit Videos macht oder euch interessiert, wie man so Werbung generieren kann, dann ist es definitiv interessant zu schauen. Ist krass, also wir werden halt immer immer besser. Und wer weiß, ob dann Open Air Sora wirklich noch irgendwann interessant ist, wenn ich dasselbe Modell mit 'n bisschen mehr Compi oder auf meinem lokalen MacBook ausführen kann.
Fabi
Oder die Frage ist, ob überhaupt die Version von Sora eine wird, die überhaupt Public das Licht der Welt erblickt Ja. Oder ob's dann vielleicht die nächste Version schon an der Stelle wird. Bin ich auch mal gespannt. Obwohl ich schon, also ich mein, ich mein nicht, viele Du generierst. Ich hab jetzt nur ich hab mir nur die Beispielvideos von LTX angeguckt und da zumindest die Beispielvideos waren noch 'n bisschen merklicher Qualitätsunterschied im Vergleich zu den Storyvideos, die ich mir davor angeschaut hab, aber auf jeden Fall auf 'nem krassen Niveau. Ich weiß jetzt nicht, ob Du 'n anderen Eindruck bekommen hast beim vielleicht selbst Testen, nur die Beispiele, wie der Ich glaub,
Philipp
die die Limitierung ist halt, man hat vierundzwanzig Frames pro Second und nur siebenhundertachtundsechzig Auflösungen. Das heißt, wenn ich das auch auf 'nem größeren Display anschaue, dann wird es schon schwieriger, sag ich mal, von der Qualität her. Aber es ist auf jeden Fall, wenn man das einfach vergleicht, wie schnell man da macht, also vor zwei Monaten oder vor vier Monaten oder sechs Monaten, dann ist es schon sehr beeindruckend. Und vor allem finde ich was sehr, sehr Cooles. Es ist alles immer dieselbe Architektur, also alles basiert auf diesen Diffusion Transformers und ganz viel passiert einfach jetzt über dieses Data Scaling, Data Quality. Und wenn wir mit dem mit den Methoden zu dem hinkommen, was Sorrise oder auch andere proprietäre Modelle, dann ist ja sehr beeindruckend, weil soweit ich weiß, hat das Modell auch nur irgendwie zwölf Milliarden Parameter beziehungsweise kann auf 'nem größeren MacBook m-vier-Pro laufen. Und das ist ja dann wieder eigentlich jeder, sag ich mal, ich weiß nicht, der Marketingmarkt oder so, Photoshop, der hat ja 'n relativ Computer. Ja. Und der könnte das einfach mit einfach ausführen und einbauen. Und ich bin mir sicher, dass dann Adobe oder andere dann immer weitermachen und beides vielleicht Videos schneiden oder Marketing machen, wirklich nur noch prompting.
Fabi
Ja. Ja, auf jeden Fall sehr interessante Entwicklung. Lass uns mal kurz wieder zurück zur OpenAI Combo. Du hattest ja schon gemeint, irgendwie einen vermeintlichen Leak bei Sora. Ist 'n noch andere auf jeden Fall sehr interessant, da da war's ja eher 'nem Protest, der der Nutzer denen Excess gegeben wurde, die trotzdem sagen, hey, ihr nutzt da möglicherweise Daten, die gar nicht so ganz erlaubt sind. Jemand anderes, der das ja genauso sieht, sind ja auch die New York Times, die wir uns so eine Weile vor 'ner Weile schon mal drüber unterhalten, die ja gegen Open AI klagen. Und jetzt ganz interessant, in diesem Fall war es so, dass die die Anwälte von unter anderem New York Times als auch der Daily News Zugriff zu den Trainingsdaten von OpenAI bekommen haben seit dem ersten November, sozusagen zu analysieren, okay, auf welchen Daten wurde das Ganze trainiert, ja sozusagen darauf die Rechtsprechung dann zu basieren. Und dafür hatten sie zwei virtuelle Maschinen, mit denen sie Zugriff auf diese Trainingsdaten hatten und die sogenannte Sandbox. Und so wie aus dem Es gab jetzt nämlich einen Brief von den Anwälten zu einem Vorfall, den's da jetzt gab und wird daraus beschrieben, sah's so aus, dass sie all die Daten, die sie finden, auch auf diesen virtuellen Maschinen speichern mussten und sozusagen alles, was sie suchen, auf auch auf diesen Maschinen bleibt. Ich kann mir vorstellen, auch wenn da nicht viel Kontext zugegeben wurde wahrscheinlich, damit das eben nicht dann geleakt wird, diese Information, sondern dass es halt Teil der der der ganzen Rechtsprechung bleibt und nicht darüber hinaus genutzt wird. Aber ganz zufälligerweise war's dann jetzt letzte Woche so, dass aus Versehen ein Entwickler von OpenAI die Arbeit, die ganzen Anbieter reingesteckt haben, ich glaub, nur von der reinen Arbeitszeit waren's jetzt, glaub ich, von hundertfünfzig Stunden die Rede, aus Versehen gelöscht hat. Alles, was sie sich irgendwie zusammengesucht haben, war auf einmal weg. Er hat wurde wohl probiert, das wieder zu recoverern, aber die die Ordnerstruktur und so weiter, viele Dinge waren nicht recoverable. Und das heißt, im Endeffekt müssen die Anwälte jetzt noch mal von neu anfangen da an der Stelle. Und da gab's dann einen offiziellen Brief natürlich ans Gericht davon über diesen Vorfall, aber sehr interessant, dass aus Versehen das natürlich gelöscht wurde. Will man jetzt natürlich nicht direkt Vorsatz unterstellen, aber irgendwie auch einen sehr, selbst wenn's nur 'n Flüssigkeitsfehler war 'n sehr interessanter Fehler, wenn das irgendwie bei den Daten, die grade Anwälte über sie sammeln, irgendwie da passiert, aus Versehen, diese Daten zu löschen.
Philipp
Ja, das ist echt schon ärgerlich. Also das war schlimm.
Fabi
Ja, das ist wirklich, also
Philipp
Ich frag mich bei so was immer, ich denk mal, das wird ja vermerkt und wird ja auch von den den Anwälten hier dann weitergegeben ans Gericht oder irgendwie so was, dass da bei sonem Richter nicht so son bisschen dieser Vorsatzgedanke entsteht und okay, wenn ich nichts zu verbergen hab, warum mach ich das? Also so dieses Subtile da 'n bisschen oder warum passiert das? Und ja, bleibt abzuwarten.
Fabi
Ja, deswegen aber auch so, ich mein, ist sehr schwierig bei so was, selbst wenn ich jetzt son bisschen drüber nachdenke, warum dabei Also ich glaube wirklich in dem Fall sogar fast eher, dass es dass es aus Versehen war, aber komisch, dass so was passieren kann, aber weil ich mein, da Vorsatz, warum? Dann hätten Sie's doch schon vorher irgendwie probiert, diese Spuren irgendwie zu löschen und nicht, wenn dann die Anwälte was gefunden haben auf diesen virtuellen Maschinen, dann im Nachgang irgendwie die Ergebnisse zu löschen und so. Ist irgendwie, ist schon 'n komischer Zufall, aber ich finde es auch schwierig, sich daraus eine Verschwörungstheorie zu zu machen, so, was jetzt wirklich Ihr Vorteil daraus wäre so. Dadurch, dass dass das Ich mein,
Philipp
es klickt sich halt auch wieder gut, also.
Fabi
Ja, genau. Man Marketing Stunt hier hier. Lösch mal hier.
Philipp
Ja, ich glaub eher halt von den, also, nee, ich denk jetzt nicht von Open Air Seite. Ich mein, ich kann mir das supereinfach vorstellen, dass halt, es gibt auch ganz oft so Automatik Clean up Drops und sonst was und wenn Du da halt nicht explizit sagst, okay, hier gibt's irgendwie eine oder sonst was, dann geh halt mal sone VM flöten. Das kann passieren und wenn ich die Daten halt nicht irgendwie gebagter hab oder keine Also ich mein, wenn ich bei uns drüber nachdenke, wir haben ganz viele Famural Machines, die Leute nutzen zum Entwickeln und wenn die nicht irgendwie genutzt wird für eine Zeit, dann wird die einfach auf Amazon weggekillt. Und wenn derjenige User, der die halt davor genutzt hat, nicht seinen Code committet hat oder gepuscht hat, dann ist der halt weg. Und ja. Ja. So was gibt's ja.
Fabi
Aber ja, ich mein, so wie's aber klingt, wird es sein, dass diese virtuellen Maschinen von OpenAI bereitgestellt wurden, die Anwälte darauf Zugriff haben und so was. Ich mein, dann ist es halt ihr Job, das so zu bauen, dass halt diese Daten auch nicht, also ja. Aber genau, kann passieren und wir wir wir tippen mal auf einen Fehler. Aber ich mein, die Entwickler haben natürlich jetzt auch wiederum etwas Schönes für ihren Job, dass sie da auch mal gerne 'n paar paar Daten löschen. Und zwar gibt's einen neuen Investment von Softbank in OpenAI von eins Komma fünf Milliarden. Und in dem Fall haben Mitarbeiter von OpenAI die Möglichkeit, ihre Shares, die sie an der Firma haben, zu verkaufen. Ich glaub, es hatten wir mal gelesen, knapp über zweihundert Dollar die Aktie, für die es, zweihundertzehn Dollar die Aktie, für die verkauft werden kann, was natürlich so Dinge für Mitarbeiter immer ganz interessant sind, weil natürlich aktuell bei OpenAI jetzt kein IPO oder so was irgendwie ansteht. Das heißt, die, wenn's natürlich immer Shares an die Mitarbeiter irgendwie vergeben werden, dann sind sie erst mal natürlich nur auf dem Papier, bis halt entweder so was passiert oder es 'n IPO gibt. Das heißt, auch wenn man mal 'n paar Daten löscht so, man kann 'n bisschen nett Geld vielleicht hier in der Stelle von Softbank mit nach Hause nehmen, eins Komma fünf Milliarden, die jetzt da investiert werden.
Philipp
Ja, was vor allem sehr interessant ist, also ich weiß jetzt nicht genau, wie viel Mitarbeiter OpenA aktuell hat, aber es sind nicht viel mehr als tausend. Wenn ich die eins Komma fünf Milliarden einfach wären gerecht durch tausend teil, bekommt jeder eins Komma fünf Millionen Dollar von denen. Ich glaub, das wird nicht der Fall sein, sondern weil Wrest Ding und so spielt ja auch noch eine Rolle, was so Aktien angeht und vielleicht gibt's ja irgendwie Prioritäten, wer schon länger da ist oder so was.
Fabi
Es gibt, glaub ich, eine auf jeden Fall nur die, die zwei Jahre mindestens. Also es gibt son paar Sperrminoritäten auf jeden Fall, die irgendwie drin standen, also 'n Partying so. Ich glaub, mindestens zwei Jahre müssen die sein und irgendwie, ja, zumindest auch eine Westing Piriod ausgelaufen sein.
Philipp
Ja, dann lass es fünfhundert sein, da hat jeder mal eine 'n stolzes drei Millionen US Dollar Bonus bekommen.
Fabi
Es gibt schlechtere Zeiten für Open Air zu arbeiten als diese, ja.
Philipp
Ja, ich frag mich halt, ob das dann Also klar, es ist sehr cool oder aber auch vielleicht kann das dazu führen, dass Leute sagen, ja, hey, das reicht mir. Ich hab ausgesorgt, ich mach möchte irgendwie was anderes machen. Ich mein, das hat man ja bei Nvidia 'n bisschen gemerkt, als die Aktie so krass durch die Decke gegangen ist, wo dann plötzlich Mitarbeiter von Nvidia, die dort zehn Jahre waren, irgendwie alle Multimillionäre waren und son bisschen halt die, Ich sag mal, die Motivation könnte 'n bisschen abnehmen, wenn Du schon weißt, okay, ich wir müssen nicht AGI erreichen, weil ich jetzt letzten Monat fünf Millionen US Dollar bekommen hab für 'n paar Aktien.
Fabi
Ja. Ja, definitiv. Das ist, werden sich bestimmt auch ein Paar vielleicht oder für Ich mein, im Endeffekt kann's auch der Part sein, ich mein, in dem Space sich auch irgendwie dann noch mal selbstständig zu machen. Ist ja auch nicht so, dass dass das selten passiert ist, dass das OpenAI Mitarbeitern irgendwie auch noch mal andere Firmen gemacht wurden. Ich mein, wenn Du dieses finanzielle Backing hast so, ist natürlich auch sehr viel angenehmer, dann mal zu sagen, ich geh jetzt mal 'n bisschen mehr ins Risiko so, weil die Frage ist ja auch noch, wie groß ist das Risiko an der Stelle noch? Ja. Genau, aber wenn wir son bisschen uns über Zahlen unterhalten, vielleicht auch noch 'n bisschen interessant so, noch alles 'n bisschen Geld an OpenAI verdient, sonst weiß es auch Microsoft, weil es gab Anfang des Jahres schon mal son bisschen eine Zahlen zu ihrem Microsoft Azure OpenAI Integration, also im Endeffekt über Azure die Anbindung an OpenAI und sozusagen dedizierte Maschinen, auf denen die OpenAI Modelle laufen können und sozusagen für große Enterprises dann so den Zugriff erleichtern. Und da war's noch so, zu dem Zeitpunkt Anfang des Jahres hat die Information gesagt, dass der größte Kunde eigentlich Byteance ist, also die Firma unter anderem hinter TikTok, die im Monat damals, also Anfang des Jahres, zwanzig Millionen US Dollar ausgegeben haben für Microsoft Azure OpenAI. Zu dem damaligen Zeitpunkt waren das waren das fünfundzwanzig Prozent des kompletten Revenue Shares von Azure OpenAI, was sich so hochrechnet auf knapp, wenn man sagt fünfundzwanzig Prozent bei zwanzig Millionen im Monat im Jahr waren, das wären das ungefähr eine knappe Milliarden gewesen, die sie damit umsetzen. Jetzt so gegen Ende des Jahres ist es so, dass die Top 10, da auf jeden Fall einige groß jetzt mittlerweile mit dabei sind. Also Matter und Adobe gehören unter anderem dazu, die beide jeweils eine Million im Monat umsetzen. G zweiundvierzig, die ich, glaub ich, ein ein Unternehmen aus Abu Dhabi meine ich, was ich auch vorher gar nicht so kannte, auch trotzdem fünfundzwanzigtausend Mitarbeiter im AI Space viel sozusagen sagen, sie wollen AI für das für die, wie ich sag mal, Verbesserung des Lebens einsetzen son bisschen, also im medizinischen Bereich viele Dinge machen und so weiter. Und die auch mehrere Millionen umsetzen. Also ist direkt Platz zwei hinter ByteDance. Man weiß nicht genau, wie viel, aber zumindest ganz interessant, der Refhar von ByteDance, weiterhin zwanzig Millionen pro Monat, aber jetzt runter auf fünfzehn Prozent. Das heißt, wenn man's nach Adam Riese mal hochrechnet, ist jetzt der Gesamtumsatz von Anfang des Jahres bis zu diesem Zeitpunkt, wenn man's eben hochrechnet aufm gesamtes Jahr bei ungefähr eins Komma sechs Milliarden von anfänglich nach einer Milliarde gestiegen. Was auf jeden Fall ganz interessant ist so, in welchen Größen da Microsoft auch mit ihrer Azure Plattform und dann OpenAI, weil sie eben da mit mit investiert sind, Geld verdienen? Ist auf jeden Fall kein zu vernachlässigender Geschäftszweig von Ihnen.
Philipp
Nee, interessant bleibt für mich echt die Frage, was macht Meta mit einer Million Dollar im Monat mit Open AI Modelle?
Fabi
Das hab ich mich auch gefragt.
Philipp
Also ist das alles dann jeweils son Data Labeling oder ist es wirklich Dinge, die Sie eventuell aktuell bei Instagram und Ihren Anwendungen integriert haben mit OpenAir, die noch nicht auf irgendwie Lama laufen oder ja. Ja,
Fabi
ja, also dasselbe hab ich mich auch gefragt, Du, ist es am Ende so vielleicht auch Trainingsdatenerstellung oder so was, synthetische Datenerstellung oder so, obwohl eine Million pro Monat dann auch relativ viel ist. Aber Sie werden wahrscheinlich auch, also ich mein, auch Use Cases da draußen haben, wo Sie irgendwie vielleicht auch OpenAI einsetzen, vielleicht auch noch von anfänglichen Dingen oder so. Obwohl, es ist ja auch gestiegen seitdem, ne. Sie waren ja Anfang des Jahres eben nicht eine Töpfchen. Das heißt, es muss ja jetzt eigentlich mehr geworden sein.
Philipp
Ja, aber ich meine halt, also SR Meta ist ja 'n Riesenunternehmen und ich weiß jetzt nicht genau, ob jeder, der bei Meta arbeitet, was mit Lama zu tun hat oder Lama kennt oder ob's da eine interne Policy gibt, dass man Lama nutzt. Und ich mein, Lama drei ist ja, sag ich mal, erst das richtig, richtig gute Modell. Das kam letztes Jahr und Open AI, GPT vier gibt's schon 'n bisschen länger. Und was ist, wenn Teams angefangen haben, Features und Anwendungen zu entwickeln, die halt auf Open AI basieren? Dann möchte er oder dann wechselt man auch nicht so schnell. Ich mein, es sind trotzdem Konzerne, die sehr langsam agieren, wenn man wirklich son Update hat und vielleicht können die auch die Kapazitätakteure nicht bereitstellen für Lama und deswegen ist man bei anderen Providern und ja.
Fabi
Ja. Ja, auf jeden Fall spannend. Vielleicht erfahren wir also, da tut demnächst auch noch 'n bisschen mehr, was die Anwendungsfälle davon sind. Aber wie gesagt, wie Du sagst, einfach ein riesiges Unternehmen. Wahrscheinlich nicht. Aber wenn, dann hört ihr's hier. Ja. Jetzt sind wir schon, wir haben immer noch eine Latte an Themen, sind wir schon bei fünfunddreißig Minuten. Vielleicht gehen wir bei 'n paar Themen 'n bisschen schneller durch. Unter anderem hab ich am Anfang direkt gesagt, Suno V vier, das ein Text-o-Audiomodell, was wir ja schon häufiger mal zitiert haben, unter anderem auch, weil auch sie eine Klage am Hals haben. Aber sie haben ihre V vier rausgebracht mit einerseits besserer Audiogenerierung, also cleanerem Audio, besseren Lyrics und wirklich so, sie nennt's auch teilweise so. Und also zumindest ich als kleiner Musik- und Audio Nerd so macht's auf jeden Fall Spaß zu hören. So die Qualität, wenn man vorher sagt, war vielleicht 'n bisschen muffelig hinzu jetzt wirklich sehr klar definierte Sounds, auf jeden Fall die Qualität ganz klar verbessert. Und zwei interessante Dinge, der eine Part, also neuen Features, der eine Part ist Covers, also dass man eine Melodie als Input geben kann und und diese Melodie, also also ein Beispiel war zum Beispiel, dass einer der Mitarbeiter einfach in der Dusche irgend eine Melodie eingesungen hat und diese Melodie in verschiedenen Styles so adaptieren lassen konnte.
Philipp
Und der
Fabi
andere Part ist Personas, dass man im Endeffekt einen Song nehmen kann und sagen kann, die die Essenz dieses dieses Songs, also seien's Vocals Energie und die ganze Atmosphäre man in eine Persona extrahieren kann und damit noch weitere Songs generieren kann. So, sodass man einfach sagen kann, man kann eine Persona durch mehrere Songs durchziehen, obwohl, so wie ich's verstanden hab, die Persona auf jeden Fall auch die Atmosphäre des Songs beinhaltet. Das heißt, jetzt irgendwie aus dem aus dem Upbeat Track dann dann die Ballade zu machen, wirkt erst mal 'n bisschen schwieriger, auch wenn ich's selbst noch nicht ausprobiert hab. Aber ich glaub, geht alles son bisschen hin da in die Richtung zu sagen, hey, das kann auch wirklich im Endeffekt komplette, wirkt son bisschen, es geht in die Richtung von AI Künstlern, die im Endeffekt dann auch wirklich am laufenden Band neue Musik rausbringen, man mit diesem Person aus sozusagen ein alter Ego erzeugen kann, Musik zu generieren und vielleicht einen Künstler auch zu schaffen im Airis Space. Klingt auf jeden Fall sehr interessant. Apropos interessant, lass uns doch mal noch mal über den unterhalten. Was von welcher Firma kommt's und was wird gesagt, wie der Status bei den Enterprises ist?
Philipp
Genau, ich halt super kürzt, also, hatten macht jedes Jahr 'n State of oder seit 'n paar Jahren State of general ai, zwei, glaub ich, oder drei. Und dabei befragen Sie sechshundert US, also IT Manager, CEOs, CTOs, whatever halt in US Unternehmen. Und einfach zu, 'n besseres Verständnis zu bekommen, wie die general a I nutzen, wofür sie Geld ausgeben. Und schön dabei ist jetzt, dass sie, dass man einen Vergleich hat zu zwanzig dreiundzwanzig und am besten selber einfach durchlesen. Aber son bisschen, was ich herausgelesen hab, klar, alles steigt nach oben, also vor allem der Nutzen von von irgendwie oder geht alles nach oben. Aber was sehr, sehr interessant ist, am meisten ist gewachsen für. Also da ist das Verhältnis achtfach gestiegen, wobei das Nutzen von nur sechsfach gestiegen ist. Und außerdem schreiben auch alle son bisschen Also man merkt, dass Enterprises auch in den USA nicht zu schnell agieren und es auch 'n bisschen langsamer angehen lassen können und wollen und wirklich schauen, okay, wie kann ich Open Source AI wirklich nutzen? Also das ist das, was ich da rauslese, weil ich hab acht Prozent mehr Infrastrukturkosten. Der buy, build versus buy oder die build versus buy dessision ist geschiftet von zwanzig zu dreiundfünfzig Prozent. Also bisher wollten oder letztes Jahr wollten haben zwanzig Prozent nur gesagt, sie wollen sozusagen bilden. Mittlerweile sind es dreiundfünfzig Prozent, also man sieht da wirklich, okay, man möchte sich weiterentwickeln. Natürlich, wie wir alle wissen, meiste Use Cases sind aktuell noch, sage ich mal, Supportanwendungen und vor allem oder halt und, also das, was wir alle eigentlich nutzen und kennen. Sehr interessant ist, zu sehen, dass spezielle Vektordatenbanken nicht zugefragt sind. Also ganz viele haben gesagt, dass einfach die Vektorfeatures von irgendwie Postress oder MongoDB gut genug sind, was auch irgendwie Sinn macht, wenn man da nicht viel Mehrwert davon bekommt und man irgendwie schon eine Postress Datenbank intern etabliert hat. Wieso sollte ich dann irgendwie noch eine spezielle Vektordatenbank hinzufügen? Und dass Feintuning weniger wird. Ich glaub, das ist auch 'n bisschen nachzuvollziehen, weil auch Open Modelle werden immer besser und besser und dazu, das führt einfach dazu, dass Feintuning halt zu 'ner, sag ich mal, späteren Stage in dem ganzen führt, weil wenn ich meine Anwendung mit 'nem existierenden Modell bauen kann und erst die gute Ergebnisse erziehe, ist es nicht wichtig, dass ich fine tune, sondern da möcht ich ja erst mal schauen, okay, funktioniert mein Use Case wirklich, wenn es gut genug ist? Was kann ich verbessern? UI UX technisch? Ich möchte Daten sammeln und dann kommt irgendwann vielleicht der Punkt, okay, ich möchte Kosten reduzieren oder spezielle Prompts oder sag ich mal, Fragen funktionieren nicht ganz so gut. Das sind dann die Themen, wo ich dann sag ich mal, okay, ich möchte mein Modell feintunen, es spezifischer zu machen, es kostengünstiger zu machen. Aber an sich definitiv sehr zu empfehlen, durchzulesen und vielleicht auch 'n bisschen zu vergleichen, wie, sag ich mal, das bei euch intern sich entwickelt. Und ist auf jeden Fall sehr cool, auch wenn es, sag ich mal, speziell nur der US Market ist.
Fabi
Ja, cool. Packen wir auf jeden Fall in die Shownotes, wenn ihr da noch 'n bisschen im Detail reinschauen wollt. Drei Themen haben wir noch. Das eine, worüber wir ja schon immer mal wieder mit 'ner kleinen Seiten, die drüber PCs in ihrem Hauptfeature, was damals, ich glaub im Mai, Juni, als Sie sie announced und kurz danach ja released haben, mit dazu gebracht haben, zwar das Recall AI Feature mit dem grundsätzlichen Prinzip, dass im Endeffekt ein eine Funktion die ganze Zeit auf dem Laptop mitläuft, die den Bildschirm aufnimmt und man das nutzen kann, einerseits per LLM einfach die komplette Historie, was man auf dem Computer gemacht hat, zu durchsuchen und einfach wirklich mit dem LLM zu interagieren und in der Zeithistorie zurückgehen kann, was hat man denn getan? Dafür wurden oder werden Screenshots vom Device gemacht. Und wir haben uns damals drüber unterhalten erstens in der einen Folge, weil's sehr interessant war, in der zweiten Folge, weil's direkt gehackt wurde, weil im Endeffekt die in 'ner, ich glaub, SECOLY Datenbank am Ende einfach nur auf dem Device abgelegt wurden, die dann nicht mal verschlüsselt waren so. Jetzt ist es so, dass dieses Feature endlich das Licht der Welt erblickt, bisher nur im Dev Channel fürn Windows elf Release auf diesen Corporate plus PCs, allerdings nur bei mit Qualcomm Tipps und intern und AMD noch nicht, was dann bald kommen wird. Und es gibt das Recall- und das Click To do Feature. Die Click To do ist 'n bisschen neu, das gab's damals noch nicht. Recall soll jetzt wohl verschlüsselt sein, zumindest es steht im Announcement, dass Microsoft
Philipp
nicht auf die Schlüssel zugreifen kann, alles nur lokal ist.
Fabi
Und wenn die nicht auf Schlüssel zugreifen, kann mit denen verschlüsselt, soll's wohl verschlüsselt sein, würd ich jetzt mal ausm Kontext lesen. Und Bitlocker und Secure Boot muss aktiv sein und man muss auch Windows Hello konfiguriert haben, also dass man mit Face, mit Gesichtsrecognition oder mit mit dem Fingerprint das Device entsperrt. Ansonsten Recall genauso, wie wir's damals erzählt haben von der Funktionalität. Klick To do kommt jetzt noch mit dazu. Und zwar, dass es grundsätzlich eine Funktionalität, dass in diesen Screenshots die Recall macht, im Endeffekt Text und so was wie Bilder besonders gehandhabt und erkannt werden, sodass man beispielsweise mit 'nem einfachen Klick, falls man durch diese Screenshots durchgeht, aus der Windows Key und 'nem Left Klick, man Texte kopieren kann, Bilder kopieren kann oder damit interagieren kann. Und Klick To do soll aber auch außerhalb von Recall funktionieren, dass das, was man grade sieht, mit Klick To do, mit bestimmten Elementen interagieren kann. Sei es, man ist auf 'ner Homepage und kann zum Beispiel mit eben selber selbiger Gesten mit Windows Key- und left Klick zum Beispiel aufm Youtube Video klicken, einfach sagen, mach mal eine Visual Search in diesem Youtube Video. Also so grundsätzlich so, man ist mit Klick To do erst mal nur diese Geste gemeint, Windows Key plus left Klick. Und dann kommt jetzt auch das Element an, mit dem man interagiert, dass dann sozusagen sein soll und bestimmte Features bieten soll. Aber wir sind mal gespannt, wenn das jetzt weiter ausgerollt wird, wie gut das alles funktioniert mit den sensitiven Informationen. Weil wie gesagt, Recorder soll angeblich sensitive Informationen erkennen können, aus den Screenshots extrahieren können wie Passwörter. Und Apps und Websites sind auch exkludierbar, sodass man son bisschen steuern kann. Aber natürlich ist es 'n Feature, was einfach viele Daten aufnimmt und mal ich gespannt bin, ob es bei diesem einen Fauxpas bleibt oder wie in Zukunft über Recall gesprochen wird. Ansonsten über, können wir uns über Bilder unterhalten und Bilder, die aufgenommen werden und viele davon, dann können wir uns auch über unterhalten, die nämlich ein AI Navigationssystem bauen wollen auf Basis der Daten, die sie mit Pokémon Go und ihrer Scannyverse App gesammelt haben. Und zwar ist es aktuell schon so, dass sie ja sonen WPS Visual Positioning System haben, dass sie auf Basis dieser Trainingsdaten nutzen, zum Beispiel im Pokémon Go, bestimmte Positionen und Orientierungen in der Welt, also im Endeffekt dann einer Art drei-d-Karte aus einem einzelnen Image generieren, dass sie erkennen können, wenn man ein Bild macht, wo genau befindet man sich und daraus Lokationen ableiten können. Und dafür haben sie unter anderem fünfzig neuronale Netzwerke bisher trainiert, die insgesamt hundertfünfzig Billionen Parameter haben, was aber im Endeffekt eigenständige neuronale Netzwerke sind, die auch immer son bisschen abhängig von Ort in der Welt bestimmte Dinge analysieren können. Und sie wollen das Ganze zu einem großen Modell zusammenführen, das im Endeffekt so Use Cases zulässt wie Blickwinkel Also bisher sind die bisher sind die Modelle so gebaut, dass sie halt nach einem Bild inferieren können, wie ein Drei-d-Space davon aussehen könnte, wie ein Element von hinten aussehen kann oder Ähnliches, aber diese diese Informationen nicht geschert werden. Beispielsweise wenn eine Kirche in dem einen Modell noch nicht häufig genug fotografiert wurde, dann könnte das eine das lokale Modell von diesen fünfzig, die Sie bisher trainiert haben, beispielsweise die Rückseite von so einer Kirche noch gar nicht wirklich generieren oder erkennen. Wenn Sie das aber kombinieren wollen, wollen Sie sozusagen aus dem Kontext, den Sie in den verschiedenen Einzelmodellen haben, Rückschlüsse auf auf bestimmte Bereiche, die Sie vielleicht bisher noch nicht analysiert haben, machen können, sodass Sie am Ende von der Idee her eine Navigationssystem bauen können, was im drei-d-Space funktioniert. Natürlich ist das dann von ihrem Use Case irgendwann, dass man's vielleicht in 'ner Virtual Reality Brille nutzen kann oder zumindest in 'ner Augmented Reality Brille. Natürlich ist diese Durchdringung da bisher noch nicht so groß, aber Sie sehen schon viele Vorteile darin, son Modell vielleicht zu erstellen, einfach in bestimmten Augmented Fällen oder auch in einfach nur mit Features 'n cooleres Navigationserlebnis zu bauen. Und bin mal gespannt. Also bisher sind es ihre Ambitionen, aber Sie haben schon viele dieser Netzwerke trainiert, einzeln aber noch nicht das große Modell und sehen im Endeffekt ein sehr, ein im Endeffekt ein Modell, was die Welt allgemein verständlich in 'nem drei-d-Space versteht und wirklich mit, der die Welt so gut kennt wie LLMs irgendwie auf Basis unserer Texte unsere Welt kennen. Klingt auf jeden Fall interessant. Mal schauen, was und wann sie da irgendwas releasen und wie man's überhaupt nutzen kann oder ob das erst mal nur vielen der VR Use Cases verborgen bleibt. An unser letztes Thema noch, haben wir 'n paar offene Modelle zwei in der Zahl. Was was für Modelle sind das, Philipp?
Philipp
Genau, also wir haben ja vor 'n paar Monaten über über Open Air 1 geredet, welches son Art neues Konzept von Open Air ist, welches skaliert. Also umso mehr genutzt wird, Tokens zu generieren, umso besser wird die Antwort. Und das war wirklich, ich sag mal, beeindruckend zu dem Zeitpunkt, weil man einfach dieses Konzept von verbesserter Qualität oder Performance mit mehr generierten Token einfach noch nicht so bewiesen wurde. Und seitdem sind alle, sag ich mal, drauf und dran dabei, dieses Modell zu replizieren. Und wir haben jetzt die ersten zwei Modelle aus China, von DeepSeak und von Quen beziehungsweise Alibaba, das ist wirklich hinter Quen, released beziehungsweise verfügbar. DeepSeak kann man in deren Chatapplikation umsonst testen. Serviceprinzip, wenn ihr OpenAIO 1 mal getestet habt, man kann irgendwas fragen. Und das generiert erst, sage ich mal, 'n sehr langes Jaina Ford Gedankenkonstrukt, wo es wirklich durchgeht, überlegt oder auch diese Phrasen hat, wem ist das überhaupt der richtige Weg und versucht son bisschen zurückzugehen und das die Lösung neu zu betrachten. Und kann man testen, umsonst fünfzig Nachrichten am Tag und auch also wie vor allem sehr gut auf, sag ich mal, mathematischen komplexen Problemen. Und Alibaba hat letzte Woche ihr Quen Queue, Quirl, ich Quenq, ich glaub heißt's, also Queue released, zweiunddreißig Milliarden Parameter Modell, Apache zwei Punkt null, Aufharlingface, Service Prinzip und was vor allem bei Quen so beeindruckend ist. Es ist auf Benchmarks, die man selber reproduzieren kann, besser als open AI01 preview in drei, nee, in zwei mathematischen Benchmarks oder aber auch für, welche ein, sag ich mal, wie sone Art Ansammlung von Universitätsprüfungsfragen ist, besser als das Open Air o 1 mini und genauso gut wie Cloud drei Punkt fünf Sonet on. Und das Coole daran ist wirklich, ich kann's auf meinem MacBook ausführen. Also ich hab mir das in vor, also die die quantisierte Version runtergeladen, zweiunddreißig Gigabyte Arbeitsspeicher reichen auf 'nem MacBook, das auszuführen. Klar, man hat 'n bisschen einen Verlust durch die Quantisierung, aber es ist sehr, sehr cool. Also wenn man irgendwie so mathematische komplexe Probleme lösen kann das halt aufm MacBook funktioniert, wo man vor 'nem halben Jahr oder Jahr gedacht hat, okay, ich brauch irgendwie Server, die zweihundert-, dreihunderttausend Euro im Monat kosten und wir das jetzt einfach fast auf jedem PC ausführen können, ist schon sehr, sehr cool. Also definitiv mal testen. Es gibt für beide einen beziehungsweise man kann es kostenlos nutzen, einfach mal zu sehen, okay, wie aktuell das funktioniert.
Fabi
Mega cool. Packen wir wie immer in die Shownotes. Ist doch ein guter Punkt, aufzuhören. Und diesmal glaub ich, sind so längst AI News Folge. Wir haben vorher schon gescherzt so, wann wir auf die wöchentliche kommen. Mal gucken, wie's nächstes Jahr auf die wöchentliche AI News kommen. Mal gucken, wie's im nächsten Jahr weitergeht. Also mit fünfzig Minuten hier in jeder Folge, so kann's auf jeden Fall nicht weitergehen. Aber viele coole Themen. Philipp, vielen Dank dir. Vielen Dank fürs für Aufstehen. Viel Spaß auf der in Las Vegas und euch wie immer vielen Dank fürs Zuhören und bis in zwei Wochen. Tschau, mach's gut.
Feedback