Wird AI nicht mehr schlauer oder bekommen wir AGI schon 2026?
- // Podcast
- // News AI #35
Shownotes
Einige Artikel behaupten, dass wir uns einer Asymptote für AI Verbesserungen nähern. Werden Modelle in Zukunft wirklich nicht mehr durch erneutes Trainieren besser, sondern eher durch Reasoning wie die neuen OpenAI-o-Modelle? Oder ist es wirklich so wie Mark Zuckerberg sagt, dass wir schlimmstenfalls keine besseren Modelle, sondern nur noch bessere Anwendungen mit bestehenden Modellen bekommen?
Dario Amodei, CEO von Anthropic, sieht das wohl anders und spricht davon, dass wir AGI schon im Jahre 2026 erreichen.
LangChain hat den State of AI Agents Report herausgebracht, Stripe bietet nun LLM Agents die Möglichkeit, Zahlungen durchzuführen und Mistral hat nun auch eine Chat-Applikation für ihr LLM.
Bekommen wir bald einen neuen Standard für AI, um Inhalte von Webseiten besser zu scannen? Jedenfalls gibt es den Vorschlag, neben einer robots.txt nun auch eine llms.txt in jeder Seite zu integrieren.
Bald wird unsere Lieblings-IDE-Cursor noch besser. Das Team und die Modelle von Supermaven sind nun mit Cursor fusioniert.
Weitere Themen:
- Computer Use
- Anthropic Haiku Release & Costs (Link)
- Qwen 2.5 Coder (Link)
- Alphafold 3 Open (Link)
- Fabi
- Hallo und herzlich willkommen zu einer weiteren Folge der programmier.bar AI News und zwar der Nummer fünfunddreißig. Ich bin der Fabi und mit mir dabei ist hier immer der Philipp. Hi Philipp.
- Philipp
- Hallo.
- Fabi
- Wir haben 'n paar Themen auf der Agenda. Wir unterhalten uns über AI Slowdown fängt's langsam an, dass Ais sich oder LLMs sich nicht mehr weiterentwickeln. Supermaven ist cursorgejoint, unser einer unserer Lieblings IDEs. Stripe hat jetzt die Möglichkeit, Agents mit Payments zu unterstützen. Langchain hat ihren State of a I Agents rausgebracht, misstrol hat eine Chatfunktion. Es gibt ein neues für eine l l ms dot txt Datei, was son bisschen Richtung Robots txt im Web geht. Und wir unterhalten son bisschen über Computer Use von Entropic. Und wie's da so weitergehen könnte das l l ms unsere Computer in Zukunft steuern. Und natürlich haben wir wie immer auch ein paar Updates rund Models dabei. Lasst doch Philipp auf irgendwas klingt immer groß. Was hat Langchain mit ihrem da rausgebracht?
- Philipp
- Genau, Langchain hat 'n State of AI Agents veröffentlicht, bei dem sie dreizehnhundert sozusagen befragt haben, also nicht ganz so groß wie oder. Ist definitiv aber cool und hoffentlich machen sie's, sag ich mal, jedes Jahr direkt vielleicht vorab die Warnung, es wird nicht ganz genau beschrieben, wen sie befragt haben. Ich geh mal stark davon aus, dass 'n, sag ich mal, Entwickler oder Nutzer ihres Frameworks, also wahrscheinlich schon 'n großen in Richtung, okay, Menschen, die mit a I sich beschäftigen, die vielleicht schon mal was von gehört haben, sie haben zwar eine Auflistung von Company Syze und Industrie, wo sich einundfünfzig Prozent der Befragten in Unternehmen befinden mit weniger als hundert Leuten, zweiundzwanzig Prozent noch zwischen hundert und zweitausend Leuten und sechzehn Prozent über zehntausend. Also eher, sag ich mal, kleinere Start ups nehm ich jetzt einfach mal stark an und viel einfach im Technologiesektor zu Hause sind mit sechzig Prozent, also wahrscheinlich gerade AI Start ups einfach mal. Aber einundfünfzig der Befragten haben gesagt, dass sie schon in Produktion benutzen Und Unternehmen zwischen einhundert und zweitausend Mitarbeiter wollen, führen damit die die große Adoption. Also da sind's dreiundsechzig Prozent. Vielleicht ganz kurz vorab, definiert Langchain mehr oder weniger ist 'n System, das von alleine entscheidet, ob es Tool nutzt oder nicht. Also wenn ich zum Beispiel irgendwie ChatGPT oder nutze und es eben Tools zur Verfügung stehe, eine Websuche durchzuführen oder irgend eine Wette aufzurufen und dann bei meinem sozusagen Implementierung, je nachdem, ob der User Input dazu passt, ich dieses Tool verwende oder nicht. Also es sind LLMs, die Systeme, die 'n eigenen Controlflow definieren. Neunzig Prozent von nicht technischen Companys nutzen oder planen, Agents einzusetzen. Und die größten Use Cases sind Research und, Personal Productivity und Service. Und sie schreiben auch, dass Enterprises sich sehr stark auf und Compliance fokussieren und deswegen dort die Adoption auch 'n bisschen weniger stark voranschreitet, weil einfach noch nicht so sind, halt einfach die ganze Zeit erfolgreich ihre Prozesse durchzuführen.
- Fabi
- Hast Du haben wir 'n Definition dafür geliefert, was nicht technische Unternehmen sind? Nee. Okay, weil ich einfach grad noch mal interessant fand, was was das jetzt genau wär, dass wir sagen, so,
- Philipp
- wir wollen's einsetzen. Also Also definitiv mal reinschauen, Sie haben ganz viele verschiedene Charts mit dabei, die wir, glaub, jetzt nicht alle durchgehen müssen. Sie haben auch noch aufgeführt, welche die größten größten Applikationen sind, also im gerade b-to-c-Bereich, da ist Cursor ganz vorne mit dabei als Code Editor, Perplexity auch mit ihrer Suche. Und wenn man vielleicht gerade bei Perplexity reingeht, da hat man ja diese pro Suche. Und im Hintergrund hat man ja dann verschiedene Kontrollflows, die mehr oder weniger entscheiden, okay, wie oft such ich, wo such ich und sonst was. Und dann ist auch noch mit dabei.
- Fabi
- Das heißt aber, die am Anfang, die Zahl mit einundfünfzig Prozent setzen in Produktion ein, ist damit gemeint, dass Sie eigene entwickelt haben, die sozusagen in Produktion sind oder dass Nee, einundfünfzig Prozent der Befragten nutzen
- Philipp
- in Produktion. Aber wie gesagt, man muss vorsichtig sein, was 'n ist. 'N kann auch schon einfach eine normale Applikation sein, wenn ich beim LLM für das Beantworten der User ein Tool mitgeb, das eventuell erstmals noch die umschreibt oder die einfach so weitergibt. Also sobald man einen Kontrollfluss hat, wo das LLM selber entscheidet, ob 'n Tool genutzt wird oder nicht, dann spricht man schon von 'nem in in 'nem, aber dann hat man bei sehr 'n Riesenspektrum von irgendwie kompletter Support, der alles automatisch macht oder halt eine einfache Suche.
- Fabi
- Okay. Aber weil dann weil dann vorhin eine Beispiel waren, so Curse und so was sind ja auch ein per Definitional oder so was. In den einundfünfzig Prozent würde man dann nicht mit reinzählen, die Entwickler nutzen einfach Curse an der Stelle. Nee. Sondern das schon, Sie Ja. Sie haben irgendwas User facing, wo Sie einen Agent einsetzen, den Sie wahrscheinlich selbst entwickelt haben. Ja, interessant auf jeden Fall. Lass uns vielleicht auch mal 'n bisschen Feedback dazu da, ob ihr's schon irgendwo in Produktion einen einsetzt, würd mich im für einen immer 'n bisschen an weiteren Feedback. Natürlich muss man sagen, langchain ist natürlich auch bisschen gefärbt so, wo Du selbst meintest so, zwölfhundert Leute, welche jetzt genau interviewt sind so. Ja. Ich mein, wir gehen jetzt erst mal davon aus, dass sie natürlich probieren, ein ein gutes Abbild wirklich da zu machen und nicht das komplett in ihre Richtung zu färben. Aber zwölfhundert jetzt auch nicht so extrem viel. Sie haben natürlich ein Interesse daran, das in diese Richtung auch aussehen zu lassen. Ja, aber cool. Auf jeden Fall 'n sehr cooler Report. Ich mein, vielleicht dazu passt gerade, auch wenn's eigentlich 'n eher kleineres Thema ist, aber weil's thematisch zumindest sich gut anschließt, haben wir ja grad am Anfang gemeint, Stripe hat im Endeffekt 'n Agent Toolkit, also Stripe der Bezahldienstleister, also wie man's, glaub ich, als am ehesten kennt, einerseits als API nutzbar oder integrierbar in irgendwelche irgendwelche E-Commerce-Anwendungen, haben jetzt ihren einen Agent Tool Kit rausgebracht, was man mit dem integrieren als auch langchain und Crew AI integrieren kann und grundsätzlich einfach die Möglichkeit gibt, ein, weil wir grad eben die Definition von dir für einen Agent gehört sozusagen, die autonom entscheiden können, ein Tool zu nutzen. Und eben hier haben sie jetzt ein Tool für solche zur Verfügung gestellt, damit sie verschiedene Dinge mit der mit der interagieren können, wie beispielsweise paymentlinks erstellen, aber auch so was wie virtuelle Karten oder Invoices, sodass sie einem Agent im Endeffekt sagen kann, erstellt für einen Kunden mal eine eine eine Rechnung über hundert Dollar mit bestimmten Parametern oder im Endeffekt auch man überlegen könnte, dass Buchungen von Mitarbeitern, wenn sie sagen, sie wollen irgendwie Reise buchen machen, eigentlich komplett über sonen Agent abgedeckt werden können, dass da einmal die API genutzt wird, irgendwie Flüge und Hotels rauszusuchen, dann virtuelle Karten über die Stripe API erzeugt werden, diese zu bezahlen und im Endeffekt auch wirklich komplettes Tool durchzubuchen. Was auf jeden Fall super interessant klingt, aber natürlich auch, ich mein, Sie haben dann auch dazu, beschäftigt euch gern mal im Detail damit, wir packen die den Blogpost auch noch mal da mit rein. Einiges auch noch zum Monitoring eben dieser APIs mit dazu gelauncht, weil's natürlich dann sehr interessant ist, sobald man einem Agent die Möglichkeit gibt, im Endeffekt auch Zahlungen durchzuführen im Namen des Unternehmens und so. Klar, diese virtuellen Karten sind natürlich auch managbar mit bestimmten Maximalbeträgen überhaupt pro Karte und so weiter. Aber ich glaub, da kommen interessante neue Herausforderungen, die man dann so hat, wenn man sein Agent die Möglichkeit gibt, komplette Zahlungen fürs Unternehmen durchzuführen. Aber cool, dass Sie das rausgebracht haben und bin mal gespannt, ob das Adaptionen den Unternehmen so findet. Vielleicht haben wir nächstes Jahr im was zu Bezahlvorgängen von AI Agents. Wie fühle da schon, dass diese Bezahlvorgänge einsetzen?
- Philipp
- Ja, vielleicht noch mal ganz kurz, der das Tool ist einfach nur vordefinierte Funktion. Also wenn ihr vielleicht schon was von Calling gehört habt, das ja das, was gelauncht hat, auch mittlerweile in Modelle, ganz viel vorhanden ist, dass man mehr oder weniger 'n Charzen Gamer mitgibt zu meinem, wenn ich laufen lasse und dann das entscheidet, okay, nutz ich jetzt 'n Tool? Und dann generier ich sozusagen den JSON Output wieder, mit welchem Funktion Aufruf dann durchführen. Das Tool hat sozusagen diese JSON Schemadefinition für verschiedene Aktionen mit integriert, so wie auch dann den, man bekommt sozusagen diese und sie haben dann die API mehr oder weniger mit implementiert, dass ich das supereinfach benutzen kann. Und ich find's auch eigentlich echt cool. Also klar, es wahrscheinlich nicht so sein, dass irgendwie auf Zalando ich dann plötzlich meinen Pullover bestell und das alles über 'n Agent irgendwie mach. Aber ich find's gerade vielleicht für so Unternehmens, relativ interessant. Als Beispiel haben Sie hier halt genannt, dass man 'n payment Link erstellt für hundert Dollar und den 'n 'n Slack Channel postet. Wenn ich da irgendwie gerade mal so an irgendwie denk im Unternehmen, wenn man irgendwie was kaufen möchte oder halt über die Unternehmenskreditkarte, dann ist es ja vielleicht 'n 'n 'n cooler Ansatz, wie man das vereinfachen kann, ohne dass jeder Mitarbeiter mehr oder weniger immer dann bei nachfragt so, hey, ich brauch die Company Kreditkarte, keine Ahnung, meinen Flug zu buchen. Und dann könnte mir wie son, der erst mal checkt, okay, ist die Anfrage, passt die zu dem, was man bei uns darf mit irgendwie 'nem Ruggtool und den Policies, die man hat und dann mit dem sozusagen diesen oder diese virtuelle Kreditkarte erstellt und dann einem eine Slack Nachrichten schickt. Find ich eigentlich 'n ganz cooler Use Case.
- Fabi
- Ja, wärst Du ja auch, ich mein, das genau der Partner mit den virtuellen Karten, so funktioniert's bei uns so, weil wir brauchen Unternehmen. Also wenn ich irgendwas kaufen will, ich im Endeffekt kann ich mir einfach eine virtuelle Kreditkarte erstellen mit oder wie auch immer. Und da sind ja jetzt auch schon Regeln hinterlegt, so, wie viel darf ich einfach so? Was ist dann vielleicht, also bin jetzt noch nie in das Limit gekommen, wo man dafür eine gebraucht hätte, so, aber das ist ja pro Firma definierbar. Und im Endeffekt ist es dann ja nur, aktuell muss ich halt irgend eine Website aufrufen, wo ich dann manuell eine virtuelle Kreditkarte erstellen kann. Wenn ich da einen Agent hab, mit dem ich vielleicht interagiere und der kann die für mich erzeugen und ich muss nicht irgendwo auf eine Website gehen. Es ist, sind das auf jeden Fall coole Use Case. Und wie Du auch grade sagst, ich glaub, das ist erst mal absolut nur Unternehmen und unternehmensinterne Prozesse und gar kein. Mhm. Und weil Du nur noch meintest mit dem, ja, da werden die JSON Schemas und die sozusagen vereinfacht. Man kann auch bei der Initialisierung dieses dieser API, die man sozusagen an den Agent mit übergibt, sagen, welche dieser Funktionen überhaupt initialisiert sein sollen. Also man sagt jetzt nicht hier, im Endeffekt hier ist der Strip API hier und Du kannst wirklich Funktionen aufrufen, sondern sagt halt genau, welche Funktionen sollen überhaupt sein für den Agent? Also das heißt, ihr könntet auch beispielsweise nur virtuelle Karten.
- Philipp
- Ist auf jeden Fall 'n cooler Ansatz zum einen, dass das bereitstellt. Also ist das etwas, was wir erwarten können von weiteren, sag ich mal, SAS Anbietern, dass jeder sein Agent Toolkit bereitstellt? Oder ist das etwas, was dann Blockchain entwickeln muss? Und ich find eigentlich den Ansatz, wenn 'n sozusagen schon 'n Art wie man ihre nutzt mit LLMs, 'n ganz coolen Ansatz im Verhältnis zu, ich muss irgendwie irgendwie was machen, weil dann kann's ja auch irgendwann so weit gehen, dass okay, Slack bietet das an, dann halt alle anderen Notions und sonst was. Und dann bau ich einfach meine Tools zusammen, alle nutzen dasselbe Konstrukt mit dem und kann viel schneller, sag ich mal, bauen.
- Fabi
- Ja, definitiv. Also gespannt, was da, da noch 'n weiteren Release von anderen SARS Anbietern kommen. Lass uns doch mal über das Thema, was ja auch 'n bisschen auch durch Social Media und auch verschiedenste News Artikel gegangen ist, unterhalten und wo es eigentlich jetzt, wir uns ja heute über zwei unterschiedliche Bestrebungen oder zwei unterschiedliche Blickwinkel auf das Thema blicken. Der eine Part ist unter dem unter dem der Headline AI Slowdown son bisschen so. Viel wurde sich über das angeblich nächste Modell von OpenAI unterhalten, OReon und dass sie da möglicherweise an irgend 'n Scaling Grenzen stoßen und son bisschen die Frage gestellt so, kommen AI und LLM grundsätzlich an ihre Scaling Grenzen? Sind wir schon an irgendeinem Punkt, wo sie vielleicht sich asymptotisch irgendeiner Performance sozusagen nähern. Und andererseits, das können wir halt zweiten Part vielleicht auch noch mal den Lex Friedman Podcast, wo einige Mitarbeiter beziehungsweise der CEO von Entropic waren und sich son bisschen auf ihre Pfad zu AGI sich drüber unterhalten. Das sind, glaub ich, so zwei ein bisschen interessant unterschiedliche Bestrebungen, die jetzt in den letzten zwei Wochen irgendwie häufig diskutiert wurden. Ja, aber vielleicht fangen wir mal an mit diesem AI Slowdown. Es gab jetzt ja verschiedene Artikeln, wir referenzieren hier auch viel den Artikel von The Information, wo's darum geht, wurden gab an verschiedenen Stellen jetzt auch schon Kommentare von OpenAI selbst, aber auch von vielen Mitarbeitern über das neue Modell OriN, wo's im Mai noch hieß, ne, die sind schon dabei, im Trainingsprozess zu sein und haben mit zwanzig Prozent des Trainings sind sie schon auf der Performance von GPT vier so und irgendwie war, war man schon so, okay, das scheint, wenn wir uns über GPT fünf oder Ori und wie man auch immer dieses nächste Modell nennen mag, unterhalten, dann wird's wahrscheinlich noch mal sonen Sprung wie von drei auf vier geben. Jetzt aber, wenn man heut son bisschen darauf blickt, was man so hört, wirkt es so, dass es auf jeden Fall einen Sprung zwischen GPT-vier und Orion beziehungsweise GPT-fünf gibt, aber der ist nicht so stark wie zwischen GPT-drei und GPT-vier, was son bisschen natürlich erst mal wie einen Dämpfer wirkt in in Sachen Weiterentwicklung und Fähigkeiten dieser LLMs. Und es gibt sogar Kommentare, wo es heißt, dass dieses neue Modell gar nicht verlässlich besser in allen Bereichen ist als GPT-4. Also beispielsweise schreiben sie so, spare ist definitiv besser, bei Coding ist es sogar gar nicht so ganz klar, ob dieses neue Modell wirklich besser ist. Und dazu auch noch wird dieses Modell, weil's dann wahrscheinlich auch wieder größer ist, auch wenn man dazu gar nicht so genau Infos hat, auch wieder höhere Kosten bei der Inference haben. Also es ist 'n teureres Modell, es laufen zu lassen und gleichzeitig bietet wahrscheinlich gar nicht die Performance, die man die man die man da erwartet. Und parallel dazu sehen wir diese neue Kategorie von Modellen, diese Modelle, die man jetzt schon nutzen kann, die ja eher in die Richtung gehen, so das bestehende Modell mit zu erweitern, sodass man dem Modell die Möglichkeit gibt, durch oder wie auch immer der Prozess genau im Detail funktioniert, mehr zu denken und das bestehende Modell sozusagen einfach optimieren und nicht durch einen durch das neu trainieren des Modells, also das bestehende Modell eher zu verbessern durch andere Prozesse wie Reasoning. Und grundsätzlich, worüber sich viel unterhalten wird jetzt in diesem in diesem Kontext so, Auch zum Beispiel Ben Horritz, einer der auch großen Venturecapists im ganzen AI Bereich, sagt auch so, dass man irgendwie grade sieht, dass man die die eigentlich erhöht, in derselben Rate erhöht wie die letzte Zeit auch schon. Also man das man skate den Computer immer weiter, größere Modelle zu trainieren, aber man sieht nicht den die gleiche Art von, also die verbessern sich nicht im gleichen Maße. Und so ein Part ist davon, ist zum Beispiel das Scaling Law son bisschen bezogen auf Daten, die zum Lernen da sind so. Das hat eine Theorie da hinten dran gibt, sodass dass viele Unternehmen merken, dass sie eine Art Data, vor 'ner stehen, sodass sie sehr viel im Endeffekt, dass ein Modell nur so gut sein kann wie die Daten, auf denen es trainiert. Und solange, wenn es nicht mehr Daten bekommt, irgendwann auch 'n Problem wird, das Modell besser zu machen. Und dass sie jetzt schon an 'nem an 'nem Punkt sind, wo sie Daten aus dem offenen Web, aus Büchern und anderen Ressourcen schon so stark ausgereizt haben, dass es schwierig wird, diesen Part wirklich zu scalen und dass wir natürlich auch schon dabei sind mit synthetischer Datgenerierung und so weiter, dass wir da an 'nem Punkt sind, wo man sagt, am Ende gibt's auch 'n ganz interessanten ganz interessanten Podcast auch noch mal von Andreson Hallwitz und seinem Kollegen von a sechzehn z, die sich 'n bisschen darüber unterhalten und da am Ende auch sagen, sodass man sieht so, dass sich aktuell viele der Modelle, die es da draußen gibt, so dann doch mittlerweile gleich gut werden. Man so das Gefühl hat, dass sich alle am Anfang bei OpenA ja immer führend so und dass sich jetzt alle son bisschen 'ner ähnlichen, also im Tode nähern. Und deswegen keiner mehr so wirklich den absoluten Vorsprung gegenüber jemand anderem hat, weil sie eben alle auf dieselben zurückzuführen sind. Und es sogar so weit geht, wenn man jetzt mal eher das Negativextremszenario aufmalt, das ist auch einiges, die ausgebiert, zum Beispiel auch Mark Zuckerberg, die sagen, in 'nem Worst Case Szenario könnte es sogar so sein, dass am Ende sich LLMs und die Modelle gar nicht mehr weiterentwickeln, sondern wir nur noch bessere Produkte auf auf der bestehenden Technologie entwickeln, sodass die Technologie gleich bleibt und wir einfach nur es immer weiter optimieren, indem wir die Produkte, die auf dieser Grundlage von so einem Modell basieren, einfach verbessern. Genau, und da ist auf jeden Fall sehr interessant, dass das jetzt grade so diskutiert wird, wenn man auch noch mal die Timeline von OpenAI sich betrachtet, so wo wir auch gesagt haben, ihr geht bis zweitausendneunundzwanzig und wir jetzt an der Stelle sind, wo wir auch solche Dinge anfangen zu diskutieren. Wie weit geht's denn überhaupt?
- Philipp
- Ja, ich glaub, man sollte trotzdem 'n bisschen vorsichtig sein. Ich kann mich erinnern, dass wir vor 'n paar Monaten 'n ähnliches Thema hatten, wo wir dann aber festgestellt haben, okay, seit vier sind wir irgendwie zweihundertvierzigmal günstiger geworden, was die angeht im Cross Performance Sektor, sag ich mal. Und ich mein, solche Texte und News klicken sich halt auch immer gut. Also das ist halt so die andere Sache. Und klar, kann eventuell sein, dass, ob May sich vielleicht mehr erhofft hat oder dass alles 'n bisschen länger dauert. Aber ich mein das ja auch irgendwie nur natürlich, also wenn wir schon seit zwei Jahren auf dem gesamten Internet oder gesamten GitHub trainieren und versuchen jetzt LLMs oder Agents zu erstellen, die wirklich 'n ganzen Entwickler ersetzen können, dann reicht halt irgendwann der normale GitHub Code nicht, weil der spiegelt ja nur 'n Teil der Arbeit wider, die 'n Entwickler durchführt. Und diese Daten kommen ja, können ja nicht irgendwoher, also die existieren nicht. Das heißt, wir brauchen die, dahin zu kommen, wo wir mal später sein wollen. Und das dauert wahrscheinlich alles 'n bisschen länger, als man eventuell anfangs gedacht hat. Beziehungsweise ich glaub, wenn man auch zurückdenkt von GPT-zwei zu GPT-drei, wusste ja keiner genau so, was passiert, wenn wir einfach mehr skalieren. Und Teil von ist einfach, dass man experimentiert und Sachen durchführt, wo man am Anfang noch nicht weiß, wie das Ergebnis ist, sondern man hat ja eine grobe Vorstellung, okay, so sollte es sein. Und ob das dann wirklich nachher so ist, muss man ja erst mal erproben und dann verschiedene Experimente durchführen. Nur, glaub ich, sind wir jetzt in 'nem Bereich, wo die Experimente so kostspielig sind, dass es halt eventuell schon krasse Auswirkungen darauf haben kann, wie wir jetzt auch hören. Und ich hab auch gestern irgendwie gelesen, dass 'n paar auf Social Media geredet haben, dass das GPT fünf Orion wie auch immer erst im März nächsten Jahres kommt. Deswegen bleibt abzuwarten. Ich mein, das einzige Positive, was man sehen kann, ist, dass und Google aufgeholt haben. Das heißt, umso mehr Konkurrenzkampf dort ist, umso besser ist es normalerweise am Ende für den Markt und auch für, sag ich mal, Modelle wird es besser, weil wir dann sozusagen ja auch nachholen können. Und wer weiß, ob Lama vier nicht schon auf dem aktuellen Level ist von den anderen?
- Fabi
- Ja, auf jeden Fall. Also ich mein, ich find den aktuellen Stand, wenn man Open AI nicht als den einzigen Platz hirschert sieht. Ich mein, man muss ganz ehrlich sagen, also ich nutz definitiv die Modelle weit mehr, als ich die Modelle jetzt auf jeden Fall nutze. Spielt bei mir 'n geringeren Teil des im im Alltag eine Rolle und das ist auf jeden Fall 'n superguter Part daran. Ich mein, natürlich hast Du recht so, im Endeffekt Research ja auch dann Experimente zu machen, die auch teilweise teuer sind, zu schauen, wo man irgendwie hinkommt. Aber ich glaube, diesen Part mit, dass wir dass man einfach nicht mehr kennen darf, dass wir, also so was dieser Data, wie sie's beschreiben, dass das irgendwie eine Form von Problem ist, glaub ich, braucht man auch gar nicht groß drüber zu diskutieren. Ich mein, es ist ja nicht umsonst so, dass, glaub ich, viele der mittlerweile Einstellungen, die im im im AI Bereich getätigt werden, auch einfach, sag ich mal, Human Resources sind, die sich darum kümmern, diese Datenqualität überhaupt herzustellen, irgendwie nur dafür eingestellt werden, bestimmte Antworten für bestimmte Fragen zu geben und so. Und wenn man in diesen Scale Bereich kommt, ist ja die Frage, wie gut kriegt man das mitskaliert oder findet man andere Wege, mit den bestehenden Daten trotzdem bessere Modelle zu machen? Also ich glaub, es ist, also wie Du sagst, es ist teilweise es ist teilweise auf jeden Fall Clickbait, die andererseits, wie gesagt, wenn man sich diese Mark and Bäncher anhört von Marc Andrejason und Ben Horritz, wo sich darüber unterhalten, die ja beides Investoren in diesem Bereich sind, ja eigentlich wollen, dass das ein florierender Bereich ist, sondern sie sich auch über diese Probleme unterhalten. Und Dinge, die sie dort grade sehen, sind es auf jeden Fall jetzt nicht nur irgendwelche News Seiten, die probieren Klicks da in der Richtung zu bekommen, sondern dass es durchaus Themen sind, über die sich in diesem Bereich, denk ich, über unterhalten wird. Aber ich hab ja auch schon gemeint, es gibt ja auch noch die andere Seite, über die wir uns unterhalten können, jetzt diesen Lex Friedman Podcast mit Mitarbeitern von Entropic, unter anderem Dario Amodey, der CEO von Entropic, aber auch Amanda Eskel und Chris Ola, was beides AI Researcher sind bei Entropic, haben einen, oh, ich weiß gar nicht, mehrere dreieinhalbstündigen Podcast mit Lex Friedman gemacht. Und wiederum, wenn man jetzt mal sich anschaut, was Daria Modayda sagt, so er sieht eigentlich eher so, wenn wir uns über AGI unterhalten, der Pfad zu AGI sehr viel früher als vielleicht andere das antizipieren, sondern er sieht das auch schon möglich in Richtung zweitausendsechsundzwanzig, zweitausendsiebenundzwanzig, wenn er nämlich einfach so sagt, dieser Part so, wenn Du extrapolierst, was eigentlich in der letzten Zeit irgendwie passiert ist, wo man sagt irgendwie, dass die die dieses Professional Level, das Modelle ja teilweise erreicht haben mit beispielsweise Coding, wo man sagt, so der Sweet Benchmark, der ja son bisschen diese Softwareenging Probleme aus dem realen Welt probieren zu modellieren, sodass wir am Anfang des Jahres noch bei drei Prozent waren, die jetzt irgendwie bei fünfzig Prozent sind. Und er glaubt, dass wir in 'nem Jahr wahrscheinlich schon bei neunzig Prozent sind. Und wenn er sich mehrere solcher Kurven angucken, sagt, er probiert das mal zu extra polieren, dass er eher glaubt, wir sind da früher früher als später, was Superintelligent a I oder an der Stelle angeht. Und deswegen auch in dem Podcast sich viel, also wenn man sich das Thema von vorhin von uns anschaut, kann man eher denken, ja, man kann's ja zurücklehnen. Vielleicht sind die ganzen Probleme, die wir mal aufgemalt haben mit AI gar nicht son großes Problem, weil wir gar nicht in diesem Bereich kommen, wo's 'n Problem sein könnte. Und in dem Podcast geht's wirklich eher noch mal darum so, was für Probleme kommen denn mit diesen immer schlauer werden AIs auf uns zu so? Und der eine Part ist son, fand ich ganz interessant, so, wenn man sie immer son bisschen über, wenn man sich in der Anfangsphase so mit OpenAI Modellen drüber unterhalten hat, hat man sich vieles über diese unterhalten. Also dass AIs sich auf einmal verselbstständigen könnten und bestimmte Dinge tun könnten, die im Endeffekt, weil sie probieren, die richtige Entscheidung zu treffen und am Ende im Worst Case Fall sogar Entscheidungen treffen, die Menschenleben kosten könnte oder so was. Das natürlich weiterhin eines ein ein weiteres Problem ist, dass man betrachten muss so, dass AIs autonom etwas entscheiden, was wir so nicht mehr ganz steuern können. Aber auch son bisschen, er hat jetzt genannt, man nannte diesen, sodass es bisher so ist, dass er hat's genannt, der Overlap von von intelligenten und bösen Leuten sehr klein ist, weil er son bisschen sagt, die Leute, die sehr, sehr intelligent und gebildet sind und und die Fähigkeiten dazu haben, bestimmte Dinge zu tun, Bomben zu bauen, wie auch immer, sind meistens auch eher dazu eingestellt, nichts böse zu machen, etwas kaputt zu machen, weil sie den Status quo meistens eher gut finden oder irgendwie, so es ihnen eigentlich einen Nachteil bringen würde und nichts bringen würde, denn das ist absolut böse zu verfolgen und dass deswegen, man könnte jetzt 'n Rückschluss werden, er sagt dumme Leute, böse Leute sind dumm, aber er sagt so, sie haben oftmals nicht die Mittel, die sie bräuchten, bestimmte Dinge zu tun. Und wir kommen in einen Level, die haben's, glaub ich, in verschiedene Kategorien eingeteilt, die sie irgendwie genannt haben. Ich glaub, fünf verschiedene Risikolevel, wo ich jetzt grad den Fachbegriff dafür vergessen hab. Ich glaub ASL Stufen. Ja. AI Safety Levels eins bis fünf. Und wo's diese eine Stufe, ich glaub Stufe drei gibt, die wir vielleicht schon nächstes Jahr erreichen könnten, wo man sagt, dieser ist der Overlap von intelligenten und bösen Leuten, ein Schutzfaktor ist, nicht mehr ganz gegeben ist, weil die Bösen eben Zugriff auf AI haben und das der die Grundlage ist, bestimmte Dinge
- Philipp
- zu tun, die vor, die sie vorher nicht konnten. Ja, aber dann frag ich mich immer, also das ist ja die eine Seite, die sie da mit AI vorantreiben. Er hat ja auch gesagt sozusagen, das Open AI möchte gern der Erste sein und Antropic möchte der sichere Weg sein zu AGI. Und dann haben wir, ich hab, ich glaub, vor zwei Wochen hatten wir, dass jetzt mit zusammen mit der US Regierung zusammenarbeitet. Ich weiß nicht, das
- Fabi
- ist halt so, Ja, passt nicht ganz zusammen, ne.
- Philipp
- Ja. Ist halt auch vielleicht wieder ganz viel Marketing und nach außen getrieben, wir sind und besser. Und dann, wenn halt irgendwie trotzdem 'n Riesenmillionendeals mit oder sonst was kommt, dann sagen sie halt doch trotzdem wieder, ja. Das ist halt auch wieder das andere.
- Fabi
- Dann finden sie ihr Argument wahrscheinlich ja lieber, die die auf Nummer die Ja. Wo Sicherheit im Vordergrund stehen soll mit Militär zusammenarbeiten als OpenAIsunterricht. Ist wahrscheinlich dann der Sprech, den sie an der Stelle haben. Aber ja, also ich glaube, wenn Du wirklich, ich mein, hat mit das erfolgreichste LLM Produkt da draußen nehmen OpenAI. Und wenn Du in dem mitmachst, dann find ich's schon sehr schwierig zu sagen, Du bist der, der absolut auf Sicherheit achtet so, weil da ist auf jeden Fall gibt's da unterschiedliche Bestrebungen innerhalb der der Firma. Und so glaub die, die wirklich sagen, auf absolute Sicherheit, die sind wahrscheinlich auch jetzt nicht da, dass sie ganz vorne an der Front sind mit den besten Modellen aktuell? Ja, und
- Philipp
- ich glaub, das Schlimmste wär, wenn's halt wirklich nur die zwei wären. Also wenn und beide mit ihrem Plan bist, keine Ahnung, zwanzig sechsundzwanzig siebenundzwanzig durchkommen und es dann genau zwei Unternehmen gibt, die sozusagen Kontrolle darüber hätten, was auch immer das bedeutet. Ich glaub, das wär Worst Case, deswegen bleibt, glaub ich, einfach mal abzuwarten und muss immer 'n bisschen, glaub ich, alles mit Vorsicht genießen, was man in den Nachrichten hört oder auch, sag ich mal, jetzt hier bei uns in den News. Vieles ist überspitzt oder auch, sag ich mal, alle mittlerweile von Sam Altman zu Dario haben sehr gute Presseskills und wissen, wie sie sich artikulieren können, ihr Unternehmen besser darzustellen oder ihre Interessen zu pushen. Deswegen ist vielleicht immer gut, dass man viele Meinungen sich einholt, 'n bisschen Abstand davon auch hält.
- Fabi
- Auf jeden Fall. Ich mein, ich bin immer gespannt so. Wir unterhalten uns ja alle zwei Wochen über diese Themen, aber könnt ja mal schauen, wir haben jetzt zehn neunzehnten November in einem Jahr, wahrscheinlich können wir schon 'nem halben Jahr mal drauf blicken. So jetzt diese zwei Bestrebungen so. Ist dieser Pfad, den da wieder aufgemalt hat mit zwei sechsundzwanzig zwei siebenundzwanzig oder nähern wir uns grad eine Asim Tote und wir sehen bis in 'nem halben Jahr gar nicht so viel starke neue Modelle, sondern eher neue Arten, wie damit interagiert wird?
- Philipp
- Ja, ich glaub, die Frage bleibt halt auch und ich glaub, das sagt auch Open Air oder bisschen der Information Artikel ist oder ich glaub auch, was Max Zuckerberg sagen möchte, ist, eventuell reichen die LLMs, die wir aktuell schon haben für HI? Ich mein, wir brauchen vielleicht nicht irgendwie eine Trillion Tokens, weiterzukommen. Einzige, was wir ja wirklich schaffen müssen und wo wir ja kontinuierlich Fortschritt machen, ist diese Agent Integration. Wenn ich wirklich 'n Art Interface hab, wie auch immer das nachher aussieht und das für mich alles mehr oder weniger tun kann, klar, fehlt, sag ich mal, für das utopische Terminator, AGI mäßig ist noch 'n bisschen was anderes. Aber ich glaub, davon reden ja die ganzen gar nicht, sondern für sie bedeutet ja, dass man einfach alltägliche Dinge, die der Mensch eigentlich aktuell tut, alleine tun kann und vor allem auf 'nem längeren Horizont. Also dass ich jetzt beim Agent irgendwie eine Aufgabe geborene, der irgend eine Art Research für mich macht. Und der läuft dann erst mal drei, vier Wochen und dann kommt er zurück mit 'nem Ergebnis. Und ich glaub, dafür müssen wir wahrscheinlich nur an der Technologie arbeiten und wie wir sozusagen diese Prozesse implementieren und immer wieder korrigieren und sonst was. Und da stellt sich halt die Frage, okay, reicht eventuell Cloud drei 0.5 so nett? Wir müssen nur schneller werden, als wir oder halt mehr Tokens günstiger produzieren können oder brauchen wir wirklich bessere Modelle?
- Fabi
- Ja. Obwohl es dann trotzdem eine Szenario wär, glaub ich, wo wir uns nicht so sehr über die über die Sachen unterhalten müssen, die da auch mal da so. Das ist, genau. Das würd ich auch sagen, das ist so der der das Worst Case Szenario, was Mark Zuckerberg da an der Stelle irgendwie aufmalt. Ob das jetzt meine Forschung von AGI trifft, eher nicht. Aber das ist eine Welt, das die definitiv sehr, sehr viele Dinge verbessert. Du hättest gern
- Philipp
- 'n Tesla Roboter, der dir deine Wäsche macht und Mittagessen kocht?
- Fabi
- Nee, nee, ich weiß gar nicht, welche Szenario ich lieber hätte. Ich mein, das ist nicht meine Vorstellung davon, was ich aktuell unter verstehe. Wenn mir jemand erzählt, was sein was seine Vision von ist so, dann ist es, also das ist eine sehr, sehr elaborierte Form von, die ich sehr cool finden würde und zumindest mich insofern beruhigen würde, dass ich mir 'n paar Probleme keine Gedanken machen muss, die mir kommen, wenn ich über Szenarien nachdenke. Ja. Ja, mal schauen. Wir wir werden ja häufiger mal drauf blicken. Waren auf jeden Fall paar sehr interessante Artikel, packen wir auch. Also wenn ihr
- Philipp
- uns irgendwann nicht mehr in den Podcast hört, sondern AI generierte Stimmen, die die News wiedergeben, dann wisst ihr das, wir haben's geschafft.
- Fabi
- Na, also ich glaub, da gibt's auch noch Zwischens in Europa, wo das schon geschafft ist. Da müssen wir gar nicht, da müssen wir gar nicht so weit von entleeren. Sind wir's überhaupt noch? Sind wir überhaupt noch die echten? Man weiß es nicht. Lass uns doch mal über Computer unterhalten und was in so dazu denkt, inwiefern diese LLMs, seien sie oder nicht, unsere Computer steuern?
- Philipp
- Genau, wir hatten das Thema, ich weiß nicht, vor zwei Wochen, drei Wochen, vier Wochen, wo Antropic 'n neues Modell releast hat, und unter anderem Cloud dreihundertfünfundsechzig hat. Vielleicht kurz weg, Haiku ist jetzt verfügbar auf allen gängigen Plattformen, also und die API. Das heißt, wenn ihr Cloud nutzen möchtet, könntet ihr das jetzt. Allerdings, kurz Warnung, drei Punkt fünf ist jetzt teurer als drei mit ein Dollar per und fünf Dollar per. Heißt auch, es ist einiges teurer als oder mini, aber drei Punkt fünf Haiku, wie wir damals auch erwähnt hatten, ist besonders gut für Anwendungen oder Anwendungen. Das heißt, wenn ihr da irgendwas baut, gerne mal reinschauen. Und wenn ihr Amazon Kunde seid, dann definitiv reinschauen. Und zusätzlich zu diesem Release haben sie 'n Betafeature von Computer use vorgestellt, wo wir auch kurz drüber geredet haben. Computer use ist so viel im Sinne von, man gibt über Tools Zugriff aufn virtuellen Desktop mehr oder weniger. Und man prompt das am Anfang dann mit 'ner Instruktion und immer wie 'n, bekommt das Modell dann einen Screenshot von dem virtuellen Desktop, 'n bisschen Text dazu und versucht, eigenständig die Aufgabe zu lösen, was sehr, sehr cool ist, muss ich sagen. Und dazu gibt es jetzt 'n neues beziehungsweise eine, die durchgeführt würde, die bei zwanzig, also wie gut der Computer aktuell schon ist. Vier Bereiche wurden getestet. Zum einen Websearch, wo man einfach versucht, Webseiten zu navigieren, bei Amazon Produkte zu kaufen, in Apple App Store was zu kaufen, halt einfach normales Websearching, wie jeder User halt auch macht. Die zweite Kategorie ist, wo man grade versucht hat, irgendwie in Excel, in Word Dinge zu bearbeiten, in Power Point, auf einer Folie irgendwie das Format zu ändern, Text hinzuzufügen. Dann gibt es noch Workflow Management, wo man halt, sag ich mal, so Betriebssystemoperationen durchführt wie verschieben, Bilder zu downloaden, Dinge in einen PDF zu exportieren, im App Store irgendwelche Apps installieren. Und dann den vierten Bereich ist Entertainment Gaming, wo man einfach versucht, Videospiele zu spielen. Mhm. Und es sind sehr coole Case Study, also definitiv mal reinschauen, weil es gibt viele Bilder und sie haben sozusagen die einzelnen Schritte auch mit definiert, was Claude in dem Moment sieht und was es dann auch mehr oder weniger wieder gibt, einfach zu sehen, okay, wie ist der Prozess von meiner anfänglichen Instruktion von zum Beispiel suche 'n siebenundzwanzig Zoll Gaming Display auf Amazon und kauf den. Und dann, wie sozusagen Claude da durchgeht, das sehr cool anschauen, was sie herausgefunden haben. Also Claude kann sechzehn von zwanzig Tests schon erfolgreich bestehen. Einziges oder größeres Problem, was sie festgestellt haben, ist, dass man limitiert ist bei der Screen, was wir, glaub ich, auch schon geredet haben, dass der virtuelle Desktop halt aktuell nur achthundert zu sechshundert sein kann, was natürlich limitiert, was sich auf ein Bild darstellen kann. Der Code, das nachzu-, also re zu provozieren oder auch eigene Test Cases zu schreiben, ist jetzt Open Source und auf verfügbar. Und man hat festgestellt, dass man die größten Verbesserungen durchführen kann in Zukunft, wenn man einfach versucht, diesen einen besseren Feedback mit einzubauen. Also es kann sein, dass Claude ganz oft scheitert an 'nem am Screen, weil er nicht genau weiß, was er tun kann, kriegt dann wieder offenen Button und dann wieder vor und wieder zurück und kommt nicht mehr aus soner Loop Spirale heraus. Also sie nennen es und, dass sie einfach besser auf fehlende Aktionen mehr oder weniger reagieren können. Da sehen sie den größten Verbesserungsbedarf.
- Fabi
- Herr Kuhl, und hier müsst ihr ja grad direkt an, irgendwie, ja, sind direkt zwei Sachen in meinem Kopf losgegangen, auch son bisschen Computer Use und diesen Beispielen, so was jetzt eigentlich aus dem Microsoft Computer geworden ist so. Ich hab mich schon lang nicht mal angeschaut. Und ich hab mich grad gefragt, so dieses Rabbit a 1, über das unterhalten und die auch son bisschen diesen Ansatz hatten, ne, bringen solche Dinge bei und Du hast dann eines Device dabei. Das ist doch, hat das jemals überhaupt jemand genutzt, hat schon lang nix mehr darüber gehört.
- Philipp
- Also ich hab jemand Nicht gesehen? Das Video von Marcus Crownli Ja. Verfolgt. Und hat son bisschen den, nicht
- Fabi
- 1, ja, Rabbit R 1 war der ja.
- Philipp
- Rabbit R 1 hat 'n ähnliches Prinzip verfolgt. Also sie haben auch sone Art virtuell Desktop benutzt, aber nur haben sie, glaub ich, vordefinierte Tests geschrieben. Also sie konnten nicht dynamisch darauf reagieren, wie die Webseite sich verändert oder wie 'n Capture Code kommt. Und ich glaub, sie haben immer darauf gehofft, dass so etwas wie Cloud irgendwann dann mal wahrscheinlich existiert, dass sie Modelle darauf trainieren können oder anwenden können.
- Fabi
- Ja, man wart ja auch in Ihrer Cloud und so was, ne. Also man hat ja im Endeffekt auch verschiedene Applikationen sozusagen trainiert und Genau. Da gar keinen wirklichen Computer da halt.
- Philipp
- Und Cloud kann jetzt mehr oder weniger wirklich komplett Wär mal interessant, ob man Ich bin mal gespannt, ob's Leute tun, vielleicht die grade die R-One- use Cases, die sie vorgestellt haben, einfach versuchen, mit Cloud zu replizieren, ob die dann funktionieren.
- Fabi
- Wahrscheinlich ein wenig besser. Genau. Cool, lass uns doch noch mal über Chat unterhalten.
- Philipp
- Genau. Kam gestern mit vielen neuen Releases für ihre Chatanwendung. Also Chat ist so was Ähnliches wie ChatGPT oder oder ai, nur von ai und sie haben viele neue Features geliefert, unter anderem Web Search. Also kann ich jetzt direkt in Chat irgendwas fragen und die Modelle bekommen Zugriff auf das Web. Sie haben dann Features, so ähnlich wie zu Open AI oder Art Effekt. Sie haben 'n neues Multimodalmodell releast gestern mit, was auf ihrem Modell basiert. Also das Model hat hundertvierundzwanzig Milliarden Parameter direkt integriert, PDFs und Bilder direkt zu analysieren. Sie haben eine neue Partnerschaft mit eingegangen, direkt in Myster Chat Bilder zu generieren. Sie haben so was Ähnliches wie oder jetzt integriert. Das heißt, ich kann mehr oder weniger vordefinierte festlegen für eine Art, den ich da nutzen kann, mit ihm zu chatten. Und ihre neuen Modelle sind verfügbar, also wirklich ganz stark in Richtung, hey, möchte mit ChatGPT. Das Gute aktuell, alle diese Features sind frei zugänglich in der Beta. Es ist aber noch nicht darüber bekannt, wie teuer das nachher wird, aber ich würd mal auch stark davon ausgehen von irgendwie zwanzig Euro im Monat oder so was. Was. Deswegen, wenn ihr noch nicht getestet habt, einfach mal auf Chat dot DEI gehen, aktuell kostenlos. Ihr könnt, glaub ich, euch mit Google oder so anmelden, dann wirklich mal alles durchtesten von Web zu zu Bildergenerierung und Dokumentenverständnis.
- Fabi
- Ist ja der nächste Konkurrent, alle nähern sich da also im Tode. Haben wir sie da?
- Philipp
- Ja, ist ja.
- Fabi
- Unsere Lieblings, also zumindest deine und meine Lieblings IDI würd ich mal sagen, wenn ich nicht zu wirklich zurückgreifen, Cursur ist eine Verbindung eingegangen mit Superman. Ich mein, ob eben klar oder vorher kannte, was Superman ist, das ist ja so für ein, ich glaub, ich weiß nicht auch so, auf der Homepage, ich hätt ja 'n paarmal so gehört, habe es eine und. Also im Endeffekt ist es eine und Neovim Extension. Und die Besonderheit daran ist, dass sie wirklich eigentlich bei jedem Input superschnell direkt Auto Completion Vorschläge für den Code liefert. Und das Ganze wurde in das Leben gerufen vom Creator von Tab 9, das was er zweitausendachtzehn 'n Release hat, der dann auch eine Langzeit bei Open AI war und dann Supermaiden entwickelt hat. Und das Interessante ist, dass er da einen Modell entwickelt hat und das war schon im Februar zweiundzwanzig, als dann Supermaiden als Extension mit diesem Modell ins Leben gerufen wurde. War da super-, superfrüh überhaupt in diesem Ganzen so? Code Completion, also Tab neun ging schon dieselbe Richtung, überhaupt Deep Learning Modelle, das war das Erste, zu Code Completion zu nutzen. Damals hat's nie wirklich jemand gesehen. Mit SupermailM hat er dann ein Modell, was eine neue Architektur wählt, die effizienter als 'n Transformer ist für eben genau diesen Task, wo er meinte, er war eigentlich mit der Erste, der 'n dreihunderttausend Token Kontext Window möglich gemacht hat und sehr viel kosten positiver und sehr viel schneller eben Vorschläge liefern konnte, weshalb er's geschafft hat, da sone Extension zu haben, die eben so schnell so schnell Vorschläge liefern kann. Und die hatten eigentlich auch im September, glaub ich, zwölf Millionen, 'n eigenen Codeditorn zu schreiben. Ja. Aber haben sich eben jetzt dafür entschieden, zusammen mit mit oder dem Cursor Team zu joinen. Und vielleicht erst mal für die, die Supermaiden nutzen. Also das Plug in wird's weiterhin geben. Es gab, ich da haben aktuell die fünfzigtausend User und sie haben zumindest vor, das weiter zu und auch weiterzuentwickeln. Das soll Superman als Extension weiterhin geben, aber eben auch so der absolute Produktfokus, dass sie sagen, sie wollen mit CursA AI das das beste die beste Development IDE mit mit einem AI Agent bauen und Supermaven auf jeden Fall ein Part ist, der wahrscheinlich Cursort dann noch mal eine ganze Ecke nach vorne pushen wird, wenn eben diese ganzen Also mal gucken, wofür sie das Modell nutzen werden, ne, also in an welchen Stellen irgendwie Supermaven dann das Supermaiden Modell genutzt wird. Aber grade eben Code, wird wahrscheinlich bald so in mit drin sein. Philipp, Du hast grad schon mit dem Kopf gewackelt, so ob Supermaiden wirklich als Extension weiterleben wird.
- Philipp
- Ich wär da 'n bisschen vorsichtig. Ich glaub, aktuell ist es free, deswegen kann man dabei nichts verlieren, wenn man's weiterhin nutzt. Ich kenn auch davon, dass es einfach damals, als es rauskam, so unendlich viel schneller war in Code als Co Pilot. Also es war wirklich, Du tippst und dann war eigentlich schon wieder 'n Vorschlag mehr oder weniger da. Und was man vielleicht nur so zusagen muss, sie waren, als sie im September ihr angekündigt haben, 'n Team von fünf Engineers. Also wenn jetzt diese fünf Engineers sozusagen Teil des Cursortteams sind, wär ich, ich würd nicht erwarten, dass die oder die Chat von Supermavin noch stark weiterentwickelt wird. Wahrscheinlich existiert die halt einfach für eine gewisse Zeit. Ich bin auf jeden Fall gespannt, weil ich bin großer Fan von der in, vor allem mit dem. Und gerade wenn man so Skripting macht oder Dinge neu möchte oder irgendwie so was oder halt 'n variablen Name umbenennt, dann ist es schon sehr, sehr cool. Und wenn man das jetzt noch 'n bisschen schneller kann mit super Willen, bin ich echt gespannt, was dabei rauskommt.
- Fabi
- Ja. Ja, ich mein, ich will auch deine deine Kritik, dass es vielleicht mal schauen, ob es wirklich weiterentwickelt, die Extension geh ich auf jeden Fall auch mit. Aber natürlich, ich mein, es ist umsonst, es gibt eben auch diesen Zehn Dollar Tarif, also wir werden einige zahlende Kunden haben so. Und wahrscheinlich werden sie eine ganze Weile lang weitermintabellen. Mal gucken, ob die Adoption irgendwie bleibt oder ob nämlich im Endeffekt es irgendwann so klein wird, dass sie dann auch sagen, okay, das war's Aber wir werden wahrscheinlich noch mal 'n bisschen den Inputstream, Geld Inputstream noch 'n bisschen weiter nutzen. Wir sind schon fast riesig son bisschen über Zeit. Lassen wir noch mal über l l ms Punkt txt uns unterhalten. Am Ende noch kurz zwei kleine neue Modelle oder zwei im, open Bereich noch über zwei Modelle unterhalten und dann LLM
- Philipp
- Punkt TXT ist 'n 'n, was erstens von Jeremy Howard vorgestellt wurde vor 'n paar Wochen, das darauf abzielt, dass man, wenn man doch eine entwickelt oder irgendwie eine Dokumentation oder irgendwas anderes, dass man das doch möglichst LLM freundlich gestalten soll. Weil ich mein, 'n Großteil aller Entwickler nutzen schon l l ms, gerade sei es selbst, wenn es nur für Suche ist oder irgendwie so was. Und der Gedanke hinter LLMs txt ist so ähnlich wie von 'ner Sitemap, xML oder von 'ner Robots txt auf 'ner Webseite, dass man einfach eine spezielle Route definiert, die 'n Textfile zurückliefert, das wie eine Art Summary ist über die und in geschrieben ist und sozusagen alle Links zu wichtigen Dokumentationen hat, eventuell 'n Code, was die die macht. Der Gedanke ist dann einfach, okay, wenn ich denn wirklich irgendwie mit Cursor arbeite oder vielleicht 'n Chat oder jetzt 'n oder so was, dass dieses LLM txt mehr oder weniger genutzt wird für die. Und dann das LLM, mit dem ich interagiere, besser weiß, wo es vielleicht darauf zugreifen muss, also für weitere Suche, für die spezielle Dokumentation oder mehr up to date Informationen hab, über was die letzte Version ist, welche andere Version ich brauch zum installieren. Und es hat auch jetzt schon eine Adoption gefunden, vor allem jetzt übers Wochenende, sag ich mal, weil hat am Freitag für Ihre Docks 'n LLM txt vorgestellt und bei dem LLM s txt gibt's auch 'n LLMs minus full txt, was dann mehr oder weniger die komplette Dokumentation als ein Markdown File darstellt, was genutzt werden kann, mittlerweile natürlich mit großem Inputkontext dann einfach viel bessere LLM Generierungen zu bekommen oder wenn man Fragestellungen hat. Und im selben Zug sind dann ganz viele mit aufgesprungen und ich find die Idee eigentlich auch sehr cool. Müssen wir noch irgendwie rausfinden, wie man das, sag ich mal, besser in unsere Code Editors integrieren kann. Aber wer weiß, wenn 'n Cursor vielleicht das irgendwie irgendwann mit aufpickt, dass es erkennt, wenn ich jetzt in irgendwie in 'nem oder in meinem txt, eine hab, dass es automatisiert versucht, so zu schauen, ob ich dieses ll m txt finde und dann nutzt, einfach bessere Antworten zu geben. Und ist vielleicht eine Lösung, den ganzen Version Konflikt zu lösen, den man ja immer hat, wenn ich irgendwie frag, wie ich in irgendwie 'n definiert. Und dann krieg ich fünfzehn verschiedene Antworten, weil es dreiundsechzig verschiedene Versionen mittlerweile gibt und eventuell eine Lösung, up to date Informationen in 'nem LLM freundlichen Format bereitzustellen.
- Fabi
- Ja, ich mein, würd ich auch sagen, ich mein, die Integration ist wahrscheinlich sogar der kleinere Teil eher, dass wir im Web dazu bekommen, das auch zu machen. Von daher hier da aufrufen, fang das mal an. Ich glaub, die Integration ist dann fast der kleinere Part der der der der Challenge. Apropos klein, zwei kleinen Themen haben wir noch, und drei, die wir Genau. Fürs Ende haben.
- Philipp
- Glaub, Quinn zu 2.5 passt auch in denselben Bereich. Quinn hatte jetzt ihr zwei Punkt fünf Zweiunddreißig b Modell vorgestellt. Also Quinn hat schon mehrere 2 Point fünf Coder Modelle released in der Vergangenheit, jetzt aber auch ihr größeres zweiunddreißig b Modell. Und es performt, es passt so gut wie, so nett und vor allem besser als auf fast allen getesteten Benchmarks von zu, wo man sozusagen Code Corrections durchführt oder auch eine Code Arena, die sie mehr oder weniger selber entwickelt hat. Das Beste kommt jetzt allerdings noch. Es ist an der Apachee zwei Punkt o und mit kann es auf circa sechzehn Gigabyte GPU oder Grafikspeicher laufen. Das heißt, wenn ihr 'n MacBook habt mit zweiunddreißig Gigabyte Arbeitsspeicher, könnt ihr das einfach mit Ola einmal testen. Klar, ist dann ein bisschen schlechter, aber trotzdem noch sehr, sehr gut. Vierzig Programmiersprachen, hundertachtundzwanzigtausend Token Kontext, Window und verfügbar auf, also sehr, sehr, sehr cool.
- Fabi
- Ja, sehr cool. Nice, dann macht er den, es endet noch mit drei und dann werden wir's abverhalte.
- Philipp
- Genau. Auch Model Release diesmal von Google Deep Mind und und ich glaub, wir haben wahrscheinlich im Mai darüber geredet, aber drei wurde damals vorgestellt als fünfzig Prozent bessere Version von zwei. Noch mal ganz kurz, ist das Transformer Modell von Google Deep Mind und, welches drei-d-Strukturen für Moleküle predikten kann. Und oh, jetzt wird's schwierig. Also Sie schreiben hier, also alles im Medizinbereich. Und es soll fünfzig Prozent Verbesserungen liefen in der Genauigkeit im Verhältnis zu dem Vorgängermodell. Und es ist jetzt seit November für akademische Zwecke frei verfügbar nutzbar und nutzbar. Und sie haben auch 'n Alpha. Das heißt, man muss das Modell nicht selber hosten, sondern kann sich darauf bewerben, diesen Alpha nutzen zu können und dann seine Forschung durchzuführen.
- Fabi
- Ja, cool. Also Modell, was sehr viel Verbesserung in Bereichen bringt, in denen wir zwei keinerlei Kompetenz
- Philipp
- haben. Genau. Ich hab nur gesehen in 'nem Blogpost, dass Sie mit dem Coronavirus Dinge oder Experimente durchgeführt haben, den besser zu verstehen und unser Immunsystem weiter verbessern zu können, was auf jeden Fall eine sehr, sehr coole Entwicklung ist, dass vielleicht so was wie Covid dann nicht mehr passiert oder nicht mehr so lange dann ist und man schneller Lösungen da finden kann, falls so etwas in der Zukunft noch mal kommt.
- Fabi
- Ja, cool. Philipp, vielen Dank für deine Zeit, euch wie immer vielen Dank fürs Zuhören. Heute eine bisschen längere Folge. Mal schauen, ob wir beim nächsten Mal wieder bei der halben Stunde sind. Aber auf jeden Fall interessante Themen. Mal gucken, wie viel wir uns über oder den Speed-up unterhalten werden. Macht's gut, vielen Dank. Bis in zwei Wochen. Tschau. Tschau.