Deep Dive 122 –

AI – mehr als ChatGPT? mit Philipp Schmid von Hugging Face

14.04.2023

Shownotes

AI ist in aller Munde, gefühlt gibt es jeden Tag eine neue, bahnbrechende Neuerung. Wir haben uns in unserem News-Format schon viel darüber unterhalten, aber wollen in der heutigen Folge noch einmal ganz genau verstehen, wie die aktuellen "AIs" à la ChatGPT, Midjourney etc. eigentlich unter der Haube funktionieren. Dafür haben wir Philipp Schmid, Techincal Lead bei Hugging Face, zum Gespräch eingeladen. Philipp räumt mit gängigen Unwahrheiten auf und erklärt uns, was eigentlich ein Large Language Model ist, was genau die Transformer Engine ist und warum Reinforcement Learning by Human Feedback unabdingbar für eine gute "AI" ist.

Wenn du dich also fragst, wie es zu diesem enormen und medienwirksamen Fortschritt in den letzen Monaten kam, was die technischen Grundlagen dafür sind und was uns in den kommenden Monaten wohl so erwartet, dann ist die Folge genau richtig! Wenn du wie Fabi direkt Lust bekommen hast, tiefer ins Thema einzutauchen, nutze den kostenfreien Online-Kurs von Hugging Face!

/transkript/programmierbar/deep-dive-122-ai-mehr-als-chatgpt-mit-philipp-schmid-von-hugging-face
Hallo und herzlich willkommen zu einem weiteren Deep Dive der Programmierbar. Heute werden wir uns über das heiße Topic unterhalten. Alles rund AI. Also ihr habt ja schon ein bisschen mitbekommen die letzten Wochen sowohl bei uns in den News als auch in allen anderen Nachrichtenportalen, die wahrscheinlich so kommuniziert wird, wird viel über AI gesprochen. Viel Entwicklung ist da gerade, wird viel Mist erzählt. Haben wir wahrscheinlich auch, haben wir gerade erfahren. Mal schauen. Und mit dem wollen wir heute so ein bisschen aufräumen. Einfach mal verstehen, wie funktioniert das denn das Ganze? Und genau dafür ist neben mir dabei der liebe Jojo. Hi Jojo. Hi Hi. Und wir haben Philipp Schmidt dabei. Hi Philipp. Hallo. Philipp, du bist erstens Hörer der ersten Stunde, haben wir gerade erfahren, worüber wir uns natürlich sehr freuen. Und du arbeitest bei Hacking Phase. Kannst du uns erklären, was Hacking Phase ist und warum es Sinn macht, mit dir über AI zu sprechen? Ja, gerne. Also ich bin Technical Lead bei Hacking Phase und Hacking Phase, wir sind ein Startup aus New York, mittlerweile sehr stark auch in Frankreich vertreten. Und wir haben die schnellstwachsendste Open Source Library für Transformers. Die trägt auch den Namen Transformers und wird eigentlich verwendet für alles, was aktuell im Deep Learning Bereich passiert, sei es irgendwie NLP oder Computer Vision, mittlerweile auch Audio oder Multimodalität. Und zusätzlich zu den Open Source Libraries haben wir etwas, was den Hacking Phase Hub heißt. Und da findet man über 150.000 frei verfügbare Modelle, unter anderem Word oder GPT2. Wir haben mittlerweile über 25.000 Data Sets. Seit ungefähr einem Jahr haben wir etwas, das nennt sich Spaces, was Demos eigentlich sind für Maschinen Learning Anwendungen. Und seit ein paar Monaten haben wir jetzt auch mittlerweile über eine Million User. Also das ist nicht mehr eine kleine Plattform, sondern wird von allen Top großen Unternehmen aus den USA, aus Deutschland genutzt. Wir haben ganz viele Models, die von Google kommen oder von MetaEi, aber auch deutsche Unternehmen wie Telekom sind auf unserer Plattform. Das heißt, dann nutzt ihr eure Plattform, die Modelle zu trainieren oder was würde ich jetzt als Neukunde, was wäre mein erstes Ding, was ich darauf tun könnte zum Beispiel? Vieles. Also ich sage mal so, das Paradigma im Maschinen Learning oder im Deep Learning hat sich ganz stark geändert von früher. Ich habe meine Millionen an Daten und dann trainiere ich mein Modell hinzu. Ich habe etwas, was sich Transfer Learning nennt, wo ich am Anfang ein Modell auf nicht spezifischen Daten trainiere und dann einfach für meine Anwendungsfälle feintunen kann, wofür ich viel weniger Daten brauche. Und wir haben auf dem Hub sowohl Pre-Trend Modelle, das heißt die, die Transfer Learning genutzt haben, wie BERT zum Beispiel, aber auch Feintuning Modelle. Das heißt, wenn du jetzt zum Beispiel für euch irgendwie Kundensupport irgendwie automatisieren wollt, kannst du halt schauen, welche Feintuning Modelle gibt es für die deutsche Sprache zum Beispiel, die Spam identifizieren können oder irgendwie Sent bestimmen für die Anfragen. Aber wenn ihr sagt okay, wir haben ein großes Daten Set für unseren Kundensupport, wo wir schon Labels verteilt haben, dass ein Kundensupport gut ist oder schlecht ist, dann kann man halt Transformers nutzen und ein Pre-Trend Modell, das dann feinzutun. Das heißt, die ganzen Assets, die man braucht, ein Maschine Learning Modell zu trainieren, sind auf dem Hub und dann verwendet man die Open Source Library, dann sein Modell zu trainieren. Das heißt, man nutzt Hackingphase sozusagen nicht, dort zu trainieren, sondern das ist einfach letztendlich der Hub, wo halt alle Modelle, die Transformer bereitgestellt werden, die man sich dann lokal kombinieren kann, seine Machine Learning Lösungen dann zu bauen damit. Sowohl als auch. Wir haben Managed Services, die gerade das lösen Autotrain heißt das. Das ist so ein AutoML No Code Solution, wo ich einfach mein CSV-Datenset hochlade auf einen Knopf drück und dann haben wir ein Managed Training dafür. Aber da bei uns alles sehr transparent ist und wie gesagt, open Source heißt, du kannst das Modell auch runterladen oder bei Amazon oder bei Google einfach deinen CPU starten und dann einfach dein Training dort ausführen und dann dein Modell in deinen S3-Buckets speichern oder wieder zurück auf den Hub laden und mit den anderen teilen. Ein Begriff, der zumindest mir noch nicht komplett zu viel sagt, was du für Pre-Train Model und damit Transformers. Also bei Transformers stelle ich mir natürlich wahrscheinlich nicht diese Autos vor, die später zu Robotern werden und sich transformieren, sondern es ist wahrscheinlich was anderes, oder? Ja, also Transformers ist eine Maschine Learning Architektur, die 2017 von Google Researchern mehr oder weniger populär gemacht wurde mit dem Paper Attention is all you need, das einfach gezeigt hat, dass sich über, okay, jetzt wird es vielleicht zu spezifisch, aber der Großteil von der Transformers Architektur ist die Multi-Headed-Tention, die mehr oder weniger simuliert, wie ein Stück weit unser Gehirn funktioniert mit einem Gedächtnis. Das heißt, dadurch, dass ich mein Modell trainiere, funktioniert das so ein bisschen wie ein Gedächtnis. Das heißt, wenn ich das Wort Bank in dem Kontext sehe, der alte Mann sitzt im Park auf der Bank, bedeutet das Wort Bank in dem Fall etwas zu sitzen. Aber wenn im nächsten Satz würde kommen Die Frau geht zur Bank und hebt ihr Geld ab, dann steht das Wort Bank in dem Kontext. Okay, ich kann Geld abgeben und das muss halt ein Modell lernen. Und das kann nicht einfach nur über Wörter gehen, weil ein Wort kann in einem anderen Kontext eine andere Bedeutung haben und das lernt dadurch sozusagen, in welchem Kontext, welches Wort welche Bedeutung haben kann. Und der erste Durchbruch damals war Maschinen Translation. Das heißt, dass man einfach einen Breakthrough geschafft, wie ich Texte übersetzen kann von Deutschen ins Englische oder ins Englische in Deutsche, was vorher einfach nicht so gut war. Und seitdem ist es halt eine never-ending Story, dass Transformers nach NLP und Sprache Computer Vision mehr oder weniger erobert hat mit Vision Transformers. Dann zuletzt Audio und Sprache mit Wizzpo von Open AI, gerade dass man halt dieses Sprachtranskription auch mit Transformers nutzt. Und das letzte neu ist Multimodalität, wo man mehr als Text oder Bilder als Input hat und dann einen Output generiert. Okay, vielen Dank, dass du uns da schon mal einen Überblick gegeben hast. Vielleicht weil wir ja auch jetzt hast du schon schon Thomas wahrscheinlich schon vielleicht auch was über das wir uns gleich dann nochmal drüber unterhalten, ein bisschen mehr ins Detail gehen. Ich glaube für die, die nicht wie du jetzt schon lange in dem AI Bereich sind, irgendwie gefühlt war es ja irgendwie gefühlt auch vorher hat man eher mit dem Begriff Maschinen Learning dann irgendwie sind diese ganzen Dinge waren für mich eigentlich immer einhergegangen. Ich habe es gar nicht so richtig mit AI alles in Verbindung gebracht, sondern dieses Trainieren der Modelle. Und gefühlt hat man, wenn man im Tech Bereich war, immer schon was davon mitbekommen. Aber jetzt, wie aus der Web-und App-Entwicklung auch nur angrenzend. Jetzt ist es ja so, dass wir seit Monaten eigentlich die ganze Welt darüber spricht, zumindest wenn man mal aus unserer Bubble blickt, aber auch denke ich darüber hinaus. Und irgendwie der Begriff, der ja da in dem Zuge immer fällt, gerade bei Chat-GBT, die vor irgendwie LARCH Language Model so. Vielleicht fangen wir mal an, mit dem Begriff erst mal aufzuräumen. Was genau ist das denn da? Und warum hat das jetzt denn so einen Impact auf einmal? Also ich sage mal, bevor wir das machen, du hast ja gerade gemeint Maschine Learning, Deep Learning, AI sind ja alles so Begriffe, die man irgendwie gefühlt substituiert. Aber im Eigentlichen ist AI der große Überbegriff. Darunter fällt dann Maschine Learning, aber auch Robotics. Also Robotics ist auch ein Teilbereich von AI und ein Teilbereich von Maschine Learning ist dann Deep Learning, indem wir uns aktuell bewegen, wo Transformers zu Hause ist oder dann auch auch LLMs. Und LLMs oder Dutch Language Models steht eigentlich, wie der Name sagt, für sehr große Sprachmodelle. Sehr groß in dem Fall bedeutet, ist ein bisschen schwammig, aber meistens über 10 Milliarden Parameter. Und ein Parameter in einem neuronalen Netz oder bei Deep Learning ist halt eine Zahl, die, sage ich mal, mehr oder weniger erlernt werden kann. Und die größten Modelle, GPS3 mit 175 Milliarden Parametern oder von unserer Seite aus Big Science Blue mit 176 Milliarden Parameter oder dann von Google mit Palen mit 540 Milliarden Parameters sind so die großen. Aber es gibt auch kleinere, sage ich mal, zwischen 10 und 20 Milliarden Parameter, die auch schon zu den LARCH Language Modellen gehören. Und Lerche Language Modell ist eigentlich wie ein kleineres Language Modell nur größer und haben an Popularität vor allem in den letzten Monaten gewonnen dadurch, dass sie relativ gut generalisieren. Das heißt im Normalfall, wenn wir jetzt bei einem kleinen Language Modell bleiben wie BERT zum Beispiel, das trainiert man für eine spezielle Aufgabe. Also ich habe irgendwie die Task-Klassifizierung, weil ich, wenn wir bei unserem Kundensupport bleiben, im Vorfeld filtern möchte, ob eine Anfrage Spam ist oder nicht Spam, dann würde ich mein BERT Modell trainieren auf Spam nicht Spam und danach halt weiter bearbeiten. Und dann kann das Modell genau diese eine Aufgabe und die Texte klassifizieren, was LLMs auf der anderen Seite immer besser können, dass sie mehrere Aufgaben können. Das heißt, wir kennen es alle von ChatGPT. Ich kann gefühlt alles fragen und bekomme irgendwie einen Output. Und ich kann nicht nur fragen, okay, ist der Text Spam oder nicht Spam? Und das kommt dadurch, dass sie halt mehr Parameter haben und damit auch mehr Wissen sicher lernen können. Das heißt, ist der Unterschied, dass es dann sozusagen wirklich so, also ist der Unterschied, dass es dann mit mir wirklich in der Form wie vom Chat interagieren kann, einfach nur, dass es mehr Parameter sind? Oder ist das Trainings, das Trainingset dafür auch relevant? Ja, es ist ein gesamter Prozess, der letztendlich dazu führt, dass es dann so wie bei ChatGPT funktioniert. Genau. Also ein LLM heißt an sich nicht, dass es irgendwie ein Chat Interface hat. Ein LLM steht erst mal dafür, dass es einfach ein sehr großes Sprachmodell ist. Das kann vieles heißen. Es kann sein, dass es nur Pre-Train ist, das heißt einfach auf einer großen Menge von Daten trainiert wurde und ein gewisses Wissen in den Parametern vorhanden ist. Es kann aber auch sein, wie in dem Fall von ChatGPT, dass es schon, sage ich mal, gefinetunt wurde auf einen Conversational Use Case. Und da geht man von dem großen LLM, welches Pre-Trend ist, nimmt einen Art Datensatz, sage ich mal, einen erweiterten Datensatz und finetunt das dann auf diesen speziellen Use Case. Und darüber hat, sage ich mal, OpenAI auch den Breakthrough geschafft, dass sie einfach ein User Interface oder einen UX geschafft haben, welches das Wissen, das in dem Modell vorhanden war, in einer benutzerfreundlichen Anwendung dargestellt hat. Ich glaube, wir können später noch viel mehr im Detail darauf eingehen, wie dieser ganze Prozess eigentlich jetzt für uns stattgegangen ist, dass diese Modelle so entstanden sind, auf welcher Basis das fungiert hat. Mich würde noch interessieren zu Hackingphase. Ihr wollt ja letztendlich einfach eine Plattform sein, wo halt die ganze Welt eigentlich daran partizipieren kann, letztendlich an diesem Thema. Oder auch, dass irgendwie so der zentrale Hub wird, wo alle Maschinen Learning Architekten ihr Wissen dann irgendwie vereinen können. Also habt euch letztendlich als Aufgabe genommen. Ich glaube als Titel habt ihr gesagt, unsere Mission ist zu demokratizen Good Machine Learning, dass ihr eigentlich sozusagen diese zentrale Anlaufstelle werdet, wo halt dieser Wissensaustausch über Maschinen Learning dann stattfindet. Genau. Open Source ist bei uns ganz großes Stichwort und du hast auch gerade gesagt, wir wollen Good Machine Learning demokratisieren. Das heißt nicht, dass wir einfach nur den Zugang zu allen möglichen Modellen ermöglichen wollen, sondern auch wirklich aufklären und educaten, was Sinn macht und nicht Sinn macht. Und ich finde, man merkt es gerade, ich weiß nicht, ob ihr es verfolgt habt, wo BIM den BIM Chat vorgestellt hat, dass da relativ viel Schuntluder, sag ich mal, getrieben wurde und man relativ einfach den Chat high checken konnte und dann halt sich Anleitungen erstellen konnte, wie man irgendwie eine Bombe baut oder irgendwie sowas. Und das soll halt nicht zielführend sein, wie man AI einsetzt. Das heißt, dass wir wirklich schauen wollen, okay, zum einen wie ermöglicht man den Zugang zu den Maschinen Learning Modellen für jeden und schließt niemanden aus. Aber zum anderen auch okay, wie macht man das in einem guten Weg? Also mit viel Aufklärung. Man kann also man weiß Maschinen Learning Modelle repräsentieren eigentlich nur ein Stück weit unsere Welt oder unsere Daten. Das heißt, die sind nicht absichtlich Bias in manchen Bereichen. Und deswegen ist halt Aufklärungsarbeit genauso wichtig eigentlich wie den Zugang zu den Modellen zu gewährleisten. Und dann habt ihr letztendlich Kooperationen mit allen möglichen großen Firmen, die das dann irgendwie supporten. Ich hatte nur gesehen, es gibt dann entsprechende Spaces, die dann von einzelnen Firmen auch irgendwie supportet werden. Also das ist so euer Modell, dass ihr sagt, alle, die irgendwie daran partizipieren, die vielleicht auch im Hintergrund das notwendige Kapital haben, das zu unterstützen, die bringen sich dann ein und supporten letztendlich dann eure Arbeit in dem Bereich. Ja, genau. Der Hub, den wir haben, funktioniert eigentlich so wie GitHub nur für Maschine Learning. Das heißt, man kann sich anmelden und einen User Account erstellen und dann kann ich für die drei Teilbereiche Modelle, Datensätze und Spaces Repositories, wirkliche Git Repositories erstellen und dann meine Artefakte, Scripts oder auch Anwendungs-Codes, sag ich mal, hochladen. Und als Unternehmen oder als Community kann man dann auch wie bei GitHub eine Organisation gründen, worunter ich dann Modelle hochladen kann. Und die bekanntesten Organisationen, die wir haben, ist halt mit Facebook und oder Meta mittlerweile Google, Amazon, Microsoft. Das sind so wirklich die Top vier, die auch Modelle aus ihrem Research Bereich dann der Community zur Verfügung stellen. Und dann hat man halt auch kleine Apps wie Eloofe AI oder LNAI aus den USA oder Standford zum Beispiel ist auch stark vertreten, die dann halt ihr Research sozusagen mit der Community teilen. Und die Community kann dann basierend auf den geteilten Artefacts, Data Sets, wieder Modelle trainieren, die sie dann wieder teilen. Der Gedanke ist halt wirklich, dass man mehr oder weniger sich gegenseitig hilft und dann gemeinsam den Fortschritt macht, als irgendjemand ausschließt und versucht halt besser dazustehen als andere. Und du arbeitest schon immer in diesem Bereich oder bist du jetzt an dich recht neu dazu gestoßen? Also war das auch so von deiner Ausbildung her, dass das immer so am Horizont war? Du möchtest irgendwie mit AI und Machine Learning arbeiten oder hat sich das so in den letzten Jahren eigentlich entwickelt, dass das Thema für dich so prominent geworden ist? Also ich bin jetzt seit zweieinhalb Jahren bei Hackingphase und davor, ich habe damals Wirtschaftsinformatik studiert, also jetzt vielleicht nicht der typische Werdegang für jemand, der jetzt im AI Bereich war, für mich damals das größte war immer Dinge zu automatisieren. Am Anfang klar, irgendwelche Prozesse oder eine Website bauen, damit man irgendwelche Daten eingeben kann und so weiter. Und ich sage mal, das Endziel von Automatisierung ist halt irgendwie Maschine Learning oder AI, weil ich mittlerweile einfach nur einen Text eingebe und dann Dinge passieren oder eine Antwort gefunden wird, ohne dass ich manuell groß viel machen muss. Und das Ganze hat bei mir angefangen während dem Studium, wo ich mit Kommilitonen halt versucht habe, ein AI Startup nebenher aufzubauen, gerade Nachrichten zu analysieren und zu klassifizieren, rauszufinden, wie, sage ich mal, der aktuelle Sentiment für ein Unternehmen ist und dann dadurch halt immer mehr hat leider nicht geklappt. Aber ich sage mal, die Leidenschaft ging nicht verloren. Und dann habe ich einen Blog angefangen, wo ich regelmäßig Beispiele und Tutorials publishe, wie man halt Heigenfäßler oder Transformers verwenden kann, sich ein eigenes Text Klassifizierungsmodell zu erstellen oder ein Summarization Modell oder wie ich zum Beispiel was bei Amazon deploye, dass ich es in meine Anwendung einbauen kann. Und darüber kam ich dann auch zu Heidenphase und bin jetzt erst mal hier. Okay, cool. Aber das heißt, du hast dich eigentlich schon sehr, sehr lange mit diesem Thema beschäftigt. Und für alle, die so ein bisschen von außen auf dieses Thema gucken, ist es so okay, man hat auf einmal diese ganzen Anwendungen, die irgendwie aus dem Boden ploppen und die irgendwie da sind und hat so das Gefühl, in den letzten Jahren war es immer so ein bisschen verhalten. Ich glaube auch die Forscher selber haben, glaube ich, gar nicht so oft diesen Erfolg oder sagen wir... An dieses schnelle Bereitstellen von diesen aktuellen Modellen geglaubt. Und plötzlich ist es gefühlt so, dass es irgendwie an jeder Ecke eine andere AI-Anwendung gibt und jeden Tag gefühlt ein neues Tool, was man nutzen kann. Ist das etwas, was wirklich jetzt so einen ganz großen Sprung gemacht hat? Oder ist es nur in unserer Außenwahrnehmung so, dass auf einmal alles möglich ist und da ist? Also was wir ganz viel, sag ich mal intern oder in der AI Bubble aktuell lesen, ist so, dass ChatGPT der iPhone Moment von Machine Learning oder AI war, weil es einfach dadurch in die breite Masse gekommen ist. Also ich weiß nicht, ob ihr die ganzen Charts und Visualisierungen gesehen habt, wo ChatGPT irgendwie nach fünf Tagen 100 Millionen angemeldete Nutzer geknackt hat. Es ist nicht mehr nur irgendwie Research oder Data Science in Unternehmen. Das ist wirklich Mainstream und eigentlich jeder. Und das ist wirklich die große Veränderung. Und deswegen, also dadurch, dass es halt auch alles über APIs zugänglich ist, sprießen die ganzen Startups und Anwendungen aus dem aus dem Boden, sag ich mal. Aber so die technologische oder die Research Grundlage für alles, was wir aktuell sehen, ist jetzt nicht in den letzten drei Monaten passiert, sondern mehr oder weniger in den letzten drei bis vier Jahren, was aber jetzt sehr schnell beschleunigt wurde dadurch, dass halt dieser Hype entstanden ist und jeder, sag ich mal, was von dem Kuchen abhaben möchte. Und ich meine, man hat heutzutage kaum mehr einen Tag, wo nicht irgendwas Neues, Breakthrough AI Anwendung mehr oder weniger vorgestellt wird. Deswegen, also es beschleunigt sich sehr stark dadurch, dass jetzt auch, ich sage mal mehr finanzieller Hintergrund da ist, dass alle alle wollen okay, das ist the next big thing, wie kann ich da Geld mitmachen? Und nicht nur okay, ich mache jetzt mein Research, ich schreibe mein Paper, ich investiere viel Zeit in Evaluierung. Das fällt aktuell ein bisschen weg. Also ich weiß nicht, ob ihr das GDP4 Paper in Anführungszeichen euch angeschaut habt, aber es steht auch klipp und klar drin, dassopen AI nichts dazu teilt, wie sie das Modell trainiert haben, wie das Modell aussieht oder wie sie die Evaluierung durchgeführt haben. Und das ist halt komplett gegensätzlich zu dem, was eigentlich Research macht und gemacht hat in den letzten Jahren. Und da ist wirklich nur dieser Produkt und finanzielle Gedanke im Vordergrund. Man hat dieses gutes Modell. Wir teilen nichts, wie es funktioniert, damit wir einen Wettbewerbsvorteil mehr oder weniger haben. Und ist es dann aber so, wenn du jetzt darauf schaust, also war es einfach nur das Open AI, in dem zumindest aus meiner Wahrnehmung ging dieses ganze Racet für mich los mit Doly 2 letztes Jahr im Juli 22 so da war es so, dass ich gesagt habe, okay, das ist irgendwas aus meiner Sicht, okay, den Anwendungsfall, das ist irgendwie crazy neu für mich, da kommen wir gleich noch mal auf den Begriff Generated AI. Aber wenn man jetzt auch auf Chat-GPT schaut oder generell Open AI mit ihrem mit ihrem Chat Implementierung auch damals schon von GPT3, ist es denn so, dass Open AI da wirklich ein Breakthrough dazu geleistet hat, dass das Ganze so funktioniert? Oder ist es am Ende einfach nur mit dem Produkt Gedanken das richtige Produkt gebaut und sage ich mal mit dem richtigen Trainingsdaten. Das ist der Part, den ich immer noch nicht so ganz versteht ist. Also was? Welcher Teil davon ist wirklich die Arbeit von Open AI an diesem ersten Produkt für einen Chatbot? Ich würde sagen, beides. Also Open AI hat einen ganz starken, also ganz stark viel, sag ich mal, im Bereich Forschung gemacht über die letzten Jahre und war auch damals, also es kam BERT und dann kam GDPT das erste Modell sozusagen nach BERT als Decoder Modell, was heute relativ noch ähnlich ist zu dem, was wir jetzt von GDP kennen. Das heißt, definitiv hat Open AI da von Day 1, sag ich mal, Research und Investments getrieben. Jetzt allerdings haben sie es im letzten Jahr wirklich geschafft. Okay, wie bekomme ich es hin, dass ich mein Modell benutzerfreundlich mache, sag ich mal. Und das war auch unique. Also man kann wirklich den Hut ziehen, weil Chatbots gab es davor. Ist nichts Neues, ein Chat Interface zu machen, aber einfach die Kombination zwischen okay, ich habe ein LLM, was relativ gut generalisiert. Also ich meine den GPS Free Playground gibt es seit drei Jahren und der hat keine Millionen Nutzer, obwohl du, wenn du dich anmeldest, irgendwelche Free Credits hast, sage ich mal. Der Breakthrough kam wirklich, dass man, sage ich mal, es Developer freundlich gemacht hat, sage ich mal, oder benutzerfreundlich gemacht hat für jeden, der eigentlich irgendwie schon mal mit WhatsApp gefühlt gechattet hat. Und gerade was du gemeint hast mit den Daten, da hat sich also viel getan, ist auch mittlerweile bekannt, dass GPT4 auf Nutzerdaten trainiert wurde. Das heißt alles, was seit GPT3 mehr oder weniger gemacht wurde, Anwendungen, Startups, die auf GPT3, GPT3.5 gebaut haben, deren Daten könnten genutzt worden sein, das aktuelle Modell zu trainieren zu haben, genauso für für ChatGPT. Und was halt ein, sag ich mal, wirklich Breakthrough war im letzten Jahr, ist dieses Reinforcement Learning from Human Feedback, was allerdings schon mit InstructGPT bzw. Gpt3.5 Einzug gefunden hat. Kannst du uns dazu ein bisschen was erzählen, was genau das ist? Also der Name, ich weiß nicht, sagt euch ReinforcementLearn irgendwas? So grundsätzlich glaube ich, hat man mal natürlich ein bisschen was über die Ansätze da irgendwie verstanden. Aber ich glaube, das ist natürlich noch mal interessant, das wirklich im Gesamtkontext zu verstehen, wie das eigentlich aufgebaut ist, also was letztendlich die unteren Transformer Schichten sind, weißt du, was dann Reward Model macht und wie letztendlich mit Reinforcement Learning dann das verstärkt wird und halt wirklich diese Zugänglichkeit eigentlich für den Anwender dann geschaffen wird. Ja, also ich sage mal so, bis vor ein, zwei Jahren war Reinforcement Learning mehr im Simulationsbereich oder im Gaming Bereich AlphaGo zum Beispiel. Ist auch eine Anwendung für Reinforcement Learning, wer wo ein Agent in der Umgebung, also in dem Spiel sozusagen gelernt hat, wie ich einfach das Spiel spiele und gewinne. Und am einfachsten zu betrachten ist es bei Reinforcement Learning, ich habe immer einen Agent, ich habe ein Environment, ich habe einen Reward und einen Step. Ein Step ist normalerweise irgendeine Aktion, die ich durchführe. Und für diese Aktion verändert sich mein Environment und das Modell bekommt oder der Agent bekommt eine Reward. Und der Reward wird dann einfach dafür genutzt, dem Modell mehr oder weniger etwas Gutes zu tun oder etwas Schlechtes zu tun. Und der Agent möchte dann natürlich den höchstmöglichen Reward erzielen und dadurch sich ständig zu verbessern. Und das ist halt der Gedanke bei einem Spiel. Ich möchte natürlich irgendwie gewinnen und dann versuche ich besser zu werden. Und über die Aktion, also über die Spielzüge, die ich durchführe, kriege ich wieder Feedback, weil mein Environment sich verändert und anhand davon wird dann der Reward berechnet, ob der Spielzug jetzt gut oder schlecht war. Und das hat über die letzten Jahre auch Einzug in andere Anwendungsbereiche gefunden. Und gerade für NLP bzw. Generated AI einen Use Case gefunden, wo man es wirklich auch auf die echte Welt übertragen kann für nicht nur irgendwelche Spiele. Und in dem Fall bei Reinforcement Learning from Human Feedback ist es so, dass der Reward mehr oder weniger auf Human Feedback basiert. Und im Beispiel von ChatGPT oder InstructGPT ist es so, dass OpenAI für den Reinforcement Learning Aspekt mehr oder weniger mehrere Texte generiert hat und dann Menschen gerankt haben, welche für sie denn der beste Output war. Und ein sehr gutes Beispiel war von Learning to Summarise with Human Feedback. Das war ein Paper von 2020, wo OpenAI einfach versucht hat, ein besseres Summarisation Modell, also Zusammenfassungsmodell zu erstellen mit Human Feedback. Und dort haben sie sozusagen einen Input gehabt, also einen Nachrichtentext zum Beispiel und haben dann mehrere Zusammenfassungen erstellt, entweder über Modelle oder auch handschriftlich, sag ich mal geschrieben. Und diese Daten wurden dann von Menschen gerankt. Also wenn ich irgendwie einen Nachrichtenartikel habe, habe ich vier Outputs und jeder Output hat dann von Menschen einen Rang bekommen. Und darüber wurde dann dieses Reward Modell trainiert, einfach zu klassifizieren, welcher Text denn der benutzerfreundlichste ist. Das Reward Modell, also das trainierte Reward Modell ist ja nur das, was dann bewertet am Ende sozusagen, das ist gut, das ist schlecht. Man hat diesen Input nur genommen, dieses Reward Modell zu trainieren, das einfach immer nur diese Entscheidung dann automatisiert, was vorher Menschen gemacht haben. Genau. Und beim richtigen Reinforcement Learning trainieren hat man dann sein GPS Modell, welches einen Input bekommt, fasst den Text zusammen und dann generiert es einen Output. Und anhand von dem Reward Model wurde dann der Output mehr oder weniger gerankt wieder. Und umso höher der Rank natürlich war, umso höher der Reward war, der dann wieder zurück in das Modell ging, umso niedriger der Rank, umso niedriger der Reward, was dann auch wieder zurück in das Modell ging. Und darüber hat das Modell oder lernt das Modell. Okay, welcher Text ist denn gut, den ich erzeugt und welcher ist schlecht? Und darüber versucht man eigentlich sozusagen es möglichst benutzerfreundlich oder menschenfreundlich den Text zu formulieren. Weil das Wissen ist ja per se in dem Modell da. Es geht nur darum, wie mache ich den Output, dass er möglichst hilfreich ist? Genau. Ich. Glaube, das wäre jetzt die Schwierigkeit, was man in den Beispielen auch immer so sieht, dass letztendlich so Ausgaben, also gewisse Promps jetzt an ein Gpt3 Modell hat manchmal einfach, sagen wir mal, zwar faktisch richtige Antworten gebracht, aber nicht in der Art und Weise geantwortet haben, wie vielleicht ein Mensch das erwarten würde. Und das, glaube ich, so der große Schritt war letztendlich mit diesem Refersement Learning, dass man es eben geschafft hat, einfach dieses Modell immer weiter zu verändern oder erst mal dieses Reward Modell aufzubauen. Nachher hat das ja wirklich auch das Ursprungsmodell eigentlich noch verändert. Aber ja, dass man eigentlich diese Eingabe der Benutzer gebraucht hat, damit das System erst mal lernt, wie unterhalten sich eigentlich Menschen oder wie den Menschen letztendlich diese Inhalte, die du dort eben aufbringst? Und dass das einfach ein wichtiger Schritt war, halt diese Zugänglichkeit für alle zu schaffen. Genau. Ja, vielleicht noch kurz da hinzuzufügen. Also das ist wirklich so, ich glaube das aktuell heißeste Thema im AI oder NLP Bereich, das Reinforcement Learning from Human Feedback ist neben Open AI hat es Anthropic geschafft bisher, von was man öffentlich weiß. Aber das war es dann auch Google nutzt es wahrscheinlich bei ihrem BAP Modell oder intern, aber wirklich sage ich mal noch öffentlich nach außen getragen über Paper oder Modelle. Das ist aktuell nur bekannt von Open AI und von Anthropic, dass sie Reinforcement Learning from human feedback nutzen, ihre Modelle besser zu machen. Und es ist ein ganz großer Research Bereich. Und natürlich schade, dass die Unternehmen dort nicht mehr teilen, wie sie das geschafft haben. Weil natürlich sind jetzt andere Research Institutions da und versuchen mehr oder weniger nur nachzubilden, was bereits geschafft wurde und dann darauf aufzubauen, was halt so den ganzen Prozess ein bisschen entschleunigt. Und wenn man, wenn man sich über Human Feedback unterhält, welche Datenmengen dreht es da in dem zu? Gibt es aus dem Paper Informationen dazu? Wie viel Daten wurden da gesammelt? Ich glaube, ich müsste nachschauen, aber es ist ein Bereich die 150.000 insgesamt für den ganzen Prozess. Also das Reinforcement Learning von Human Feedback enthält mehrere Schritte. Also als erstes trainiere ich ein Teil normales Training auf meinem Datenset, damit ich die verschiedenen Outputs generieren kann und die Outputs werden dann gerankt. Dann trainiere ich mein Reward Modell und dann kommt erst dieser Reinforcement Lern Part Schritt und mein Datenset Splitt ich dann auch für dieses anfängliche Training. Dann habe ich einen Teil, den ich brauche, meine Ranks oder halt meine verschiedenen Outputs zu generieren, die ich dann ranken kann. Und dann habe ich am Schluss noch einen Teil, den ich nutze zum Trainieren. Aber es ist irgendwo zwischen 100 und 150.000. Wir können gerne nachschauen und es auf jeden Fall irgendwie verlinken. Aber das ist, sage ich mal, die letzte Information, die man weiß von InstructGPT, was Anfang 2022 war. Also es ist nicht bekannt, wie viele Daten oder wie groß das Datenset für ChatGPT oder GPT4 war. Und ich nehme an, dass es größer geworden ist. Du hast jetzt mehrfach schon von InstructGPT gesprochen. Das ist sozusagen einfach das Vorgängermodell von ChatGPT gewesen, wo man so ein bisschen Instruction-based mehr dem Modell letztendlich Anfragen stellen konnte. Das war einfach das, woran Open AI ist. Wahrscheinlich etwas, was von Open AI kam und dann einfach dieses Vorgängermodell war und ich glaube auch eine ganze Zeit lang ja sozusagen in den Modellen schon verfügbar war, aber einfach so diese Grundlage bildet hat, wie man mit dem System jetzt mit ChatGPT interagieren kann. Genau, also InstructGPT ist mehr oder weniger eine GPS3 oder GPS3.5 optimierte Variante, die das erste Mal dieses Reinforcement Learning for Human Feedback verwendet hat. Das wurde Anfang, wahrscheinlich ungefähr vor einem Jahr vorgestellt oder war auch zu nutzen. Und dann im November kam ChatGPT, was eine optimierte Variante von InstructGPT war, wahrscheinlich diesen Chatverlauf einfach darzustellen. Das InstructGPT war mehr ich gebe irgendeine Anweisung und kriege dann mein Output, aber habe nicht dieses Chat, dass ich in meiner nächsten Frage wieder auf das davor eingehen kann. Man könnte es natürlich, wenn ich den Text wieder reinkopiere und dann wieder eine Frage stelle, aber es war nicht darauf trainiert, einfach diesen Chatverlauf oder diese Chat Interaktion darzustellen. Ich glaube, was noch ganz spannend ist, so zum grundlegenden Verständnis einfach, weil man hat manchmal gar nicht so eine Vorstellung, wie so ein LLM irgendwie funktioniert. Also von außen ist es so, man kann natürlich irgendwie anfragen, wieder reingehen und irgendwie kommen die Antworten raus. Aber wie ist denn überhaupt so eine Repräsentation? Wie kann man sich das irgendwie vorstellen? Also ich habe mir das immer so als, ja, als Krücke so ein bisschen dargestellt. Es ist einfach so wie eine stochastische Funktion, wo ich, sage ich mal, Textbausteine eben verknüpfen kann, Textkombination. Aber kannst du so ein bisschen erklären, einfach damit man eine Vorstellung davon bekommt, wie eigentlich ein Sprachmodell sein Wissen abbildet? Ja, also LLM ist im aktuellen Sprachgebrauch oder steht stellvertretend für Decoder Modelle und Decoder ist ein Part vom, der wird der Transformer Architektur, also die Standard, traditionelle Transformer Architektur hat einen Enkoder Part und einen Decoder Part. Der Enkoder Part ist dann in Word reingekommen. Der steht einfach nur dafür. Okay, ich gebe mein Text rein und habe am Ende ein Output mehr oder weniger. Und der Decoder Part sieht nur den Text, der zuvor kam. Das heißt, wenn ich irgendwie habe, ich weiß nicht, Philipp wohnt in Nürnberg, dann habe ich den ganzen Teil, geht in meinen Enkoder rein. Aber wenn ich dann sozusagen den Decoder nutzen möchte, neuen Text zu generieren oder was anderes zu sehen, dann weiß ich nicht, was nach nach rechts, sag ich mal, nach dem Satz noch kommt. Und beim Pre-Training nutzt man etwas, das nennt sich Codial Language Modeling, was eigentlich dafür steht, dass ich nur versuche, das nächste Wort zu verdichten. Das heißt, ich habe Philipp und dann versuche ich das Modell herauszufinden. Okay, was kommt nach Philipp, was in dem Fall wohnt ist? Dann ist der nächste Schritt wieder okay, in ist das Wort, das dann herausgefunden werde und das wende ich an auf Terabyte von Daten, also von einfach Textdaten. Und darüber lernt das Modell eigentlich diesen Kontext, den wir am Anfang hatten. Okay, Nürnberg ist eine Stadt, eine Bank kann in verschiedenen Bereichen für etwas zum Sitzen oder etwas zum Geld abheben stehen. Und das ist sozusagen einfach der, der der Pre-Trade-Trainingsansatz. Und wenn ich dann mein Language Modell habe, dass das Wissen mehr oder weniger erlernt hat, kann ich gerade diesen Schritt von Reinforcement Learning für Human Feedback anbieten oder auch Instruct Tuning, wo ich einfach versuche über kleinere Datensätze mein Modell zu trainieren, klare Antworten zu geben. Ein Beispiel dafür wäre, schreibe mir ein Gedicht über Bäume und dann hast du den Input, schreibe mir ein Gedicht über Bäume und dann den Output. Ich bin jetzt schlecht im Reim, aber dann kommt halt, sage ich mal, einfach ein Gedicht und darüber trainiert man und so versucht man das ganze Wissen, was zuvor drin war, mehr zu generalisieren oder benutzerfreundlicher einfach zu machen. Das heißt, wenn wir uns mal jetzt, du hast es jetzt runtergebrochen und wenn man jetzt auf die Begriffe, die jetzt so im Raum immer schweben, sozusagen das drin, dass das Modell, was sozusagen das gesamte Wissen hält, wäre dann so was wie GBT 3.5 und das sozusagen auf einen Use Case trainierte, was ein Beispiel wäre mit Gedichten, wäre dann zum Beispiel Instruct GPT gewesen Jein. Also Instructivity hat trotzdem das ganze Wissen, aber kann einfach einen besseren Output generieren, sag ich mal. Also das, wenn ich ganz nativ gesprochen, ein Pre-Trained Language Modell, das kann einfach nur Text fortsetzen. Das heißt, es kann sein, dass jetzt die Antwort kommt. Es kann aber auch nur sein, dass einfach irgendwas geschrieben wird, weil es weiß ja eigentlich nicht, was ein Gedicht ist. Und wenn ich einen Satz anfange mit der Baum steht im, dann kommt wahrscheinlich Park und Park reibt sich ja nicht unbedingt auf irgendwas, was ich davor gesagt habe. Und das kommt einfach durch dieses Instruction Tuning oder Feintuning von diesen LLMs oder Language Modellen, dass ich einfach weiß okay, was möchte ich eigentlich? Und das kann natürlich nur darüber passieren, wenn ich diese Instruktions habe. Oftmals, was man gesehen hat am Anfang von GDPT3 ist View Short Learning oder View Short Klassifizierung, dass ich einfach ein paar Beispiele mehr oder weniger mit eingebe und dann mein echtes Beispiel anfange und anhand von den vorherigen Beispielen weiß es okay, irgendwie es kommt ein Tweet und dann kommt die Klasse positiv, noch ein Tweet, Klasse negativ, dann schreibe ich mein Tweet und fang an mit Klasse weiß es gefühlt okay, ich habe das Muster von oben erkannt. Ich schreibe jetzt positiv oder negativ. Und das ist nicht mehr unbedingt notwendig, wenn man das Modell feintunt hat. Das hat es, glaube ich, ganz gut irgendwie so verbildlicht, also dass eigentlich sozusagen GPT3 so dieses große Modell war, was unten drunter diese Wissensaggregation gemacht hat und Struktur und darauf letztendlich diese Kontextualisierung dann geschaffen haben, einfach besser letztendlich zu erfassen in welchem Kontext befinde ich mich und was ist letztendlich die richtige Antwort in diesem Kontext? Aber trotzdem irgendwie gut, auch finde ich fürs Verständnis, dass ich im Endeffekt einfach immer nur probiere mit meinem Input Text einfach nur probieren, was könnte das nächste Wort sein, was nach meinem Input Text dann irgendwie kommt, sodass es gar nicht ein Verstehen meiner. Deswegen ist ja auch mit Intelligenz so ein bisschen die Diskussion vielleicht darüber gar nicht verstehen, was ich gesagt habe, sondern einfach nur was ist wahrscheinlich das nächste Wort, was nach dem Text folgt, den ich gerade eingegeben habe? Genau. Und dort gibt es das Dekoding, wo es auch mittlerweile verschiedene Methoden gibt. Das die einfachste Methode ist, ist Kredi Search, wo ich einfach genau wie du gesagt hast, ich möchte das nächste Token mit der höchsten Wahrscheinlichkeit wissen. Und dann habe ich das Token, dann möchte ich wieder das nächste Token mit der höchsten Wahrscheinlichkeit wissen. Aber das muss ja nicht heißen, dass es oftmals die optimale Antwort ist. Es kann ja sein, dass ich zum Beispiel habe, der Hund spielt und dann würde die die nächste, das nächste, die höchste Wahrscheinlichkeit im Garten, also als Zweiwörter zum Beispiel sein. Aber danach kommt ein drittes Token, was mit den, wie erkläre ich das am besten, mit dem zweitmeisten, also ich habe mehrere Auswahlen, wenn ich das nächste Token bestimmen möchte und die haben eigentlich Scores. Und dann das erste, der erste Wort wäre im, hat irgendwie 0,9 und nicht hat 0,7. Und dann hätte ich das Token, das danach kommt, habe ich ja wieder Scores. Garten hat in dem Fall aber 0,5 und draußen hat 0,6, wenn ich nicht hätte. Das heißt, ich würde die zwei Scores von den mehreren Tokens addieren und dann wer den höheren Score hat, würde ich dann sozusagen auswählen. Und dort gibt es verschiedene Möglichkeiten, wie ich die nachfolgenden Tokens auswähle. Ich kann sagen okay, speichere mir alle Tokens, die als Liste, die über 0,6 haben und nutze die, einen Schritt weiterzugehen, wo ich dann bei den, sage ich mal, fünf gespeicherten Token wieder fünf versuche zu prädiktieren und dann wähle mir anhand von den mehreren Arrays, sage ich mal, die die Summe mit den die höchste Summe aus oder speichern wir generell die Top zehn Tokens und gehe dann weiter. Und dort gibt es halt verschiedene Decoding Strategien, welche dazu führen können, dass das Modell auch einen besseren Output generiert. Ist denn was, was von diesen Strategien angeht, noch irgendetwas, jetzt Produkte wie JGPT zu verstehen, noch irgendetwas, was fehlt als großer Block, den wir noch verstehen sollten, damit wir wissen, warum sie das Ganze jetzt vielleicht als User Facing so gut machen? Was sehr interessant ist, dass man über die Strategien halt so ein bisschen steuern kann zum einen, wie lang auch die Nachfolge der Prediction sein kann. Also man kann so, das nennt sich Länge-Penalty, sagen okay, umso länger du läufst, umso härter bestrafe ich dich, sage ich mal, mehr oder weniger. Dann versuch das Modell eher eine kürzere Antwort zu generieren. Man kann über Temperature mehr Randness reinbringen, also wirklich versuchen, dass man mehr kreativer ist. Oder man kann auch sagen, dass die selben Tokens, die davor schon mal kamen, nicht so oft noch mal kommen sollen. Aber der große Unterschied, glaube ich, den JGPT einfach geschafft hat, ist, dass Open AIs hinbekommen hat, diesen Chatverlauf darzustellen, welcher auf vorherige Eingaben sehr gut reagiert. Und dann, ihr habt es selber mal getestet, wenn ich eine Programmierfrage stelle, heißt es nicht, dass die erste Antwort richtig ist. Aber dadurch, dass ich einfach direkt antworten kann und es verbessere, ist es eine so viel bessere User Experience, als wenn ich in Playground oder in der API was schicke. Es ist falsch, muss ich irgendwie anschauen, wieder zurückschicken. Und das ist halt wirklich das, was sie so viel besser gemacht haben. Und ich denke, das sieht man auch mit mit GPS 4, dass der Default Use Case einfach schon Chat ist. Also dort gibt es ja, sage ich mal, gar keine normale API mit Playground. Ich habe immer dieses System und User und Assistent. Du hattest ja vorhin schon gesagt, gerade wenn wir uns GDPT4 angucken, man glaubt schon, dass da User Eingaben verwendet wurden. Und ich glaube, wahrscheinlich ist das natürlich auch der Use Case, warum dieser Playground jetzt gerade so öffentlich zugänglich ist, dass natürlich alles das, was die Benutzer jetzt mit ChatGPT gemacht haben, natürlich sehr wertvoll ist, das Modell weiter zu trainieren und zu sagen, dass du jedes Jahr die Möglichkeit zu sagen Hey, das war die richtige Antwort. Findest du gut oder nicht? Also ist für die auch wahrscheinlich momentan klar ein großer Invest. Ich weiß nicht, was es kostet. Ich glaube die Million mit die Server zu betreiben für das GPT4 Modell gerade. Also es ist ja eine horende Summe, die da eigentlich jeden Tag gesponsert werden. Aber es ist ja auch ein großer Mehrwert, der wahrscheinlich jetzt für die Weiterverfeinerung des Modells da bei Open AI passiert. Also man glaubt es nicht. Man weiß es. Das hat auch Open AI gesagt, dass sie Produktion, also sie haben es geschrieben, dass Produktion Data genutzt wurde. Aber die Produktion Data für ihre APIs sind halt User Interaktionen und auch bis Ende Januar war es kein Opt in. Das heißt es war ein Opt out. Das heißt per Default alles was du hingeschickt hast, hast du mehr oder weniger abgegeben. Ob es dann genutzt wurde zum Trainieren, ist natürlich eine andere Frage. Irgendwelches Filtering-Problem oder irgendwelche Use Cases wurden natürlich bevorzugt oder nicht. Seit Januar ist es ein Opt out, aber Open Air hat trotzdem noch mindestens aktuell 30 Tage Zugang zu deinen Informationen. Also alles was du hinschickst, kann ein Entwickler mehr oder weniger einziehen. Was ein sehr großes Problem ist, würde ich jetzt einfach mal sagen, wo wir auch versuchen eine alternative Lösung zu finden. Also ich habe heute Morgen wieder in den News gelesen, dass Samsung Angestellte JGPT genutzt haben, was gegen die internen Policies ist und halt irgendwelche E-Mails und Meeting-Notes JGPT geschickt haben, eine Zusammenfassung zu bekommen. Und man kann es halt, sage ich mal, noch sehr restriktieren irgendwie in der Unternehmenspolitik. Wenn es einfach ein Pain löst für die Leute, die es privat nutzen, dann werden sie es auch auf der Arbeit, sage ich mal, mehr oder weniger nutzen. Man hat es jetzt in Italien gesehen, die haben JGPT erst mal komplett gesperrt, gerade auf DSGVO Ebene, sag ich mal. Und ja, wir versuchen halt irgendwie eine Alternative zu bilden, wo man genau weiß, zum einen auf welchen Daten es trainiert wurde, frei zugänglich zu machen, dass man halt auch das intern bei großen Unternehmen zum einen deployen kann, zum anderen auch verbessern kann. Ja, ich glaube, das ist auf jeden Fall ein sehr lobenswerter Ansatz, weil obwohl Open im Namenstechnik drin steht, sind sie nicht so Open, wie es irgendwie klingt. Und ich glaube, da sollte man schon ein bisschen hellhörig werden. Ich glaube aber natürlich ist es natürlich auch ein massiver Wettbewerbsvorteil, dass sie natürlich momentan so aktiv genutzt werden. Also sie haben ja ganz andere Möglichkeiten, ihr Modell damit zu erweitern als jetzt es vielleicht kleinere Ansätze und kleinere Modelle damit haben. Definitiv. Und sie waren halt mit Abstand die ersten, die es geschafft haben. Das nächste, sag ich mal, ChatGPT wird nicht mehr so gehypt, weil es ist einfach schon was Bekanntes. Und was man generell lernt, ist, dass, sage ich mal, der Open Source Bereich immer ein bis eineinhalb Jahre hinter proprietären Lösungen ist. Man hatte 2019 GPT Free, man hatte Mitte, Anfang 21, Blum, was ungefähr dieselbe Größe hatte, was jetzt nicht ganz so performt hat, aber man war auch dem, sage ich mal, Technologieniveau. Man hat letztes Jahr mit Chinschilla von DeepMind herausgefunden oder mehr oder weniger gesehen, dass man Modelle nicht größer skalieren muss, sondern ich auch mehr Daten brauche, was jetzt bei Lama sozusagen Anwender gefunden hat von Meta, was jetzt zugänglich ist. Das heißt, ich gehe davon aus, man hat JGPT im November letzten Jahres gesehen, dass wir bis diesen November Open Source Alternativen haben, die ungefähr dasselbe Niveau haben vom anfänglichen ChatGPT. Das selbe wird wahrscheinlich... Das wird wahrscheinlich für GPT4 gelten, dass wir in eineinhalb Jahre von jetzt Open Source oder halt Alternativen dazu haben, die ungefähr dasselbe können. Aber der Grund dafür, würdest du sagen, sind dann beispielsweise die Trainingsdaten oder einfach nur Kapazität an Manpower oder was ist der Grund? Den habe ich nicht ganz verstanden, warum Open Source hintendran ist. Ja, es ist. Zum einen der Research Bereich. Man muss ja auch irgendwie rausfinden, okay, wie kann ich mein Modell besser machen? Dafür muss ich Wissen und Ressourcen investieren, die ein normales Unternehmen eigentlich nicht zur Verfügung hat. Dann zum einen, wie du gemeint hast, sind die Daten. Also was immer mehr deutlicher wird, ist, ich brauche gute und vor allem viele Daten. Und das normale Web ist jetzt nicht unbedingt gut. Also an Datenqualität. Das heißt, es wird immer wichtiger, auch gerade so, sage ich mal, Data Producer, wo für dich Datensätze herstellen, was natürlich auch Geld kostet und dann ein ganz klarer Faktor ist, ist Compute Power. Also ich weiß nicht, ob ihr das euch klar gerade so vorstellen könnt, aber zum Beispiel Lama, das ist das letzte aktuell beste Open Source in Anführungsstrichen Modell, was zugänglich ist, aber nicht kommerziell nutzbar sein kann. Da wurde das kleinste Modell auf 87000 GPU-Owners trainiert. Was wirklich das kleinste Modell, wenn wir irgendwie in einem 30 Milliarden Parameter Bereich sind, sind es eine halbe Million GPU-Owners. Das sind dann halt Werte zwischen 500000 und 10 Millionen. Und ich muss mir dann halt auch wirklich sicher sein, wenn ich das mache, dass es auch funktioniert. Und du meinst, was es kosten würde, diese CPU auszuprobieren? Ja genau. Und dann brauche ich natürlich auch noch die Mitarbeiter, die irgendwie wissen, wie ich so ein Modell trainieren kann. Und es ist leider nicht so einfach wie ich führe irgendein Skript aus und dann läuft es sechs Monate. Man hat ganz viel Probleme mit Hardware-Failures, dass einfach ein GPS abstürzt, dass ich irgendein Memory Problem habe. Ich muss mein Training neu starten. Ich muss es genau monitoren. Es kann sein, dass irgendein Problem ist und mein Loss, also alles Wissen, was ich gelernt habe, geht nach oben. Dann muss ich wieder zurücksetzen und neu starten. Und Open Air hat in ihrem GDP4 Blog mitgeteilt, die hatten 24 Leute, die nichts anderes gemacht haben, als das Training zu beobachten. Also die nannten es Training-Babysitting. Die haben wirklich wahrscheinlich nichts anderes gemacht als den ganzen Tag auf irgendwelche Charts gestartet und einfach gewartet und gesehen, verläuft es gut? Macht es Sinn? Müssen wir was austauschen? Müssen wir anhalten? Müssen wir neu starten? Und. Die Zeit natürlich. Selbst wenn man jetzt weiß, okay ich kann Lama reproduzieren, brauche ich mindestens drei bis sechs Monate, das Datenset zu erstellen und dann das Modell zu trainieren. Und ist man denn dann Open Source darauf angewiesen, dass dann aber so große Firmen wie Open AI irgendwie etwas teilen von dem, was sie tun? Weil ich meine, ansonsten müsstet ihr Open Source ja trotzdem, also die Open Source Community hat trotzdem denselben Weg gehen, denselben Weg, der wahrscheinlich auch das Gleiche kostet. Wie schafft man denn den Research dann, dass es nicht das Jahr immer länger wird, weil Firmen wie OpenAI immer geschlossener werden und irgendwie immer mehr Konkurrenz gibt, weil es jetzt im Endeffekt viel Geld hier wahrscheinlich auch geht? Also besteht der Gefahr, dass dieser Gap größer wird, weil immer weniger Informationen darüber geteilt wird? Definitiv. Und auch selbst Start-Ups, die vielleicht bis vor einem halben Jahr bereit waren, ihr Modell zu Open Source überdenken das aktuell. Ich weiß nicht, ob ihr es verfolgt habt mit Stable Diffusion, was der Dali Klon war, komplett populär und die Community. Man hat wirklich gesehen, der Unterschied zwischen Dali ist es, Closed Source und Stabil Diffusion, wie viele nachfolgende Anwendungen und weitere Ideen daraus entstanden sind. Stabil Diffusion oder Stability wird aktuell in den USA verklagt, weil sie scheinbar Daten genutzt haben, wozu sie keine Lizenzen hatten oder wo das Ganze ein bisschen unklar ist. Keiner weiß, worauf Dali oder Image von Google trainiert wurde und sie wurden nicht verklagt. Dann stelle ich mir auch als Startup natürlich die Frage, will ich alles teilen, was ich mache und das Risiko eingehen, eventuell zu verklagt werden? Oder sage ich einfach, hier ist mein Modell, das kanndas und das und das und erweile, sage ich mal so ein bisschen das Risiko. Und zum anderen natürlich braucht man die Ressourcen und man merkt auch so Research Lab, selbst Standford oder sonst was haben jetzt nicht unbedingt Millionen an Dollar Budget, diese Modelle zu trainieren. Es ist halt immer so ein Spiel. Wir haben jetzt zum Beispiel seit Anfang Februar einen DTO Cluster auf Amazon mit 1050 A100 DTOs, die unser Research Team nutzt, sage ich mal Modelle zu produzieren und dann zu teilen. Stability AI genauso, haben auch einen riesen Cluster und stellen den Researchern zur Verfügung, Modelle herzustellen. Elofa AI ist noch so eine Organisation, die jetzt über öffentliche Supercomputer aktuell in Kanada versucht Modelle zu trainieren und die auch frei zugänglich zu machen. Wir haben das Big Science Projekt, was ein Konsortium von Researchern weltweit war. Die haben auf dem französischen Supercomputer ein Modell trainiert, was dann frei zugänglich wurde. Also man versucht als Community gemeinsam dagegen anzukämpfen, aber umso kleiner die Community wird, umso schwieriger wird es natürlich. Es ist gut, dass du das Thema hier so aufbringst. Und ich glaube, es ist auch ganz interessant, mal irgendwie auch zu erfahren, was gibt es vielleicht für andere Unternehmen da draußen, die sich vielleicht mehr diesem Open Source Gedanken verschrieben haben? Also du hattest ja vorher schon mit Anthropic oder Kloot etwas genannt. Die da auch in dem Bereich oder sind die auch closed Source und gar nicht so offen? Ja, es ist ein schwieriges Beispiel. Ein Topic ist, was Research angeht, sehr offen, gerade was harmlessness angeht. Also gerade Fax und Bias ist bei denen ein großes Thema, weil sie auch teilen, wie man dort Fortschritte macht. Aber ihr, sage ich mal, JGPT-Modell, was sich Kloot nennt, ist auch, man weiß auch nichts darüber. Gibt es mittlerweile aber auch seit zwei Wochen als kostenloses Slack-Integration. Also man kann einfach Klo bei Google eingeben und dann sich bei Slack hinzufügen und hat man wie so eine Art Slackbot, die man kostenlos testen kann. Was sehr cool ist, ein anderes Startup, was auch in dem LLM-Space ist, ist KURIER auch leider komplett closed Source. Also es ist schwierig. Natürlich, ich verstehe es als Startup, man möchte oder als Unternehmen generell, ich muss irgendwie Geld verdienen und ich verdiene nicht unbedingt Geld damit, wenn ich meine ganzen Ressourcen investieren, ein Modell trainiere, es frei zugänglich mache und irgendwie ein Unternehmen kommt, es intern deployt und mich nicht dafür bezahlt. Verstehe ich, macht Sinn, würde ich auch nicht unbedingt teilen wollen, aber man muss halt irgendwie versuchen, einen Mittelweg zu finden. Mit Journey ist ein gutes Beispiel die kleinere Modelle oder ältere Modelle frei zugänglich machen nach einer Zeit. Aber das aktuelle beste Modell, sag ich mal, verkaufen. Wir sehen dort auch mehr Interesse. Ich glaube, Stability AI, gerade mit Stable Diffusion, explorieren, sagich mal, diesen Bereich auch, dass man einfach kleinere Modelle frei zugänglich macht, Prototypen zu bauen, zu testen, aber dann halt, sage ich mal, ihre proprietären Lizenzen nicht frei zugänglich macht. Klar ist es halt immer so als Anwender oder als Unternehmen, was nicht in dem Bereich ist, würde ich es cool finden, wenn die alles teilen, dann könnte ich es intern nutzen. Aber als Unternehmen, welches irgendwie Geld verdienen möchte, verstehe ich es natürlich ganz klar, dass ich nicht unbedingt alles teilen möchte. Und ich glaube, im Verhältnis zu Open Source ist es ein bisschen anders, da sage ich mal Unternehmen, die Open Source Library machen, nicht unbedingt mit den Open Source Library Geld verdienen, sondern mit dem Produkt, was sie dahinter bauen. Ich meine, ihr habt letztens eine Folge über Versell gehabt, welches NextJS, sage ich mal, Maintenent Versell macht nicht Geld mit NextJS, sondern mit ihrer Plattform. Und über die Plattform weiß man ja auch nicht ganz genau, wie die funktioniert oder wie die sie gebaut haben. Und es ist so ein bisschen das selbe Prinzip bei Maschine Learning Modellen. Ja, cool. Also auf jeden Fall gut, dass wir da noch mal ein bisschen Einblick bekommen. Wir gucken auch schon gleich noch mal ein bisschen, blicken noch ein bisschen in die Zukunft. Ich glaube, was da vielleicht so kommt, aber auch was man daran vielleicht besser tun könnte. Aber es war ja schon mal ein, glaube ich, guter Vorschlag. Ich glaube, was für mich jetzt in meinem Kopf noch ein bisschen fehlt, wie man es auch jetzt schon ein paar Mal angesprochen, irgendwie mit Journey, Stability, Fusion, Stability AI und haben uns jetzt ja, wenn man den Begriff, wir hatten es vorhin mal in den Raum geworfen, wie generative AI betrachtet, eigentlich uns ja angeschaut mit GDPT und den Language Language Models, so Text Generation. Und aber so, wenn man jetzt, ich hatte ja vorhin gemeint, für mich hat alles begonnen, so wo ich so richtig interessiert daran war mit Doli 2 irgendwie. Also wir haben hier Image Generation, Text to Image und vielleicht kannst du uns da mal ein bisschen reinführen, was genau sind jetzt eigentlich, also was teilen sie sich technologisch? Was ist der Unterschied? Und. Bedienen sie sich der gleichen Methodik, dass es jetzt auf einmal so explodiert wie auch die Language Modelle? Oder wie kommt es, dass auf einmal beides so auf uns einprasselt? Ja, also Generative AI ist schwierig aktuell einzufassen. Es ist, glaube ich, das nächste große Hype Thema, nach was Transformers die letzten zwei, drei Jahre waren. Jeder redet aktuell über Generative AI, auch wenn ich jetzt, ich habe eine Anfrage bekommen für ein AWS Summit in Washington über Generative AI zu reden. Jedes Unternehmen aktuell Generative AI und meistens sehen die Leute nur irgendwie Image Generation, also gerade Doly und Stable Diffusion und LLMS, Text Generation. Aber es gibt auch jetzt schon, sage ich mal, viel, viel mehr Sub-Bereiche von Generative AI. Und Generative AI steht eigentlich mehr oder weniger dafür für Content Generation, welche im Normalfall nicht in einem Schritt erfolgt. Also gerade Text Generation hatten wir vorher. Ich habe mehrere Steps, den Text zu generieren. Bei Image Generation habe ich auch mehrere Steps, mein Bild von nichts, sage ich mal, nachträglich, also langsam zu generieren. Und dort habe ich halt nicht nur Text zu Text. Ich habe Text to Image, welches Image Generation ist. Ich habe Image zu Text, also gerade das Umgekehrte, dass ich ein Bild reingebe und einen Text raus bekomme. Das ist gerade viel Image Captioning. Also ich mache irgendwie ein Bild von einem Hund, der auf einer Wiese rennt und dann bekomme ich raus, a Dog is running on a field or something. Ganz, ganz aktuell ist mit GDP4, welches Text und Image to Text Generation hat. Also ich habe als Input ein Bild und einen Text, wo ich eine Frage stellen kann, wie viele Orangen befinden sich auf dem Bild und ich habe einen Korb voller Orangen und dann wäre der Output, du siehst drei Orangen oder irgendwie so was. Aber das ist halt immer noch, sage ich mal, immer dieser Bild-und Sprachbereich. Aber auch das selbe gilt für Audio und für Video, dass ich habe Text to Audio, wo ich einen Text eingebe und dann irgendein Modell Audio generiert. Die Bereiche sind noch eher im Explorer. Also man hatte Text Generation 2018, 19, 20, Image Generation mit Doli 1, ich glaube 21, dann letztes Jahr ganz stark mit Doli 2, Stable Diffusion, Image Gen. Wir, wennshr denken, dass dieses Jahr mehr Musik Generation oder auch Text to Video, ich weiß nicht, ob ihr das auf Twitter schon gesehen habt mit dem Modal Scope, wo ganz viele Videos rumgehen mit Elon is Eating something und dann wurden so Kurzvideos mehr oder weniger generiert. Ja, und dann auch auch Text, also Audio to Text mit einfach Transkription oder Text und Audio to Audio, wo man einfach mit einer Texteingabe und einem Audio eine neue, sag ich mal Audio Ausgabe macht, dass gerade wenn man irgendwie sag ich mal so Deep Fake mäßig meine Stimme oder einen Text sagen möchte, die jetzt von morgen Fremen zum Beispiel gesagt wurde, das sind die Modelle halt? Ich habe den Text, den er sagen soll und dann brauche ich sozusagen die Stimme und als Output bekomme ich dann sozusagen das Ergebnis. Damit kann ich dann auch ganze Leader sozusagen mit der Stimme von irgendjemanden dann generieren, oder? Ich habe gestern. Ein Video von M. K. Von M. K. Auf YouTube gesehen, wo jetzt von einem Lead eine neue Song mit J. C. Gemacht wurde und J. C. Aber gar nicht selbst gesungen hat. Der war auch schon auch wieder so. David G. Hat auch sowas gemacht mit M. M. Das war auch sehr interessant. Der hat glaube ich Chat-GPT genommen, umin einer Stil of MNAM sozusagen einen Text schreiben zu lassen und dann über so einen Sprachgenerator die Stimme von MNAM nachzumachen. Und hat sozusagen MNAM mehr oder weniger imitiert, dass er das rappt und dann dazu noch ein Beat dazu gemacht. Das war sehr cool und er war selber sehr verblüfft. Gleiches Beispiel mit JCI. Ich habe es gehört gestern, krass, okay, das ist schon heftig. Und aber da, ich meine, weil du jetzt sagst, dass da jetzt Entwicklung sein wird, einfach weil da jetzt wahrscheinlich Produkte in dem Bereich sind. Braucht es dafür noch technologisch irgendetwas anderes, diese Generative AI zu bauen? Da geht es darum, wirklich nur ums richtige Trainieren, die richtigen Daten, also fehlt es an Technologie dafür noch, das auch gut zu machen? Schwierig zu beantworten. Also weiß man nicht. Was man natürlich in dem kompletten Bereich sieht, ist, irgendwo sind überall Transformer Modelle drin. Also selbst Dali 2, Stable Diffusion, ein Teil davon ist ein Transformer Modell. Bei Stable Diffusion ist es sozusagen der Bereich, der Text in der Art Bildrepräsentation wiedergibt. Ganz klar Language Modelle sind Transformer Modelle. Diese neuen Text to Video Modelles sind Teil Transformer. Also irgendwo steckt überall Transformer drin. Und was man halt in den letzten drei vier Jahren gesehen hat, ist okay, Transformer war Text, war Computer Vision, also Bilder war dann Audio mit Wave to back, Wizzver und kommt langsam in okay, Transformer ist wirklich alles und es ist für Generation. Also ich habe nicht nur irgendwie Image Klassifizierung, ich habe Image Generation, ich habe Audio Klassifizierung, ich habe Audio Generation im Sinne von Transkripten. Ich habe Video Klassifizierung, hatten wir vor eineinhalb Jahre. Ich habe langsam Video Generation. Das heißt, es ziehen alle Modalitäten ein, die man sich irgendwie vorstellen kann. Und was langsam dazukommt, ist, dass man einfach dieses Multimodale hat, dass ich eventuell mehrere Modalitäten, also Text und Bild oder Text und Video als Eingabe habe und ein neues Video, neuen Text als Output. Und dort natürlich sehr viel Research muss gemacht werden, weil welche Architektur Architekturen müssen wie zusammengebaut werden, dass die Pipeline funktioniert und zum einen einfach Daten. Also ich glaube, hätten wir dieselben guten Mengen an Text Daten oder an Bild und Text Daten für Text und Video hätten wir wahrscheinlich schon das Stable Diffusion für Video Generation. Und dort wird halt ich weiß jetzt nicht wie öffentlich, aber ich kann mir sehr gut vorstellen, dass vor allem Google und Meta intern sehr viel auch investieren unddiese Datensätze herzustellen und dann das erlernte Wissen von Text oder von Text und Bilder einfach darauf übertragen zu sehen, wo man rauskommt. Kannst du, ich muss noch mal eine blöde Frage stellen. Wir haben nämlich am Anfang, wir sind relativ früh mit meinem Witz von Transformers, das sind doch diese Autos, die zu Robotern werden. So gefühlt haben wir sehr früh diesen Begriff erklärt. Ich habe das Gefühl, jetzt hat man sehr viel Kontext von dir bekommen. Kannst du noch mal probieren, mir noch mal genau zu erklären, was dieses Transformer Architektur ist? Ich habe das Gefühl, dass sie jetzt gerade an dem Zeitpunkt des Podcasts noch mal Sinn machen würde, noch mal zu Recapen. Man kann sich so grob vorstellen, dass es ein bisschen funktioniert wie ein Gehirn. Das heißt, ich sehe ganz viele Informationen auch als Kind und ich speichere mir, in welchem Kontext, welches Wort, welches Bild, welche Bedeutung hat. Und das Wissen kann ich wiedergeben und verbinden und nicht nur auf ein Wort. Also sage ich mal, vor Transformer hatte man Modelle, die konnten eine Bedeutung für ein Wort lernen. Und das hat sich halt sozusagen dadurch geändert, dass man einfach jetzt mehrere Bedeutungen für dieses Wort lernen kann. Und man hat immer wie so eine Art Embeddings-Space, also einen multidimensionalen Raum, wo die Informationen dargestellt wird, die dann Abhängigkeiten zu anderen Informationen hat. Und das einfachste Beispiel bleiben wir bei der Wortpräsentation. Ich habe König und Königin sind relativ nah beieinander oder oder Deutschland und Berlin sind relativ nah beieinander. Aber wenn ich dann irgendwie habe, Deutschland und ich weiß nicht, Orange, die sind normalerweise nicht nah beieinander. Und trotzdem, man muss es halt, sag ich mal, viel komplexer darstellen, weil ein Wort Bank kann ja irgendwie bei Park in der Nähe sein, aber auch bei Geld. Und darüber ist es halt schwierig, die, sage ich mal, im mehrdimensionalen Raum darzustellen. Aber man lernt oder ein Transformer lernt eigentlich das Wissen anhand von den ganzen Daten, wofür das dann steht und versucht es dann natürlich dann auch. Zu übertragen. Dann hat es, glaube ich, doch verstanden. Ich glaube, dann habe ich den Part, den ich nicht ganz verstanden habe, warum der Part so wichtig ist jetzt auch bei allem wie Audio Image oder so was. Ist der Transformer Part dann nur wichtig, solange Text eine Rolle spielt in diesem... Wenn ich irgendwie... Oder kann diese Abstraktion auch auf Audiodaten angewendet werden? Ich weiß, eine bestimmte Frequenz steht nicht nur für eine Sache. Ja, also wenn man zum Beispiel, vielleicht geht es bei Audio-Blades, aber bei Vision Transformer habe ich anstatt als Input nicht meine Texte, sondern bei Vision Transformer hatte ich mehr oder weniger kleine Quadrate von dem Bild, von den Pixel. Und darüber lernt es auch mehr oder weniger, wenn halt irgendwie 15 rote grüne Pixel miteinander zusammen sind, kann es sein, dass es nachher irgendwie ein Vogel ist. Also man muss sich halt auf einer viel größeren Ebene darstellen mit Millionen, Milliarden von Informationen. Aber der Input ist einfach, es sind alles am Ende Zahlen. Bei NLP mache ich aus meinem Text Zahl, dass ich wie so eine Art Vokabular habe, dass Hallo ist vielleicht eins und dann irgendwie ein Teil von Baum ist 15 und dann wird einfach mein Text, diese Zahlen umgewandelt und das Modell hat gelernt okay, wenn ich 1, 7, 13, 5 habe, dann bedeutet 14 die Bedeutung. Und dasselbe ist halt, sage ich mal bei Bildern, wo ich das Bild, was ja im Endeffekt auch nur irgendwelche Zahlen von RGB Werten sind, umwandele und dann dort diese Zahlen reinbringt. Dasselbe passiert, wenn ich irgendwie Videos habe, kann ich ja auch wieder in irgendeiner Art Zahlen Repräsentation darstellen. Und anhand von dieser Zahlen Repräsentation wird dann versucht, dieses Wissen zu erlernen. Und gerade bei Generated AI sind es normalerweise nicht nur einzelne Modelle. Also wenn wir jetzt bei Stable Diffusion bleiben, habe ich ein Teil ist Transformer und ein Teil ist Diffusion Modell und nur durch die Kombination entsteht es dann. Der Transformer Teil ist dafür zuständig, aus einem Text eine Art Bild Repräsentation zu machen und das Diffusion Modell ist dafür zuständig, nach und nach ein Bild zu generieren über verschiedene Diffusion Schritte. Dasselbe ist dann für, sage ich mal, Video Generierung. Dasselbe Prinzipmehr oder weniger. Da ist das, was mich gefragt hat, Diffusion ist etwas, was dann auf Video auch angewendet werden kann. Ist Diffusion auch ein Teil, der wichtig ist bei dem Audio Part? Würde man sich auch auf ein Diffusion Modell zurückgreifen oder was wäre es da neues Audio zu generieren aus einem Textinput? Das weiß ich jetzt spontan nicht, aber man hat natürlich mehrere Möglichkeiten. Ich kann ja eigentlich nur einzelnen und Nullen oder halt Zahlen rausgeben, die ich dann wieder in ein Audio umwandele. Das ist also ich glaube, Music LM von Google ist das letzte Aktuelle, was schon sehr gut funktioniert. Und ja, es ist halt schwierig. Man versucht das Bestmögliche zu finden und scheinbar funktionieren Transformer für alles aktuell irgendwie gleich. Weil ich sage mal, vor fünf Jahren hatte man irgendwie im Computer Vision Bereich DNS und im Textbereich ANNs, die so ein bisschen anders funktioniert hat und Computer Vision und NLP auch Research war komplett auseinander. Also ein Computer Vision Researcher hatte normalerweise keine Ahnung, was im NLP Bereich funktioniert. Und jetzt in den letzten Jahren arbeiten alle mit Transformers und alle versuchen irgendwie da voranzukommen. Und jetzt plötzlich werden Technologien oder Methoden aus NLP im Computer Vision Research verwendet, dort neue Durchbrüche zu schaffen. Und so geht das Ganze so ein bisschen weiter. Cool, dankeDann noch mal hier für die Zusammenfassung. Das ist auf jeden Fall noch mal sehr klar gemacht, wie das zusammenhängt. Ja, es. Ist ein bisschen schwierig, wenn man das so beschreiben muss. Es gibt sehr viele gute Artikel und auch YouTube Videos mittlerweile, die man sich anschauen kann. Und das Beste ist immer, wenn man irgendwas vor sich hat, wie einen Text, wo man dann versteht, was auf einem einfachen Niveau passiert, mit das einfach man lernt oder das Modell lernt, dass ein Wort für einen anderen Kontext verschiedene Bedeutungen haben kann. Und das ist halt extrem wichtig für die ganzen Anwendungen am Ende. Früher hatte man halt wie gesagt das Wort Bank und das hat halt irgendwie gelernt, dass es entweder man darauf sitzen kann oder was zum Geld abgeben ist. Und da war es halt schwierig, das möglichst Ergebnis zu bekommen. Weil wir als Menschen wissen ja auch, dass der Kontext extrem wichtig ist, worüber man redet. Was ich mich so ein bisschen frag, so in der Zukunft, jetzt fängt es ja irgendwie an mit Open AI, ChatGPT, das jetzt irgendwie anfangen mit Plugins oder sowas zu integrieren, dass man jetzt sagt okay, jetzt kann ich irgendwie meine eigenen Knowledge Base irgendwie füttern in ChatGPT, dass das im Endeffekt auch da Daten rausholen kann. Ich frage mich so grundsätzlich, da gehen wir ein bisschen in die Glaskugel, aber wird es so sein, dass das eher Firmen, gut Privatpersonen vielleicht nicht, aber Firmen eigene Modelle spezifisch auf ihren Use Case trainieren? Oder wird es eher so sein, dass es generalistischere Modelle gibt, die irgendwie, denen ich einfach nur meine Informationen füttere? Ich trainiere, mir gehört gar kein eigenes, ich habe kein eigenes Modell trainiert, das irgendwas spezifisch für meinen Use Case macht, sondern eher, hier sind meine Daten so, du kannst alles eher generalistisch und ich muss es einfach nur so promoten, fragen, dass irgendwie die richtigen Informationen dann in dem Fall rauskommen. Hast du da, gibt es da einen? Hast du da eine Meinung zu? Gibt es da irgendwie? Ich glaube ganz klar beides. Also es wird Leute geben, die Open AI API nutzen und das ist auch wahrscheinlich die schnellste Möglichkeit, irgendwie Anwendungen zu bauen oder Proof of Concept. Es wird aber auch Unternehmen geben, die Domain spezifischere Modelle trainieren müssen. Ich glaube, das beste Beispiel ist gerade irgendwie Biologie, also Protein Modelle wird definitiv nicht mit dem generalisierten Modell funktionieren. Zum Beispiel Blumberg hat letzte Woche ihr eigenes Blumberg GDP vorgestellt, was ein 50 Milliarden Parameter Modell ist, bei dem wir sie unterstützt haben, welches auf finanziellen Daten trainiert wurden. Also es gibt ganz viele interne Blumberg Dokumente, besseres Finanzwissen zu haben und diebesten Beispiele, die man aktuell dort hat, ist im kleineren Bereich. Man hat BERT als generalisiertes Modell und wenn man BERT für Sentimental Analysis für Financial Texte nutzt, erreicht man oder Legal war das Beispiel, irgendwie 76 Genauigkeit. Und ein Research Institut hat ein BERT Modell Domain spezifisch weiter pre-traint und mehr Legal Texte reingebracht und dann dasselbe Datensatz fürs Trainieren benutzt und hat 80 Prozent erreicht. Das heißt, umso spezifischer mein Anwendungsbereich ist, umso mehr Sinn macht es. Und dasselbe gilt halt. Ich habe ein großes Modell, was sehr generalisiert ist. Möglicherweise kann ein kleineres Modell, was sehr spezialisiert ist, bessere Ergebnisse liefern, was dann für mich auch kostengünstiger ist. Und das ist, was wir vor allem bei bei Hackingphase 4 sehen, das Unternehmen haben mit GPS 3, GPS 3.5, Proof of Concept erstellt, angefangen zu testen, haben die Möglichkeiten und Erfolge gesehen, was aber dann relativ schnell zuteuer würde und gehen dann einen Schritt runter auf Open Source Modelle, welche aktuell kleiner sind, welches sie aber wirklich spezifisch mit ihren Daten trainieren können und dann genauso gut wie nicht bessere Ergebnisse erreichen. Das heißt, es wird immer eine Mischung zwischen beiden geben. Ich glaube auch gerade diese spezialisierten Modelle sind natürlich dann wichtig, wie du es gesagt hast, für bestimmte Anwendungsfälle. Oder auch wenn man sagen will, wie du es ja vorhin erklärt hast, eigentlich kann uns ja so ein großes Sprachmodell nur das wiedergeben, was immer mal reingesteckt wurde. Also kann eigentlich wenig Neues eigentlich erschaffen, sondern nur das irgendwie synthetisieren, was da irgendwie schon drin steckt. Und dass man mit spezielleren Modellen natürlich auch versuchen kann, da vielleicht auch neuere Ergebnisse zu bekommen in Bereichen. Ja, was ich persönlich super interessant finde, ich glaube das auch das was Fabi gesagt hat mit den Plugins. Jeder weiß von uns, dass GPT, ChatGPT nur einen gewissen Wissensstand hat und die Daten gehen bis 2021. Das heißt alles, was danach kommt, weiß es de facto einfach nicht und versucht irgendwas zu erzeugen. Und Generated Modelle erzeugen immer was und das ist das, was man unter Halluzinieren kennt, wo du de facto nicht weißt, ob es richtig ist oder nicht, weil es einfach versucht, möglichst sinnvolle Ausgabe zu generieren. Und was dann halt aktuell wirklich sehr interessant ist, ist, dass diese Modelle in der Lage sind, mehr oder weniger APIs, andere Tools aufzurufen, zu interagieren, wo ich dann plötzlich wirklich fragen kann, wer ist der Bundeskanzler und nicht mehr Angela Merkel bekomm, sondern Olaf Scholz, weil in der Zwischenzeit ein API Call passiert ist, nach Google Google irgendwie Olaf Scholz da gibt, ich den Text wieder zurückbring in mein mein Prompt, den ich reinschreibe und dann plötzlich das Modell verstehen kann. Okay, das ist das Q-C. Ich habe den Kontext, hier steht Olaf Scholz als Bundeskanzler, also kann ich antworten Olaf Scholz als Bundeskanzler. Und das ist, finde ich, für mich persönlich das größte Highlight, was man über die letzten Monate gesehen hat, dass Leute, sage ich mal, Library geschrieben haben, Composition Application, sag ich mal, zu bauen mit den LLMs. Also dass ich wirklich, okay, ich kann jetzt in der Google Suche interagieren, ich kann meine Wissensdatenbank integrieren und darüber ein möglichst freundlichen Output zu erzeugen. Und dafür brauche ich auch nicht unbedingt Modelle mit 100 Milliarden Parametern, sondern wenn ich die, sage ich mal, darauf spezialisiere, dass sie immer ein Wissen reinbekommen und dann einfach nur eine schöne Ausgabe generieren, reichen vielleicht auch 20 Milliarden Parameter. Und dann ist es natürlich wieder kosteneffizienter. Ich habe nicht das Problem, dass mein Wissen nicht da ist und ich kann es relativ gut spezialisieren, aber halt nicht über Trainingsdaten, sondern wenn ich mein Elastic Search zum Beispiel anbinde und dort drin meine ganzen Wiki-Daten habe und nicht, weil ich es jetzt auf meine Wiki-Daten trainieren. Also das. Ist auf jeden Fall etwas, was zum Zukunft zieht, dass es mehr so Integration oder solche Composible Lösungen gibt, die halt einfach versuchen, verschiedene Sprachmodelle dann irgendwie zu kombinieren und da einfach die besten Effekte dann rauszuziehen. Genau. Also Lank Chain ist so die bekannteste, sage ich mal, aktuelle Python Library, die es möglich gemacht hat am Anfang mit Open AI ganz simpel irgendwelche Promptemplates zu erstellen, also dass ich wie so gute Best Practice Templates habe und einfach nur mein zwei Variablen definieren muss und dann dorthin geschrieben wird. Mittlerweile supportet das über zehn verschiedene LLM APIs. Also ich kann ganz einfach zwischen OpenAI, KUHI und dann Tropic wechseln. Ich kann alle drei gleichzeitig benutzen und wie so ein Ensemble erstellen, dass ich einfach die gemeinsame Antwort nutze. Und man hat auch das Konzept von Chains. Also gerade das wir hatten, ich stelle irgendeine Anfrage, dann passiert irgendwas, basierend auf der Antwort passiert wieder irgendwas. Und so kann ich sehr, sage ich mal, gute Anwendungen schreiben, die möglichst auch speziell sind. Und gerade für mich finde dieses Retrieval oder halt diese Suche, die wir jetzt von BIM kennen, sehr interessant, dass ich, wenn ich irgendwie meine Query habe, wer ist Bundeskanzler, passiert als ersten Schritt, dass ich entweder eine Art Index Datenbank durchsuche oder ein API Call zu Google, zu BIM, zu DarkDockGo mache. Dieser API Call kommt natürlich in Textform zurück, welchen ich dann mit meiner Frage dem Modell zugebe. Und dann prädigt das Modell oder generiert das Modell die Antwort darauf. Und das funktioniert sehr gut, weil ich nicht eine Open Domain Frage habe, sondern mehr eine closed Domain Frage, weil ich ja den Kontext mitliefere und das Modell nicht haluzinieren muss, weil eigentlich alle Informationen bereitstehen. Und vielleicht ein bisschen so eine Metafrage, weil wir hatten jetzt ja gerade wo du meintest, wo kommen wir hin? Wird es generalistische AIs geben, die irgendwie über Plugins man nutzt? Wird man eigene Modelle trainieren? Und du hast ja gemeint, es wird beides sein. Und wir sind ja ein Podcast für Web und App Entwickler und irgendwie ist ja ein Feld, in dem wir uns irgendwie aufhalten. Und ich glaube, ich muss sagen, für den Gro von uns, selbst für uns ist das wahrscheinlich die Hürde, damit irgendwie anzufangen, sich gedanklich damit zu beschäftigen. Okay, macht es Sinn in meinem Use Case was zu trainieren, wenn es da diese gefühlt magische, magische APIs, die magischen Tools da draußen gibt? So, also ich frage mich, gibt es, würdest du sagen, es macht Sinn, sich damit als kompletter Novize zu beschäftigen und vielleicht auch, dass man irgendwie diesen Skill aufbaut, es in seinem Alltag vielleicht nutzen zu können? Und falls ja, was ist ein sinnvoller Weg, damit zu beginnen? Beides. Also definitiv. Und es ist gar nicht so schwierig, wie ihr denkt. Das ist wirklich das, wo wir bei Hacking Waste sehr daran arbeiten, dass wir es möglichst entwicklerfreundlich machen. Also du kannst ein Maschine Learning Modell mit einer Zeile Code mehr oder weniger laden und hast eine Text Klassifizierung Pipeline ohne irgendwas wissen zu müssen über BERT, über Preprocessing, Postprocessing. Das ist wirklich, ich mache wie als ob ich eine Methode von irgendeiner MongoDB Library nutze, kann ich Maschine Learning Modelle mittlerweile verwenden. Natürlich super einfach. Apis, keine Frage, für Proof of Concept und irgendwie meine Idee mal zu schauen, ob es technologisch funktioniert, ob es Sinn macht oder nicht. Aber im Normalfall, also die aktuellen APIs für LLM sind sehr, sehr teuer. Also wir sind bei 1000 Tokens für 0,06 €. Das heißt, wenn ich irgendwie ein bisschen rumspiele, dann bin ich gleich mal bei ein paar Euro und ein kleineres Modell kann ich halt für ein paar Euro im Monat hosten und kann so viel nutzen wie ich möchte. Deswegen denke ich beides und man kann sich definitiv, wenn man Interesse hat, also wir haben einen Kurs auf agiface. Co/cores. Das ist ein relativ einfach gehaltener Kurs, wo man lernt, wie ich ein Text Klassifizierung Modell erstelle, wie ich ein QM Modell trainiere ohne großes Vorwissen für Machine Learning. Ich muss auch nicht wissen, wie irgendwie die Transformations Architektur aussieht, funktioniert. Das braucht man heutzutage alles nicht mehr. Und wir sehen auch, dass die Machine Learning Entwickler oder Data Scientists ist nur eine ganz, ganz, ganz, ganz kleine Gruppe von Entwicklern. Und dass man möglicherweise oder man muss eigentlich Tools schaffen, die entwicklerfreundlich sind, die jeder bedienen kann, der irgendwie JavaScript schreiben kann. Und dafür braucht man halt einfache, abstraktive APIs. Und das ist halt auch gerade das, was Transformers so groß gemacht hat. Also es gab schon davor irgendwelche Research Institute, die die Libraries gemacht haben. Aber da musste ich halt für jede neue Architektur, für jedes neues Modell irgendwie eine neue Library mir anschauen und irgendwelchen GitHub Code durchschauen und mit Transformers haben wir die Baseline geschafft, wo man alles machen kann. Also ich kann mein Modell mit einem Austausch von einem String switchen und komplett neu trainieren und vielleicht bessere Ergebnisse haben. Wenn morgen Google ein neues Enkoder Modellveröffentlicht, kann ich das einfach austauschen und davon profitieren und muss nicht lernen, wie das funktioniert. Das ist der Gedanke dahinter. Deswegen denke ich, dass es so eine Mischung zwischen beidem sein wird. Okay, cool. Ja, dann ‘huggingface. Co/cores’ packen wir auf jeden Fall mal in die Show-Notes. Aber ich schaue so ein bisschen auf die Zeit und vielleicht, Jojo, hast du noch eine Frage, sonst würde ich eine abschließende Frage stellen? Nein, danke. Und zwar eigentlich so das Typische. Ist denn irgendwas aus deiner Sicht, weil meistens weißt du es, aber meistens vergessen die Gäste am besten irgendwas vergessen haben, irgendwas, was wir auf jeden Fall noch nennen sollen, das Thema abzurunden. Ich glaube, wir haben ganz viel vergessen, aber ich hoffe, wir haben irgendwie geschafft, einigermaßen Einblick zu geben. Man sollte definitiv nicht irgendwie beängstigend sein, dass man jetzt irgendwie seinen Job als Entwickler verliert oder irgendwie Angst haben vor AI, dass die morgen die Welt erobert oder so was. Also das definitiv gar nicht. Ich finde, man sollte es eher als Chance sehen, wie ich irgendwie meine Produktivität verbessern kann. Gerade irgendwie GitHub Co-Pilot zum Beispiel, bestes Beispiel, so viel verbessert im Sinne von wie man entwickelt, gerade wenn man nicht diese Boiler-Blade-Code-Schnipsel immer und immer wieder abtippen muss. Und ich sehe AI mehr als eine Chance als das ein Risiko für irgendjemand ist. Und gerade wenn man wirklich irgendwie Interesse daran hat und das interessant findet, was Chat-GPT kann oder GPT4 kann, kann man wirklich auch anfangen, als Entwickler ohne AI-Kenntnisse Anwendungen zu bauen, sei es mit APIs von LLMs, sei es mit Tools, die wir zur Verfügung stellen, sei es mit Tools, die die anderen Unternehmen zur Verfügung stellen. Der ganze AI-ML-Space wird immer mehr Entwickler fokussiert und man arbeitet wirklich daran, es möglichst freundlich zu gestalten, dass der Einstieg nicht komplex ist und ich wirklich innerhalb von einer halben Stunde eine Text Klassifizierung Anwendung bauen kann mit UI, welche auf Deutsch SMS detektiert, ob die Spam sind oder nicht. Ja, cool, dann vielen Dank. Dann würde ich sagen, kommen wir zu unserer ewigen und heiß geliebten Kategorie der Pick of. The. Days. Jojo, hast du was für uns dabei? Ja, ich wollte eine, ist eigentlich eine Website mit euch teilen, die nennt sich Let's Promiting. Ai und das ist irgendwie ganz hilfreich, weil ich glaube, das ist momentan das, woran es noch immer ein bisschen scheitert, dass man irgendwie nicht weiß, okay, man hat natürlich da draußen diese Tools, aber wie bediene ich denn die richtig? Und dass wir, glaube ich, alle gefühlt noch so Anfänger sind, wie man das richtig strukturiert und die Website einem sehr guten Zugang einfach bietet, das zu verstehen, wie halt Promps definiert werden, wie man vielleicht auch verschiedene Tools kombinieren kann, dass man sich zum Beispiel von Chat-GPT Promps für Mit-Journey generieren lassen kann, einfach bessere Ergebnisse zu bekommen und bietet einem sehr guten, einfachen Zugang, sich mit diesem Thema auseinanderzusetzen und ein bisschen zu lehren. Perfekt, vielen Dank. Philipp hast du was für uns dabei? Ja, ich mache ganz schamlos Eigenwährung. Sehr gut. Das wollen wir. Was vor allem, glaube ich, für den deutschsprachigen Bereich sehr interessant ist. Wir wissen alle, die JGPT funktioniert nicht wirklich gut mit Deutsch. Man schreibt eigentlich hauptsächlich Englisch mit ihm. Gpt4 funktioniert besser, aber so generell im Open Source Bereich oder wenn ich zu Hause was testen möchte, gibt es halt nichts. Und ich habe, sage ich mal, als Side-Projekt ein deutsches Modell trainiert, ein Generated Modell, welches Instruction Fintuning ist, welches man auch testen kann. Ich denke, wir können das in die Shownotes packen. Das nennt sich EGL. Ich fand den Namen ganz passend für Instruktion, Tun, German, Lerche Language Model. Und die Idee ist wirklich zu schauen, ob man der deutschen Community helfen kann oder auch dem deutschen Umfeld. Okay, wie können wir in Deutschland davon profitieren? Weil alle Forschungen, aller Research basiert auf Englisch in den USA und Deutschland bleibt so ein bisschen auf der Strecke, sage ich mal. Und es ist mir doch sehr wichtig, dass wir irgendwie schauen, wie können wir bei uns auch, sage ich mal, eine Art Community oder Modelle schaffen, die wir auch nutzen können und nicht vorher erst mal übersetzen müssen? Sehr cool. Packen wir auf jeden Fall in die Shownotes. Ich wollte mich nur korrigieren. Das heißt nicht Let's Promiting, sondern Learn Promiting. Org. Okay, dann LearnPromiting und den Ekel Playground packen wir in die Shownotes. Cool. Dann habe ich noch etwas, was nicht zum Thema passt, aber ich sehr inspirierend fand. Ich habe gerade ein Buch gelesen, das heißt von Terra West over heißt Befreit -Die Bildung mir die Welt erschloss. Das ist ein Buch über eine Frau, die ' 1986 in den USA geboren ist, in der Mammon-Familie aufgewachsen ist, eigentlich Homeschooling hatte und eigentlich abgeschieden von der Welt so ein bisschen gelebt hat und sich aber emanzipiert hat und angefangen hat, am Ende, sagen wir, wenn man mal vorspult, promoviert hatte in Cambridge, auf ein Habert war und so irgendwie dann ihr Leben reflektiert, so das mit Bildung erst glaube ich im Alter von 17 begann oder so und super super coole Biografie und irgendwie super super inspirierend merkt man mal, wie privilegiert man war, dass man das von jungen Jahren an bekommen hat. Aber krass, dass sie es dann noch geschafft hat. Also fand ich ein super cooles Buch. Kann ich nur allen empfehlen. Aber ich glaube, gerade weißt du natürlich so in diesem Wissensbereich und wird natürlich auch AI natürlich disruptiv sein. Also was für Möglichkeiten es natürlich gibt für Kinder, die vielleicht nicht diesen Zugang zu Bildung haben, einfach auch sich da das Wissen zu nehmen. Also ich habe ganz, ganz interessanterweise gehört, dass es in den Universitäten und vor allem in den USA sehr beliebt geworden ist, Essays oder irgendwelche Texte zu schreiben. Und man muss halt auch früher oder später irgendwie das Schulsystem dann denke ich mal überdenken. Muss ich noch irgendwas auswendig lernen, wenn ich bei einer Eingabe innerhalb von einer Sekunde die Antwort bekomme? Ist es dann wirklich noch etwas, was man prüfen muss, obwenn man jetzt irgendwelche Dinge weiß, nur durchs auswendig lernen? Oder ist es viel wichtiger, dieses Transferwissen und wie ich dann mit den Technologien umgehen kann? Ja, da bin ich auch gespannt. Vor allem weil Kids ja sehr schnell darin sind, so etwas zu adaptieren und wie schnell sich unser Bildungssystem darauf adaptiert. Ich glaube, da bin ich mal gespannt. Mein Sohn geht in drei Jahren in die Schule. Das wird eine spannende Phase. Ich werde es sehr, sehr eng mitbekommen. Homeschooling mit GPS4 dann einfach. Ja, genau. Da muss ich gar nichts mehr selbst machen. Roboter-schooling. Ja, cool. Philipp, vielen Dank für deine Zeit. Es war eine sehr coole Folge. Ich hoffe, du konntest mit uns Anfängern im Bereich von unseren Anfängerfragen gut leben. Wir sind auf jeden Fall, gehen ein wenig schlauer durch dich aus dieser Folge raus. Gerne. Und wenn irgendwelche Fragen kommen im Nachgang oder so, ich bin auf Twitter, ich bin auf LinkedIn, gerne irgendwie fragen. Egal. Also es gibt keine dummen Fragen und es ist ein sehr komplexer Bereich und jeders gehört auch ganz, sage ich mal, dazu. Deswegen, wenn du irgendwie Feedback oder Fragen hast, dann gerne teilen. Cool, packen wir auch und wenn die schauen, nutzt deine Kontaktdaten dazu. Jojo, dir auch vielen Dank. Euch vielen Dank fürs Zuhören und wie immer, gebt uns gerne Feedback über unsere Kontaktformular auf Programmier. Bar. Vielen Dank und euch eine schöne Zeit. Ciao. Tschüss.

Speaker Info

  • Philipp Schmid Profile

    Philipp Schmid

    Philipp Schmid ist Technical Lead und Machine Learning Engineer bei Hugging Face, einer Firma, die gutes Machine Learning durch Open Source und Open Science demokratisieren möchte. Der junge Nürnberger und AWS Machine Learning Hero hat sozusagen die deutsche Variante von ChatGPT entwickelt und darüber auf seinem Blog geschrieben. Checkt sie im Playground aus!

    Mehr Infos

Verwandte Podcasts

  • 169 Ig Fb Weihnachten

    Rückblick auf 2024

  • Lotum News Asset 46

    News 46/24: Oasis // Arc 2.0 // M4 MacBook Pro // DORA Report

  • News Asset 42

    News 42/24: Browser Security // WordPress // void(0)

  • News Asset 40

    News 40/24: OpenAI Dev Day und mehr // Wordpress und Open Source // Meta Connect 2024 // Deno 2.0

  • AI News 2023 24 (2)

    News AI #30: Aleph Alpha Strategiewechsel // Virtual Try On // Claude for Enterprise

  • Lotum News Asset 34

    News 34/24: Google Pixel AI // Crowdstrike Nachlese // Alternative App Stores

  • AI News 2023 24 (3)

    News AI #26: Kyutai Moshi // Aleph Alpha Series B Fake // OpenAI Security Whoopsie

  • Ai News 2023 24 (2)

    News AI #23: OpenAI-Drama // Google AI Overview // Golden Gate Claude // Perplexity Pages // Hugging Face FineWeb

  • News Asset 20

    News 20/24: GPT-4o // iOS 17.5 // Neue iPads // Bun 1.1.8 // Node.js 22

  • 18 Ai News

    News AI #18: Apple MM1 // Mistral // Grok // Inflection & Microsoft // Open Interpreter

Feedback