Gedankenkette: OpenAI o1 setzt auf Verstärkungslernen
OpenAI hat kürzlich das neue Sprachmodell o1 vorgestellt, das komplexe Denkaufgaben deutlich besser lösen soll. Das Modell wurde mit Hilfe von Verstärkungslernen entwickelt, einer Trainingsmethode, die es o1 ermöglicht, durch eine "Gedankenkette" Probleme in mehreren Schritten anzugehen.