Categories
NVIDIA Novice

Enostaven uvod v multimodalno generacijo obogateno s poizvedovanjem (RAG) za video in avdio

Vir: An Easy Introduction to Multimodal Retrieval-Augmented Generation | NVIDIA Technical Blog

Gradnja multimodalnega sistema z uporabo arhitekture RAG predstavlja velik izziv. Težave izhajajo iz zajemanja in indeksiranja informacij iz različnih modalitet, vključno z besedilom, slikami, tabelami, avdio in video ter drugimi. Avtorji so v prejšnji objavi, “Enostaven uvod v multimodalni Retrieval-Augmented Generation“, razpravljali o tem, kako se spopasti z besedilom in slikami. Ta objava razširja razpravo na avdio in video. Posebej raziskujejo, kako zgraditi multimodalni RAG sistem za iskanje informacij v videoposnetkih.

Več o tem si preberite na An Easy Introduction to Multimodal Retrieval-Augmented Generation for Video and Audio | NVIDIA Technical Blog

css.php