Democratizing Language and Vision Technology

A Retrieval-based Approach for Open Vocabulary Image Classification

12:4010/11/2023

The advancement in language and vision models (LLM) has seen remarkable progress in recent years. However, the training of these large-scale models poses challenges in terms of time and computational resources, particularly with regards to deep learning models that require powerful GPUs. This has created a significant gap between Big Tech companies, who possess substantial resources to train LLM models, and academia, which often lacks the necessary means to contribute significantly in this field.

To address this issue, we propose an innovative open vocabulary framework called CaSED (Category Search from External Databases). Unlike traditional LLM models, CaSED does not rely on extensive training. Instead, it leverages retrieval techniques from an image-text knowledge base to classify or tag images automatically. By utilizing existing knowledge bases rather than requiring extensive training, CaSED eliminates the need for large computational resources.

In this talk, we will show the potential of low-budget approaches in the context of Language and Vision.

Video

Presentations

Download slides (pdf)

Speaker

Paolo Rota
University of Trento

Our Supporters

Our Partners

Un'esperienza su misura

Questo sito utilizza cookie tecnici e, previa acquisizione del consenso, cookie analitici e di profilazione, di prima e di terza parte. La chiusura del banner comporta il permanere delle impostazioni e la continuazione della navigazione in assenza di cookie diversi da quelli tecnici. Il tuo consenso all’uso dei cookie diversi da quelli tecnici è opzionale e revocabile in ogni momento tramite la . Per avere più informazioni su ciascun tipo di cookie che usiamo, puoi leggere la nostra Cookie Policy.

Cookie utilizzati

Segue l’elenco dei cookie utilizzati dal nostro sito web.

Cookie tecnici necessari

I cookie tecnici necessari non possono essere disattivati in quanto senza questi il sito web non sarebbe in grado di funzionare correttamente. Li usiamo per fornirti i nostri servizi e contribuiscono ad abilitare funzionalità di base quali, ad esempio, la navigazione sulle pagine, la lingua preferita o l’accesso alle aree protette del sito.

Democratizing Language and Vision Technology

A Retrieval-based Approach for Open Vocabulary Image Classification

Video

Presentations

Speaker

Paolo Rota

Our Supporters

Our Partners

Un'esperienza su misura

Cookie utilizzati

Cookie tecnici necessari

Prima parte3

cm_cookie_sfscon

w3tc_logged_out

__cf_bm