I SERVIZI DI GENERATIVE AI

Il nostro slogan è “I migliori motori di GenAI in un unico Tool”… ma quali sono i modelli integrati in AIDeskPro? Che differenze ci sono tra uno e l’altro? Vi forniamo qualche utile strumento, per decidere quale motore utilizzare e quando.

Premettiamo subito che dire quale sia il migliore motore presente in AIDeskPro è impossibile. Noi li abbiamo testati tutti, ovviamente, e possiamo dirvi come hanno reagito in determinate circostanze e darvi i link alla documentazione di chi li ha realizzati.  Inoltre, abbiamo già fatto una nostra personale scelta, mettendo i Primi della Classe in una short list privilegiata e separata, che si trova in cima all’elenco di selezione del motore.

Aggiungeremo, molto spesso, nuovi motori, perché testiamo costantemente ciò che il mercato propone e portiamo a bordo tutte le migliori novità: man mano testeremo anche loro.

In questa pagina vi forniremo qualche utile informazione sui motori selezionabili all’interno di AIDeskPro, una serie di comparazioni di performance, per aiutarvi a scegliere il modello più adatto alle vostre esigenze ed anche una comparazione tra i loro costi (utile per gli utenti della licenza API, che comporta un pagamento dei consumi dei motori di generative AI).

I motori disponibili oggi in AIDeskPro

I primi della classe

  • GoogleAI – Gemini 1.5 Pro

  • OpenAI – Chat GPT 4 Turbo 128k

  • Anthropic’s Claude – Sonnet

Coming Soon: Gemini 1.5 Flash e GPT4o (Omni)

Gli altri motori disponibili

  • GoogleAI – Gemini 1.0 Pro

  • OpenAI – Chat GPT 3.5 Turbo 16k e GPT 4

  • GoogleAI – Chat Bison 32k @002, @001 e @002

  • GoogleAI – Code Chat Bison 32k @002 e @002

  • Anthropic Claude – Haiku

OpenAI – Chat GPT 4 Turbo 128k

Chat GPT è in assoluto il più famoso strumento di generative AI ed il più utilizzato in versione consumer. La versione che proponiamo come Primo della Classe è l’ultima e più performante, con un contesto di ben 128k Token (più è ampio il contesto, più testo viene passato al modello, per generare la risposta). Risponde molto bene, presenta poche allucinazioni e organizza molto bene la risposta anche dal punto di vista della forma oltre che del contenuto.

  • Nozioni: fino a dicembre 2023
  • Permanenza del dato in UE: non garantita
  • Costo API: €€€
  • Utilizzo delle tue chat/documenti per trainare il modello: no, in virtù di accordi specifici

Ulteriori informazioni: Sito OpenAI

Google Vertex AI – Gemini 1.5 Pro

L’abbiamo testato su AI Studio e, non appena reso disponibile da Google il 9 Aprile, l’abbiamo integrato, ottenendo ottimi risultati. Rispetto al predecessore Gemini 1.0 Pro… non c’è paragone! Fornisce risposte corpose, ben strutturate, sia nel contenuto che nella forma e le allucinazioni sono molto limitate. Qualitativamente nulla da invidiare a ChatGPT 4 Turbo. Anche per lui la finestra di contesto standard è da 128k token ed è in test la versione da 1MLN token!

  • Nozioni: fino a Novembre 2023
  • Permanenza del dato in UE: garantita
  • Costo API: €€€
  • Utilizzo delle tue chat/documenti per trainare il modello: no

Ulteriori informazioni: Blog di Google

Anthropic Claude – Sonnet

L’abbiamo testato ed integrato in AIDeskPro tramite Vertex Model Garden, in virtù di un accordo tra Anthropic e Google. Tutte le classifiche pongono Sonnet circa allo stesso livello degli altri due motori qui presentati. La finestra di contesto standard è da ben 200k Token. Sicuramente fornisce risposte più sintetiche degli altri due e l’organizzazione del testo è meno accurata. Suo fratello maggiore Opus è descritto come eccezionale, a breve lo integreremo, quindi vi sapremo dire.

  • Nozioni: fino ad Agosto 2023
  • Permanenza del dato in UE: non garantita
  • Costo API: €€
  • Utilizzo delle tue chat/documenti per trainare il modello: no

Ulteriori informazioni: Sito di Anthropic

Gli altri modelli di OpenAI

GPT4 Turbo attualmente Primo della Classe è recentissimo: disponibile dal 9 Aprile! Prima di questa versione, sono stati prodotti diversi modelli che abbiamo integrato e che abbiamo mantenuto per diverse ragioni.

Chat GPT 3.5 Turbo 16k: ha una conoscenza di base aggiornata a settembre 2021 e una finestra di contesto da 16k Token (molto più piccola degli ultimi arrivati!), ma fornisce risposte molto accurate. Del tutto paragonabile come qualità a GPT 4 Turbo. Al contrario dei suoi parenti evoluti, che sono tutti multimodali, lui è specializzato nella chat. Rispetto a GPT4 Turbo è straordinariamente più economico (20 volte!) quindi se state valutando di usare la nostra versione API con componente a consumo… tenetelo in considerazione!

Gli altri modelli di Google Vertex AI

Partiamo da Gemini 1.0 Pro, predecessore dell’1.5. Tra i due c’è una considerevole differenza di performance nella risposta. La versione 1.0 fornisce risposte decisamente più sintetiche e stilisticamente più elementari, però fa quasi sempre il suo dovere e costa circa 20 volte meno! Come già detto per il 3.5 di Chat GPT, se state valutando di usare la nostra versione API con componente a consumo… tenetelo in considerazione!

Chat Bison (ovvero PaLM 2 for Chat) è il modello di chat, non multimodale, sviluppato da Google e precedente a Gemini. Anche lui economico (un po’ più costoso di Gemini 1, ma pur sempre 10 volte meno costoso di Gemini 1.5) sembra presentare meno allucinazioni di Gemini: se cercate una soluzione economica, testatelo contro Gemini 1 (e Haiku, di cui parliamo in ambito Anthropic) e scegliete chi performa meglio per le vostre esigenze.

I motori che riportano la dicitura Code, sono ovviamente preferibili se volete generare o interrogare codice.

Gli altri modelli di Anthropic Claude

Haiku è il modello più economico reso disponibile in AIDeskPro: circa 1,7 volte più economico in Input e leggermente più economico in Output di Gemini 1.0, che è il secondo in classifica per costo. Piuttosto sintetico nelle sue risposte e presenta qualche allucinazione. Rispetto agli altri economici del gruppo, presenta il grande vantaggio di una finestra di contesto decisamente ampia: 200kToken (ricordiamo che finestra ampia, significa poter passare moltissimo testo da processare).

Opus è il fratello saggio e costoso di Haiku: anche lui 200k Token di finestra di contesto e, stando alle recensioni, un’impressionante capacità in risposta. Lo stiamo per testare… quindi aggiorneremo la nostra recensione a breve. La vera nota negativa è il costo. Opus è il motore più caro in assoluto: 1.5 volte più costoso in Input e 2,5 volte più costoso in Output di Chat GPT 4 Turbo, secondo in elenco tra i più costosi. Attendiamo di scoprire se, come tutti dicono, ne valga la pena!

Riepilogo costo modelli GenAI

Ve li presentiamo dal più caro al meno caro (aggiornati al 17 Maggio 2024):

  • Anthropic – Opus: €€€€
  • OpenAI – GPT4 Turbo: €€€
  • Google – Gemini 1.5 Pro >128k: €€€
  • OpenAI – GPT -4o (Omni) €€
  • Gemini 1.5 Pro <=128k €€ (dal 14 giugno)
  • Anthropic – Sonnet: €€
  • Gemini 1.5 Flash >128k €
  • Google – Palm2 – Chat Bison 32k: €
  • OpenAI – GPT3.5 Turbo 16k: €
  • Google – Gemini 1.0 Pro: €
  • Gemini 1.5 Flash <=128k € (dal 14 giugno)
  • Anthropic – Haiku: €

Un po’ di glossario per capire meglio!

Token: in estrema sintesi 1 token è circa pari a 3.5 caratteri. Quindi una parola media costituita da 7 caratteri, corrisponderà a circa 2 token. Quindi quando leggerete “128k” nel nome di un modello di generative AI, significa che quel modello ha una finestra di contesto pari a 128.000 token ovvero circa 64.000 parole o 448.000 caratteri!

Finestra di contesto: più è ampia la finestra, più numeroso sarà il numero di caratteri che potremo passare al motore di gen AI per elaborare la sua risposta. I modelli sono ormai dotati di contesti molto grandi… 128k, 200k (gli Anthropic) e ora addirittura 1 Milione (Gemini 1.5 Pro e 1.5 Flash). Google ha scelto di proporre, a partire dal 14 giugno, 2 diversi flavour di Pro e Flash: >128k oppure <= 128k. Chi utilizzerà contesti inferiori o uguali a 128k pagherà le API significativamente di meno!

Modelli di Embedding: AIDeskPro consente, in fase di creazione di un indice, di selezionare il modello di embedding. Questo servizio è diverso da quelli di generative AI presentati fino ad ora. Questo modello si occupa di convertire il testo di un indice o di una domanda utente in vettori.
Le domanda dell’utente è tradotta in vettori ed AIDeskPro, grazie al concetto di “vicinanza” tra i vettori domanda e testo indice, passa ai motori di generative AI la domanda e solo le porzioni di testo pertinenti. Questa operazione di scelta della porzione di testo da passare è importantissima e necessaria, perché la finestra di contesto limitata non consente di passare tutto il documento o n documenti per ottenere la risposta.

Mettiamo i motori Primi della Classe a confronto!

Per darvi qualche elemento di confronto, abbiamo testato gli attuali Primi della Classe di AIDeskPro, ponendo a tutti le stesse domande/richieste:

  1. Abbiamo testato la Chat Semplice, non riferita a particolari documenti, per valutare la qualità della scrittura
  2. Abbiamo interrogato lo stesso documento ovvero il manuale di AIDeskPro, per valutare la comprensione del testo
  3. Abbiamo chiesto di risolvere una serie numerica, per valutare la loro conoscenza della matematica
  4. Abbiamo chiesto di scrivere una mail in inglese, per valutare la loro competenza linguistica

Ecco come si sono comportati…

Chat Semplice: una domanda non riferita ad un documento (Indice)
Comparazione tra Chat GPT4 Turbo, Gemini 1.5 Pro e Claude Sonnet

Considerazioni: Gemini 1.5 e GPT 4 Turbo li collochiamo circa allo stesso livello… forse mezzo punto in più a Gemini 1.5 per la forma. Entrambi hanno prodotto un buon quantitativo di testo, hanno mostrato una buona proprietà di linguaggio e nessuna allucinazione. Anche Sonnet è andato bene, ma è sicuramente più sintetico e leggermente meno accurato nel linguaggio; anche per lui, nessuna allucinazione.

Chat associata ad un Indice: una domanda riferita ad un documento (Manuale AIDeskPro)
Comparazione tra Chat GPT4 Turbo, Gemini 1.5 Pro e Claude Sonnet

Considerazioni: GPT 4 Turbo ha risposto in maniera più discorsiva/descrittiva, mentre Gemini 1.5 ha scelto uno stile più schematico. Entrambi hanno detto tutto ciò che dovevano dire, la scelta tra uno o l’atro dipende dall’utilizzo che se ne deve fare: supporto a dipendenti interni, meglio lo schematico; contenuto per un utente esterno, meglio il discorsivo. Anche Sonnet è andato bene e ha detto tutto ciò che doveva dire, ma, come già visto in altri casi, è sicuramente più sintetico.

Test di matematica: una domanda riferita ad un problema matematico.
Comparazione tra Chat GPT4 Turbo, Gemini 1.5 Pro e Claude Sonnet

Considerazioni: Abbiamo fornito una serie numerica, chiedendo di individuare il numero successivo. Tutti hanno superato il test. Chat GPT 4 Turbo e Gemini 1.5 Pro hanno risposto praticamente in modo identico. In maniera schematica, ma chiara. Sonnet merita un mezzo punto in più degli altri, perché ha spiegato la logica della serie in maniere più dettagliata e fornito anche i numeri successivi.

Test di Inglese: mail in inglese, non riferita ad un Indice.
Comparazione tra Chat GPT4 Turbo, Gemini 1.5 Pro e Claude Sonnet

Considerazioni: Chat GPT4 Turbo vince questo round! La mail è corposa, ben strutturata e richiede di inserire dati supplementari prima dell’invio. Se vogliamo trovare un difetto: tanto (forse troppo) entusiasmo ed enfasi… ma basta chiedergli di riscriverla con meno entusiasmo e lui lo farà. Gemini 1.5 e Sonnet sono abbastanza equiparabili, ma Sonnet si prende mezzo punto in più perché invita a completare la data di iscrizione, mentre Gemini la azzarda di sua iniziativa (dicendo “oggi”).

Qualche test sugli altri motori!

Mettiamo alla prova anche gli altri motori:

  1. Abbiamo interrogato lo stesso documento ovvero il manuale di AIDeskPro, per valutare la comprensione del testo
  2. Abbiamo chiesto di risolvere due problemi matematici, per valutare la loro conoscenza della matematica

Ecco come si sono comportati…

Chat associata ad un Indice: una domanda riferita ad un documento (Manuale AIDeskPro)
Comparazione tra Chat GPT 3.5 Turbo 16k, Gemini 1.0 Pro, Haiku e Chat Bison 32k

Considerazioni: si sono comportati tutti più o meno allo stesso modo, hanno dato soddisfacenti risposte (un po’ meno convincenti dei Primi della Classe). Diamo un mezzo punto in più ad Haiku, che organizza un po’ meglio la risposta. Diamo un mezzo punto in meno a Bison, che si limita a due elenchi scarni. Gemini 1 e GPT 3.5  li mettiamo a pari merito, a metà classifica.  In questo test nessuno ha spiccato e nessuno ha fatto davvero male… abbastanza bravi tutti!

Test di matematica: una domanda riferita a 2 problemi matematici.
Comparazione tra Chat GPT 3.5 Turbo 16k, Gemini 1.0 Pro, Haiku e Chat Bison 32k

Considerazioni: in sintesi, per noi la classifica è (partendo dal migliore) Haiku, Gemini 1, GPT 3.5 e decisamente ultimo Chat Bison. Sia Haiku che Gemini 1 spiegano molto bene la logica che li ha portati al risultato, Haiku lo fa un po’ meglio. GPT 3.5 organizza un po’ meno bene la risposta, mentre Chat Bison risponde correttamente, senza fornire spiegazioni e fornendo anche qualche parola a caso.

Testiamoli tutti sullo stesso indice

Mettiamoli alla prova tutti su un Indice un pochino più corposo ovvero su tutti i documenti pubblici del comune di Milano, reperiti dal sito.
Abbiamo posto le stesse domande, allo stesso indice, variando solo il motore di generative AI. Il motore di embedding è quello di default per tutti.

Ecco come si sono comportati…

Chat associata ad un Indice: due domande riferite ad un insieme di documenti (Comune di Milano)
Comparazione tra tutti i motori.

Considerazioni: tutti hanno dato soddisfacenti risposte, ma dobbiamo segnalare delle allucinazioni e libere interpretazioni,  che hanno portato all’ottenimento di informazioni errate o non incluse nei documenti forniti e a link a siti inesistenti. Gemini 1.0 Pro, fornisce una serie di link a pagine inesistenti e fornisce l’indicazione di 45gg per la visita del controllo residenza (anche Chat Bison cita i 45gg e Sonnet dichiara “entro 1 o 2 mesi”). Questa informazione è tratta da fonti terze, non dai documenti dell’indice. Tutti gli altri invece hanno dato informazioni corrette. Un plauso a Gemini 1.5 che ha articolato molto bene le informazioni e ad Haiku, che nonostante la sua economicità tiene testa ai più blasonati e costosi.