L’avvento dell’AI generativa, con sistemi come dall-e 2 e Midjourney, che creano immagini professionali da una descrizione testuale, sembrava poter segnare la fine di una azienda come Adobe che con il suo Photoshop ha rivoluzionato il mondo della grafica digitale. Invece, con una propria AI, Firefly, Adobe ha parato il colpo. Il segreto? Il suo database di centinaia di milioni di foto d’archivio. Firefly è stato utilizzato per creare già oltre 1 miliardo di immagini. Non dovendo prendere le immagini da internet, come hanno fatto i rivali, Adobe ha aggirato il problema sul diritto d’autore che ora perseguita l’industria. Il prezzo delle azioni dell’azienda è aumentato del 36% dal lancio di Firefly.
Questo è solo l’ultimo episodio della guerra dei dati a cui stiamo assistendo e assisteremo sempre più spesso. Con anticipo, Microsoft ha acquistato GitHub, un repository di codice software, per 7,5 miliardi di dollari nel 2018 per sviluppare uno strumento di intelligenza artificiale per supportare la scrittura di codice.
L’intelligenza artificiale “generativa” si basa su enormi quantità di dati. Dopo essersi già serviti di gran parte di Internet, spesso senza permesso, i costruttori di modelli stanno ora cercando nuove fonti di dati per sostenere la frenesia alimentare. È in corso un data land grab dice l’Economist.
Aumente lla domanda di dati e quindi, accedervi sta diventando più complicato. Della guerra si sono accorti anche i creatori di contenuti che ora chiedono un compenso per il materiale che è stato usato nei modelli di intelligenza artificiale intentando cause per la violazione del copyright.
Sarah Silverman con altri autori ha citato in giudizio OpenAI e Meta. Le corporation di Silicon Valley replicano stringendo accordi con i grandi produttori di dati: Openai ha firmato un accordo con l’Associated Press, un’agenzia di stampa, e ampliato un accordo con Shutterstock, un fornitore di fotografia stock, con cui anche Meta ha un accordo. Google sta discutendo con Universal Music, un’etichetta discografica. Fidelity, un asset manager, è stato contattato da aziende tecnologiche che chiedevano l’accesso ai suoi dati finanziari. Stessa cosa per BBC e l’archivio di articoli JStore.
Visto l’incremento di potere contrattuale, Reddit, un forum di discussione, e Stack Overflow, piattaforma che di auto-supporto per i programmatori, hanno aumentato il costo di accesso ai propri dati. Twitter/X ha diminuito la possibilità di accedere ai post.
Esiste, una fonte di dati che rimane in gran parte non sfruttata: le informazioni nei sistemi informativi che le aziende quasi inconsapevolmente hanno: dalle trascrizioni dei call center ai registri dei clienti, agli ordinativi. Tali informazioni sono utili per focalizzare i LLM per scopi specifici, come rispondere alle domande dei clienti. Ma la maggior parte delle aziende ha sottovalutato l’importanza di gestire ordinatamente questi spesso non strutturati e distribuiti su più sistemi.
Grandi corporation IT come Amazon e Microsoft ma anche startup stanno investendo sull’offerta di database per gestire in maniera unitaria i dati aziendali. Ad aprile Weaviate, un’azienda di database incentrata sull’intelligenza artificiale, ha raccolto 50 milioni di dollari, PineCone 100 milioni, Neon 46 milioni di finanziamenti.
L’articolo completo dell’Economist lo trovate qui: AI is setting off a great scramble for data
Feeding ever-larger models is requiring makers to get creative