Entrare nella scatola nera dei social media. Il web-scraping e la ricerca sociale
Comunicare, esprimere opinioni, condividerle coi nostri amici, sono solo alcune delle tante interazioni sociali che svolgiamo sempre più spesso online, principalmente sui social media. Un social network funziona attraverso algoritmi e strutture computazionali che spesso non conosciamo, o almeno non completamente. Comunicare con un social network non è mai un processo diretto, ed è sempre necessario un “intermediario”: questo intermediario è l’ application programming interface (API), che raccoglie la domanda e gestisce l’offerta di dati, tra i server del social network ed alcuni utenti autorizzati.
Il rapporto intermediato tra social network ed utenti, e la mancata totale trasparenza di questi siti inducono molti addetti ai lavori a pensare i social media come delle scatole nere. Black box. Dal punto di vista dei ricercatori sociali (statistici, sociologi, economisti e appartenenti a molte altre branche delle scienze), nella black box c’è un’enorme quantità di contenuti testuali e visivi generati dagli utenti, che possono offrire spunti molto interessanti. Ma per lavorare con insiemi di dati così grandi, e per organizzarli in una forma utilizzabile, diventano necessari software ad hoc. Questi programmi vengono comunemente chiamati software di web-scraping, e consentono di acquisire informazioni archiviate su un sito Web ed in casi più specifici sui social media.
Il web-scraping è infatti definibile come un insieme di tecniche informatiche digitali il cui scopo è estrapolare informazioni memorizzate, e solitamente disponibili pubblicamente, su una pagina web. Queste informazioni possono assumere svariate forme (file, testi, immagini, video, audio, ecc.) quindi, una volta raccolti, i dati devono essere organizzati in un formato utilizzabile, solitamente una tabella, pratica da analizzare e gestire. Il web-scraping viene generalmente implementato tramite uno script, solitamente scritto in un linguaggio di programmazione open-source (come R o Python), ma per l’uso più elementare possono essere impiegate anche applicazioni preconfezionate come Import.io, Octoparse, Google Spreadsheets, ScraperApi, o specificatamente per i social media TagSleuth.
Utilizzare il web scraping per fare ricerca sociale comporta riflessioni sia da un punto di vista metodologico, che da un punto di vista “etico”. Il suo utilizzo infatti cammina sul taglienti fili del rasoio, sia quello della privacy, sia quello della cyber-security.
Basare quindi la ricerca sociale sul web-scraping potrebbe essere rischioso e controproducente: le pagine web vengono infatti aggiornate frequentemente, e modifiche alla loro struttura possono, ad esempio, inabilitare uno script di web-scraping; inoltre, alcuni siti web, soprattutto i social media, iniziano a bloccare lo scraping dei loro contenuti, seppur pubblici, di cui tengono a rimanere gli unici detentori.
Oltre ai problemi computazionali, come detto, il web-scraping implica delle implicazioni etiche. Infatti, far girare iterativamente script di scraping può sovraccaricare un server causando, nel peggiore dei casi, il crash del sito web; come se, anziché per scopi di ricerca, si sia proceduto ad un cyber-attack. In altre parole, il web-scraping potrebbe essere considerato da alcuni siti web come un potenziale attacco informatico, chiamato Denial Of Service (DOS).
Entrare nella scatola nera di un social media per fare ricerca sociale, comporta dunque molti vantaggi legati alla quantità di dati disponibili gratuitamente ed in tempo reale. Tuttavia gli svantaggi dell’utilizzo delle tecniche computazionali di web-scraping non vanno trascurate: in primis, si deve affidare una parte importante della nostra ricerca ad uno script, che dialoga con il sito tramite un’interfaccia, in modo spesso molto sibillino. Inoltre, se la struttura del sito web cambiasse, verosimilmente il programma con cui stiamo facendo raccolta dei dati non funzionerebbe più.
Vantaggi e svantaggi del web-scraping fanno così riflettere su un fattore che spesso si tende a trascurare quando si lavora con i big data: l’indissolubile dipendenza della ricerca sociale dallo strumento utilizzato per condurla.