Il web scraping è l'atto di estrarre dati, informazioni o immagini da un sito Web utilizzando un metodo automatizzato. Pensalo come copia e incolla in automatico.
Scriviamo o utilizziamo un'app per accedere ai siti Web desiderati e creare una copia delle cose specifiche che desideriamo da tali siti Web. È molto più preciso di scaricando un intero sito Web.
Come qualsiasi strumento, il web scraping può essere usato nel bene o nel male. Alcuni dei migliori motivi per raschiare i siti web lo classificherebbero come motore di ricerca in base al contenuto, allo shopping comparativo dei prezzi o alle informazioni sul mercato di monitoringstock. Potresti anche usarlo come uno strumento di ricerca di sorta.
Come posso raschiare siti Web con Excel?
Che ci crediate o no, Excel ha avuto la possibilità di estrarre dati da siti Web per molto tempo, almeno da Excel 2003. È solo che il webscraping è qualcosa a cui la maggior parte delle persone non pensa, figuriamoci a pensare di usare il programma aspreadsheet per fare il lavoro. Ma è sorprendentemente facile e potente. Impariamo come è fatto creando una raccolta di scorciatoie da tastiera di Microsoft Office.
Trova i siti che vuoi raschiare
La prima cosa che stiamo andando fare è trovare le pagine Web specifiche da cui desideriamo ottenere informazioni. Andiamo alla fonte e cerchiamo in https://support.office.com/. Utilizzeremo il termine di ricerca "scorciatoie utilizzate frequentemente". Possiamo renderlo più specifico utilizzando il nome dell'app specifica, come Outlook, Excel, Word e così via. Potrebbe essere una buona idea aggiungere la pagina dei risultati ai segnalibri in modo da poterci tornare facilmente.
Fai clic sul risultato della ricerca, "Scorciatoie da tastiera in Excel per Windows". Una volta su quella pagina, trova l'elenco delle versioni di Excel e fai clic su Versioni più recenti. Ora stiamo lavorando con le ultime novità.
Potremmo tornare alla nostra pagina dei risultati di ricerca e aprire i risultati per tutte le altre app di Office nelle loro schede e aggiungerle ai segnalibri. È una buona idea, anche per questo esercizio. Qui è dove la maggior parte delle persone smetterebbe di incollare le scorciatoie di Office, ma non noi. Li inseriremo in Excel, quindi possiamo fare quello che vogliamo con loro, ogni volta che vogliamo.
Apri Excel e raschia
Apri Excel e avvia una nuova cartella di lavoro. Salva la cartella di lavoro come Scorciatoie di Office. Se hai OneDrive, salvalo lì in modo che la funzione Salvataggio automaticofunzionerà.
Una volta salvata la cartella di lavoro, fai clic sulla scheda Dati.
Nella barra multifunzione della scheda Dati, fai clic su Dal Web.
Si aprirà la finestra della procedura guidata Dal Web. Qui è dove inseriamo l'indirizzo web o l'URL del sito Web da cui vogliamo raccogliere i dati. Passa al tuo browser web e copial'URL.
Incolla l'URL nel Campo URLdella procedura guidata Dal Web. Potremmo scegliere di usarlo in modalità Baseo Avanzata. La modalità avanzata ci offre molte più opzioni su come accedere ai dati dal sito Web. Per questo esercizio, abbiamo solo bisogno di Basicmode. Fai clic su OK.
Excel tenterà ora di connettersi al sito Web. Ciò potrebbe richiedere alcuni secondi. Vedremo una finestra di progresso, se lo fa.
Si aprirà la finestra Navigatoree vedremo un elenco di tabelle dal sito Web a sinistra. Quando ne selezioneremo uno, vedremo un'anteprima della tabella nella giusto. Seleziona la tabella Collegamenti utilizzati di frequente.
Possiamo fare clic sulla scheda WebViewper vedere il sito Web effettivo, se dobbiamo cercare il tavolo che desideriamo. Quando lo troviamo, possiamo fare clic su di esso e verrà selezionato per l'importazione.
Ora, facciamo clic sul pulsante Caricanella parte inferiore di questa finestra. Ci sono altre opzioni che potremmo scegliere, che sono più complesse e vanno oltre lo scopo di fare la nostra prima raschiatura. Solo beaware che sono lì. Le funzionalità di Web scraping di Excel sono molto potenti.
La tabella web verrà caricata in Excel dopo alcuni secondi. Vedremo i dati a sinistra, dove il numero 1è nell'immagine qui sotto. Il numero 2evidenzia la Queryutilizzata per ottenere i dati dal sito Web. Quando abbiamo più query in una cartella di lavoro, è qui che selezioniamo quella che dobbiamo usare.
Nota che i dati arrivano nel foglio di calcolo come Exceltable. È già impostato per consentirci di filtrare o ordinare i dati.
Possiamo ripetere questo processo per tutte le altre pagine Web che hanno le scorciatoie di Office che vogliamo per Outlook, Word, Access, PowerPoint, e qualsiasi altra app di Office.
Mantenere aggiornati i dati di Scraped in Excel
Come bonus per te, impareremo come mantenere aggiornati i nostri dati di Scrap in Excel. Questo è un ottimo modo per illustrare quanto sia potente Excel per lo scraping dei dati. Anche con questo, stiamo solo facendo lo scraping più basilare che Excel può fare.
Per questo esempio, usiamo una pagina web di informazioni di borsa come https://www.cnbc.com/stocks/.
Passa attraverso quello che abbiamo fatto prima e copia e incolla il nuovo URL dalla barra degli indirizzi.
Passerai alla finestra di Navigator e vedrai le tabelle disponibili. Selezioniamo i principali indici azionari statunitensi.
Una volta che i dati sono stati cancellati vedremo il seguente foglio di copertura.
Sulla destra, vediamo la query per i principali indici azionari statunitensi. Seleziona questa opzione in modo che sia evidenziata. Assicurati di trovarci nella scheda Strumenti tabellae nell'area Progettazione. Quindi fai clic sulla freccia giù in Aggiorna. Quindi fai clic su Proprietà connessione.
Nella finestra QueryProperties, nella scheda Utilizzo, possiamo controlla come si aggiornano queste informazioni. È possibile impostare un periodo di tempo specifico da aggiornare o aggiornare quando apriamo la cartella di lavoro la volta successiva, oppure si aggiorna in background o qualsiasi combinazione di questi. Una volta scelto ciò che è stato scelto, fai clic su OKper chiudere la finestra e continuare.
Questo è tutto! Ora puoi monitorare i prezzi delle azioni, i risultati sportivi o qualsiasi altro dato che cambia frequentemente da un foglio di calcolo Excel. Se sei bravo con Equazioni e funzioni di Excel, puoi fare quasi tutto quello che vuoi con i dati.
Forse prova a identificare le tendenze degli stock, a gestire una piscina di sport fantastici al lavoro o forse a tenere traccia del tempo. Chissà? La tua immaginazione e i dati disponibili su Internet sono gli unici limiti.