CODEXSPRAWL

sulle tracce della periferia cibernetica

Google Dorks: uno strumento per SEO e pen testers

Torniamo nel mondo dell’hacking per esplorare, ancora una volta, uno degli strumenti fondamentali che vengono spesso nominati ed utilizzati nelle prime fasi del penetration testing (o pen test) che, per definizione, è l’atto, che avviene attraverso un metodo strutturato, di investigare, scoprire, attaccare e riportare i punti di forza e quelli vulnerabili di un sistema target; ciò aiuta a migliorare in maniera proattiva la sicurezza del sistema su cui si è portato a termine il pen test.

Uno dei primi metodi per iniziare con il penetration testing è, appunto, Google Dorks (anche conosciuto come Google Dorking o Google Hacking). Fondamentalmente, questa è una pratica che avviene utilizzando la ricerca di Google; potremmo chiederci quindi come mai sia possibile trovare informazioni sulle vulnerabilità di applicazioni web e dei server usando un semplice motore di ricerca e la risposta è semplice: Google ha delle capacità particolarmente elevate di scansione del web (cioè, web-crawling) che noi possiamo apertamente e tranquillamente usare e significa anche che noi stessi potremmo, senza volere, aver esposto troppe informazioni personali come nickname, tecnologie web utilizzate, potenziali vulnerabilità, senza essercene accorti.

Per cui il motore di ricerca di Google nasconde delle grandi capacità che si possono utilizzare per collezionare informazioni: come ogni strumento vi è il lato positivo e quello negativo, noi intendiamo analizzarlo dal primo punto di vista per il quale ci permette di osservare, analizzare e trovare falle che, in un secondo momento, potremo correggere. Google stesso incoraggia ad utilizzare questo strumento in maniera legale (anche i SEO dovrebbero sapere cos’è e come sfruttarlo), evitiamo quindi di usarlo in modo indiscriminato e criminale.

Tutti i comandi per fare Google Dorking sono presenti in un archivio chiamato GHDB (Google Hacking Database); vedremo, qui, quelli maggiormente utilizzati:

cache:nomedelsito.com

Con il comando qui sopra riportato possiamo vedere quando un sito web, per esempio il nostro, è stato scansionato per l’ultima volta, come mostrato nell’immagine sottostante. In questo caso, la pagina è stata copiata nella cache di Google il 19 dicembre 2022 alle ore 17:21 e possiamo accedere anche alla visualizzazione del suo codice sorgente.

allintext:ciò che si interessa cercare

Con il codice allintext: possiamo chiedere a Google di proporci una lista di ciò che vogliamo cercare, per esempio “hacking tools” cosicché compaiano vari siti che parlano di questo argomento. Facendo così, abbiamo scoperto di essere stati citati in biografia ed utilizzati in ben due diverse tesi di laurea (una presentata all’UNIBO e l’altra all’UNIVE e ne approfittiamo per ringraziare gli autori se ci leggono perché significa che hanno trovato utili i nostri contenuti!). Allo stesso modo, possiamo utilizzare il comando allintitle: che funziona allo stesso modo ma cercherà solamente per i titoli contenenti le parole da noi selezionate (vogliamo scaricare legalmente degli mp3? Proviamo col comando intitle: index of mp3 oppure vogliamo se vogliamo invece dei pdf intitle: index of pdf, o ancora per dei video intext: .mp4), oppure allinurl: dedicato esclusivamente agli URL potremo per esempio scrivere allinurl: network camera per ottenere una lista di siti che ci mostrano le telecamere attive collegate ad internet (tra cui anche il famoso sito Shodan). Altri due comandi per trovare le webcam connesse ad internet sono intitle:”LiveView/AXIS” e inurl:”viewerfram?mode=motion.

Ma non è finita, esistono altri comandi per recuperare le varie webcam online e sono inurl:top.htm inurl:currenttime per quelle basate sull’IP, mentre per quelle su trasmissione XP c’è intitle:"webcamXP 5" ed infine un comando più generico inurl:"lvappl.htm".

parola1 one intext: parola2

Con one intext: inserendo una parola prima ed una dopo abbiamo la possibilità di trovare dei termini visualizzati in qualsiasi area di una pagina web e non, solo e per esempio, nei titoli. Ciò può essere utile se si eseguono delle ricerche sulla classificazione delle ottimizzazioni delle pagine su Google e su come vengono categorizzate le pagine. filetype:pdf [nomesito]

dove, logicamente [nomesito] verrà sostituito dalla denominazione del target prescelto (attenzione non il dominio per esteso, ma solamente il nome) troveremo una lista di pdf ad esso collegati. Potremmo anche utilizzare lo stesso comando per fare una ricerca su Google più estesa e relativa a tutti i siti indicizzati come, per esempio, email security filtype: pdf. Per limitare ulteriormente la ricerca è possibile anche usare stringhe di più operatori messi insieme come, per esempio,inurl:admin intitle:orders filetype:php.*:

L’asterisco è un’altra carta che possiamo giocarci per cercare le pagine che contengono qualsiasi cosa prima della parola che abbiamo prescelto, per esempio potremmo scrivere come * un sito restituendoci vari siti dedicati a come creare/progettare/hackerare/eccetera un sito.

Vogliamo curiosare se ci sono degli incontri su Zoom inseriti in qualche pagina sul web? Possiamo usare il seguente comando facendo attenzione perché, spesso e volentieri a causa del tempo che richiede l’indicizzazione delle pagine, in molti casi i meeting potrebbero essersi già conclusi:

inurl:zoom.us/j and intext:scheduled for

Con Google Dork è facile anche trovare i WPAdmin di WordPress con il comando intitle:"Index of" wp-admin oppure, persino, documenti governativi usando allintitle: restricted filetype:doc site:gov

Ci vuole quindi solo un pizzico di immaginazione per manipolare i comandi, a cui possiamo facilmente risalire, di Goggle Dork e provare a risalire a quello che potrebbe servirci.

A questo punto, però, noi che siamo anche amanti della privacy ci chiederemo come fare invece il contrario; ovvero, come proteggerci da questo tipo di hacking.

Prima di tutto cercheremo di proteggere tutte le aree private con utente e autenticazione password utilizzando delle restrinzioni basare sull’IP e ricordandoci che le aree dovranno essere anche in https, per altri motivi che abbiamo visto in passato qui.

Dovremo criptare tutte le informazioni sensibili come, appunto, nomi utente, password, emails, indirizzi, indirizzi IP, numeri di telefono, carte di credito, etc.

Scannerizzare regolarmente il nostro sito alla ricerca di possibili vulnerabilità.

Provare, ogni tanto, alcune ricerca Google Dork a nostro piacere volte contro il nostro stesso sito per vedere se riusciamo a trovare alcune informazioni importanti che potrebbero interessare a persone con cattive intenzioni. A questo proposito ripostiamo qui il link con i comandi che potrebbero interessarci: GHDB (Google Hacking Database).

Nel caso dovessimo trovare dei contenuti sensibili in questo modo possiamo sempre richiederne la rimozione utilizzando Google Search Console; oppure potremo bloccarli utilizzando un file robots.txt inserendolo nella directory del root level del nostro sito (ovvero dove questi è archiviato entrando sulla piattaforma a cui questi si appoggia). Per comprendere ed imparare come scrivere un file del genere consigliamo di dare un’occhiata e seguire le istruzioni sulla pagina Google per sviluppatori poiché complete e chiare.

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *