Post Dominguero: Haciéndonos un crawler básico
Inauguramos una nueva sección llamada “Post Dominguero”, donde recogeremos esas cosillas que puedes hacer una tarde de domingo sin partidos de liga, después de ver ganar a Nadal (otra vez) Rolland Garros…
wget -r -m -nv http://www.unawebcualquiera.com
- Comentarios: Os sorprendería ver lo que nos podemos encontrar comentado en cualquier código, desde credenciales de acceso, hasta referencias a ficheros de configuración, logs, etc, que nos pueden ayudar muchísimo a la hora de buscarle las cosquillas al asunto. Los comentarios en html empiezan con la misma cadena, así que ya sabemos cómo sacarlos…
- Enlaces: Por supuesto, cualquier link que venga en el código. Podemos encontrar referencias a scripts, ficheros, carpetas, etc. Yo buscaré cadenas HREF (podemos buscar también por ACTION, pero estoy vago…).
- Direcciones de correo: Fundamental. Tanto para hacer ingeniería social como para su posible uso como usuario, ¿Cuántas webs conoces en las que el usuario es una dirección de correo? Pues eso, a buscar @…
- Campos ocultos: ¿Por qué se oculta un campo en una web? Porque seguro que es importante. Así que, al saco todo aquello que ponga type=hidden
- Meta Tags: Estas etiquetas que se añaden al código pueden contener direcciones, teléfonos, nombres, etc. Son una buena fuente de información para ataques de ingeniería social, así que, si pone meta…
- Scripts: Por supuesto, si hay algún script, lo quiero ver.
cat ./www.unawebcualquiera.com/index.html | grep -i -F ‘href’
#!/bin/bash#para cada fichero de la carpeta de entrada, lo parseamos…for i in $(find $1/)doecho “Parseando ” $iif [ -f $i ];thenecho “[" $i "]” >> $2#Buscamos comentarios “<–”echo “Comments” >> $2echo “” >> $2cat $i | grep -i -F ‘<– ‘ >> $2echo “—————————————————————–” >> $2#Buscamos correos “@”echo “Emails” >> $2echo “” >> $2cat $i | grep -i -F ‘@’ >> $2echo “—————————————————————–” >> $2#Buscamos campos ocultos “hidden”echo “Hidden Fields” >> $2echo “” >> $2cat $i | grep -i -F ‘type=hidden’ >> $2echo “—————————————————————–” >> $2#Buscamos Links “href”echo “Links” >> $2echo “” >> crawlcat $i | grep -i -F ‘href=’ >> $2echo “—————————————————————–” >> $2#Buscamos Meta “Meta”echo “Meta Tags” >> $2echo “” >> $2cat $i | grep -i -F ‘meta’ >> $2echo “—————————————————————–” >> $2echo “” >> $2echo “—————————————————————–” >> $2#Buscamos scripts “script”echo “SCRIPTS” >> $2echo “” >> $2cat $i | grep -i -F ‘script’ >> $2echo “—————————————————————–” >> $2echo “” >> $2echo “********************************************************” >> $2echo “********************************************************” >> $2echo “” >> $2fidoneecho “FIN!”
grep -o -e “[A-Za-z0-9\._-]*@[A-Za-z0-9\._-]*\.[a-zA-Z]\{2,4\}” $i >> $2

