===취미 세상 : 공부===/칼리리눅스

metagoofil / goofile - 검색을 통한 문서 수집 도구

개미민또 2022. 12. 12. 09:25
반응형

metagoofil이나 goofile 도구는 구글 검색 엔진을 이용한 문서 수집도구이다.

워드나 pdf 같은 데이터에 대하여 문서 자료를 볼 수 있게 해주는 도구이다.

마치, 구글에서 pdf 검색하여 결과를 얻어내는 것과 아주 유사하다.

site:kali.org filetype:pdf

먼저, metagoofil의 옵션을 살펴보자.

metagoofil -h를 이용하면 되겠다.

usage: metagoofil.py [-h] -d DOMAIN [-e DELAY] [-f] [-i URL_TIMEOUT]
                     [-l SEARCH_MAX] [-n DOWNLOAD_FILE_LIMIT]
                     [-o SAVE_DIRECTORY] [-r NUMBER_OF_THREADS] -t FILE_TYPES
                     [-u [USER_AGENT]] [-w]

Metagoofil - Search and download specific filetypes

options:
  -h, --help            show this help message and exit
  -d DOMAIN             Domain to search.
  -e DELAY              Delay (in seconds) between searches. If it's too small
                        Google may block your IP, too big and your searchmay
                        take a while. Default: 30.0
  -f                    Save the html links to html_links_<TIMESTAMP>.txt
                        file.
  -i URL_TIMEOUT        Number of seconds to wait before timeout for
                        unreachable/stale pages. Default: 15
  -l SEARCH_MAX         Maximum results to search. Default: 100
  -n DOWNLOAD_FILE_LIMIT
                        Maximum number of files to download per filetype.
                        Default: 100
  -o SAVE_DIRECTORY     Directory to save downloaded files. Default is current
                        working directory, "."
  -r NUMBER_OF_THREADS  Number of downloader threads. Default: 8
  -t FILE_TYPES         file_types to download
                        (pdf,doc,xls,ppt,odp,ods,docx,xlsx,pptx). To search
                        all 17,576 three-letter file extensions, type "ALL"
  -u [USER_AGENT]       User-Agent for file retrieval against -d domain.
                                       no -u = "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"
                                       -u = Randomize User-Agent
                                       -u "My custom user agent 2.0" = Your customized User-Agent
  -w                    Download the files, instead of just viewing search results.

위 옵션을 조합하여 웹사이트에서 pdf를 다운로드 해보자

metagoofil -d kali.org -t pdf -l 100 -n 25 -o kalipdftest

-d kali.org : 도메인 kali.org에서

-t pdf : pdf 타입의 파일을 

-l 100 :최대 100개를 검색하여

-n 25 : 25개 파일을 다운로드 한다.

-o : 저장 장소는 kalipdftest 디렉토리가 되겠다.

검색 및 다운로드가 완료되면 결과를 보여준다

다운로드 완료

728x90

이 metagoofil과 비슷한 도구가 또하나 있는데 goofil이라는 도구이다.

goofil -h로 옵션부터 본다.

usage: goofile [-h] [-d DOMAIN] [-f FILETYPE] [-k KEY] [-e ENGINE] [-q QUERY]
               [--logging LOGGING]

options:
  -h, --help            show this help message and exit
  -d DOMAIN, --domain DOMAIN
                        the domain to search - optional (ie. kali.org
  -f FILETYPE, --filetype FILETYPE
                        the filetype to search for - required (ie. pdf)
  -k KEY, --key KEY     Google Custom Search Engine API key - optional
  -e ENGINE, --engine ENGINE
                        Google Custom Search Engine ID - optional
  -q QUERY, --query QUERY
                        Only search for files with keyword - optional
  --logging LOGGING     Set the logging verbosity to something other than "INFO" -
                        optional

옵션도 metagoofil과 유사한 것이 있다.

단순한 도구이므로 사용도 어렵지 않다.

goofile -d kali.org -f pdf


허나 고민점은 이 도구들이 과연 현재 시점에서 유용한가에 대해서는 의문이다.

과거에는 이 도구들을 사용하여 이렇게 문서를 다운로드함과 동시에 취약점 정보를 함께 확인할 수 있었다.

가령, 파일 사용자라던지, 시스템이름이나 운영체제 정보 등 말이다.

현재는 구글에서 이런 리턴 정보 값을 차단해둬서 세세한 내용이 나오지 않는다.

 어떻게 사용하면 좋을지는 각자가 고민해야 하겠다.

각 도구에 대한 자세한 정보는 아래 깃허브를 이용하면 되겠다.

 

 

GitHub - opsdisk/metagoofil: Search Google and download specific file types

Search Google and download specific file types. Contribute to opsdisk/metagoofil development by creating an account on GitHub.

github.com

 

 

GitHub - sosukeinu/goofile: Python 3 update for https://code.google.com/archive/p/goofile/

Python 3 update for https://code.google.com/archive/p/goofile/ - GitHub - sosukeinu/goofile: Python 3 update for https://code.google.com/archive/p/goofile/

github.com

 

반응형