===취미 세상 : 공부===/칼리리눅스

parsero - 웹서비스 disallow 항목 검색 도구

개미민또 2023. 3. 29. 19:24
반응형

보통 도구들이 눈에 보이는 정보를 찾기 위해 노력하는데,

parsero라는 도구는 굳이 눈에 보이지 않는 정보를 찾으려는 도구이다.

조금 더 설명을 하자면,

- parsero는 파이썬으로 작성된 스크립트

- 웹서버의 robots.txt 파일을 읽어서 disallow 항목을 찾아낸다.

- 물론 allow 검색도 가능


다시 한 번 더 구체적으로 말하면,

Disallow 항목은 웹서버에서 호스팅되는 디렉토리나 파일 중에서 검색 엔진에서 색인이 안 되어야 하는 것을 알려준다. 

예를 들어, "Disallow: /portal/login"은 www.example.com/portal/login의 내용이 Google, Bing, 네이버, 다음과 같은 크롤러에 의해 색인이 안 되도록 막는 것을 말한다.  의도적인 부분이 있는 것이다.

관리자가 검색 엔진을 통해 개인적인 정보를 공유하지 않도록 하는 방법 중 하나이다.

하지만 때로는 이러한 Disallow 항목에 입력된 경로들이 검색 엔진을 사용하지 않고도 직접 URL 및 경로를 입력하여 액세스하는 경우도 있다.

웹 관리자가 많은 Disallow를 작성하고 일부는 이용 가능하게 하고 일부는 또 이용 불가능하게 만들기 때문이다.

따라서, Parsero를 사용하여 각 Disallow 항목의 HTTP 상태 코드를 자동으로 확인하여 이러한 디렉토리가 사용 가능한지 여부를 확인할 수 있다.

Parsero는 Bing에서 검색하여 웹 관리자의 승인 없이 색인된 콘텐츠를 찾을 수 있고,
Bing 결과에 대해 동일한 방법으로 HTTP 상태 코드를 확인한다.

parsero에 대한 자세한 소개는 아래 사이트를 참고하면 좋겠다.

 

GitHub - behindthefirewalls/Parsero: Parsero | Robots.txt audit tool

Parsero | Robots.txt audit tool. Contribute to behindthefirewalls/Parsero development by creating an account on GitHub.

github.com


  parsero의 주요 옵션

usage: parsero [-h] [-u URL] [-o] [-sb]

options:
  -h, --help  show this help message and exit
  -u URL      Type the URL which will be analyzed
  -o          Show only the "HTTP 200" status code
  -sb         Search in Bing indexed Disallows

딱 봐도 무지 단순한 도구이구나! 를 알 수 있다.

반응형

간단하게 사용을 해보자.

웹사이트 주소를 넣으면 된다. 이렇게 할 수 있다.

아주 쉽다!

테스트를 위해 간단한 사이트를 대상으로 결과를 보여주는데 먼저, 기본 정보부터,

대상 웹사이트의 wp-admin 디렉토리가 영구적으로 이동되었다는 301 HTTP 코드 확인이 가능하다.

그리고 -sb 옵션이 있었다.

bing 검색을 통해서, disallow 항목 여부를 추가로 진행한다.

여기 사이트는 단순해서 더 정보가 없는데,

여튼 이렇게 쉬운 방법으로 웹서버 정보를 들여다 볼 수도 있음을 알 수 있다.


이런 정보를 어떻게 활용할지는 각자 잘 생각해보자.

웹서버 디렉토리 스캔 도구 특히, disallow 항목을 알 수 있게 해주는 도구 parsero 였다.

반응형