Google มันบ้าๆบอๆนะครับ
ผมทำ web app อันหนึ่งไว้ใช้งานภายในองค์กร แล้วมันก็ดันเสนอหน้ามาเก็บข้อมูลทั้งที่ไม่มีลิ้งค์จากที่ไหนมาแปะเลย แบ่งเป็น 2 ประเด็น
1. หน้าแรกของเว็บ หน้า / (root) เลย คือเข้าจากโดเมนตรงๆ เช่น
https://domain.tld 
ทำไว้ขาวๆโล่งๆ ไม่มีอะไรเลย มันก็ยังไปเก็บ เช็คได้จากคำสั่งบน Google
site:domain.tld2. หน้าตัวแอป จะต้องมีการ login และจะเข้าหน้านี้ต้องรู้ /path ที่ซ่อนไว้ มันก็ดันรู้จากไหนไม่ทราบ เสนอหน้าเข้าไปเก็บข้อมูลหน้า login, forgot password ให้อีก ขยันโดยไม่ใช่เรื่องแท้ๆ

สุดท้ายข้อ 2 ต้องทำ robots.txt มากันไว้ แล้วข้อ 1 ก็ปล่อยไว้งั้น หน้าขาวๆไม่มีอะไรเลย อยากเก็บก็เก็บไปดิ ขยันจัด