1. หน้าเพจ A แสดง HTML แบบเปล่าๆ ไม่มีอะไร (Empty) สมมติ product-001.html
2. html ในข้อ 1 เขียนสคริปต์ส่ง request ไปหา reverse_proxy.php โดยต้องระบุ ip,host,referer,special header ไปให้กับไฟล์ reverse_proxy.php ด้วย
3. ไฟล์ reverse_proxy.php ทำการ validate + filter ข้อมูล request ว่าได้ส่งจาก ip,host หรือข้อมูลอื่นๆที่จำเป็นต้องใช้ในการ validate จากต้นทางจริงหรือไม่
4. ถ้าข้อมูลถูกต้อง ให้ทำการดึงข้อมูลที่ต้องการแสดงผลจริงกลับไปให้หน้าเพจ A
จริงๆ เทคนิคนี้ก็ใช้ได้ครับ แต่ก็ไม่ 100% หรอก ยังเอาเนื้อหาออกมาได้อยู่ดี ตัวอย่าง
http://gcms.in.th สังเกตุ URL ที่มี # นั่นคือ URL ที่คนเข้าถึง ส่วน bot จะมี URL รูปแบบ .html ธรรมดา โดยอาศัย URL จาก sitemap ซึ่งเราสามารถ detect ได้ว่าเป็น bot หรือไม่ ถ้าใช่ก็ส่งเนื้อหาเต็มๆไป วิธันี้จะไม่มีผลด้าน SEO
หมายเหตุ เว็บนั่นไม่ได้ detect bot นะครับ ผมชี้ให้เห็นหลักการเฉยๆ
1. อันนี้ผมยังไม่ได้ลงรายละเอียดนะครับว่ามันสามารถแก้ไขปัญหาได้ 100% เพราะการป้องกันการ copy เนื้อหามันทำได้ยากอยู่แล้ว แต่ถ้าคุณหรือใครๆลองทำหรือเพิ่มการตรวจสอบในเรื่องของ http request คุณจะรู้ว่าคุณสามารถหยุดปัญหานี้ได้ ถ้า request นั้นมาจากฝีมือมนุษย์ ไม่ใช่ bot ของ gg,bing,yahoo หรือตัวอื่นๆ
2. บางท่านอาจจะคิดว่า bot สามารถใต่และ indexed หน้าเพจที่เป็น .html หรือ extension อื่นๆ เท่านั้น อันนี้ต้องคิดใหม่นะครับ เพราะ bot มันฉลาดกว่าโปรแกรมเมอร์บางท่านเสียอีก แค่คุณทำลิงค์ให้มันใต่ และไม่ได้บล็อกมัน และถึงแม้ว่าลิงค์นั้นจะไม่อยู่ใน sitemap หรือเป็น/มี hashtag(#) ก็ตาม เพราะบอทมันสามารถ read dom ได้ครับ
3. เรทการป้องกันว่าสามารถป้องกันได้ขนาดไหน มันอยู่ที่ระบบของเราว่าฉลาดขนาดไหน และขึ้นอยู่กับความฉลาดของฝั่งที่จะเอาข้อมูลด้วย อันนี้น่าจะเห็นภาพนะครับ
ปล. หากผมเข้าใจผิดส่วนใด ก็ต้องขออภัยด้วยครับ
เพื่อป้องกันการเข้าใจผิด ผมไม่ได้ดิสเครดิตข้อความของท่านนะครับ
1 ผมเห็นด้วยกับความคิเห้น สำหรับวิธีนี้ ซึ่งสามารถทำได้เทียบกับแนวคิดที่ผมทำอยู่ คือ gcms.in.th ข้อแตกต่างของผมกับที่คุณว่า คือผมไม่ได้บล๊อกบอต แต่ต้องการบอกว่า ถึงเราจะใช้ javascript โหลดเนื้อหา เราก็ยังสามารถทำให้มันไม่มีผลเสียด้าน seo ได้
2 Google ยังไม่เข้าใจ Javascript นะครับ และ มันก็ไม่ได้อ่าน Dom เพราะถ้ามนทำได้ การใช้ Ajax โหลดเนื้อหามาแสดง ก็จะไม่มีผลเสียด้าน SEO (bot ใช้วิธีอ่านข้อความเอาครับ)
3 ไม่มีวิธี 100% จริงๆครับ ไม่ว่าจะใช้เทคนิคไหน
ต้องขออภัยด้วยนะครับ ที่อาจทำให้ท่านเข้าใจผิด
ถ้า จขกท(หมายถึงคนถามนะครับ) มีปัญหาจริงๆ ผมแนะนำให้ใช้วิธีการทางกฎหมายมากกว่าครับ (ส่วนตัวผมก็ทำแบบนี้)