ThaiSEOBoard.com

พัฒนาเว็บไซต์ => Programming => ข้อความที่เริ่มโดย: okgofun ที่ 23 ตุลาคม 2007, 13:25:30



หัวข้อ: ถ้าต่อไปเว็บ article ทำเป็น ajax เราก็ดึงเนื้อหากันไม่ได้แล้วสิครับ
เริ่มหัวข้อโดย: okgofun ที่ 23 ตุลาคม 2007, 13:25:30
ถ้าต่อไปเว็บ article ทำเป็น ajax เราก็ดึงเนื้อหากันไม่ได้แล้วสิครับ

ผมลองทดสอบเล่นๆโดยการดึงข้อมูลเว็บที่เขียนแบบ ajax ปรากฏว่า ไม่ได้ผลใดๆครับ เพราะจะได้มาแต่โค๊ด javascript เท่านั้น

ใช้ curl ดึงนะครับ  :(

แบบนี้ ajax นี่แจ๋วจริงๆนะครับ ป้องกันข้อมูลได้ แต่ก็มีผลเสียคือไม่โดน bot index

ว่าแต่.. ถ้าต่อไปเขาเขียนแบบ ajax กันหมด คือซ่อนข้อมูลไว้ แบบนี้พอจะมีวิธีดึงข้อความได้ใหมครับ  ???


หัวข้อ: Re: ถ้าต่อไปเว็บ article ทำเป็น ajax เราก็ดึงเนื้อหากันไม่ได้แล้วสิครับ
เริ่มหัวข้อโดย: EThaiZone ที่ 23 ตุลาคม 2007, 13:35:08
มาวิเคราะห์กันเล่นๆ นะครับ

ถ้าคนทำ ajax มาทำแบบนั้นกันหมด
อย่างที่คิดไปแล้วคือไม่โดนอินเด็ก

แต่ก็มีวิธีหนึ่งที่ทำให้อินเด็ก คือ
เทคนิคที่คล้ายๆ กับ split test

คือกำหนดว่า ถ้าip ของ บอท มาเยี่ยม ให้แสดง html ปกติ
แต่พอเป็นคน ก็ ajax

แบบนี้จะแก้ปัญหาได้ครับ แต่ลำบากตรงต้องรู้ ip ของบอททั้งหมด
เพราะใช้ user-agent ก็ไม่ได้ (ปลอมกันได้)

แต่วิธีนี้ หวังว่าจะไม่ผิดกฎ GG นะ  :P

แต่พูดถึงกรณี ajax ถ้าอยากจะดึงข้อมูลจริงๆ
ถ้าไมเขียนเจาะเฉพาะจุดๆ ไป (อย่างที่ผมเคยทำ Google Related มาแจก นั้นได้ url ก็เพราะเจาะไปเป้าหมายเดียว)
ก็ต้องเขียน php ให้อ่าน javascript เป็น

ซึ่ง... สงสัยจะอีกยาว  (ฮา)

ปล. ความจริงมีอีกวิธี เอา Firefox ไปรันบนเซิร์ฟ แล้วเขียน exec เรียกช่วยก็น่าจะทำได้นะ
เคยได้ยินว่าทำบน unix แต่ของเขาเอาไว้ทำ thumbnail ของเว็บไซต์อะ

 :P :P


หัวข้อ: Re: ถ้าต่อไปเว็บ article ทำเป็น ajax เราก็ดึงเนื้อหากันไม่ได้แล้วสิครับ
เริ่มหัวข้อโดย: Dr.K ที่ 23 ตุลาคม 2007, 14:15:39
ใช้ xmlhttp ดึงเนื้อหาออกจาก database โดยตรง
google craw ได้ เพราะเอา permalink ไปแขวนไว้ที่อื่น เช่น sitemap ที่บังคับ bot ให้เข้าได้อย่างเดียว
(จริงๆเขียน policy ไม่กี่ร้อยบรรทัดหรอกครับ แล้วเอามากำหนดไว้ที่ http config  include ให้ใช้ได้กับทุก site ในโดเมน)
แต่คนมา get ไม่ได้ เพราะติด cross domain
หรือไมก้อบังคับสมัครสมาชิกแล้วจ่ายตังก่อน
นี่คือแนวทางที่เว็บ article ทั้งหลายเริ่มจะมาทำ



หัวข้อ: Re: ถ้าต่อไปเว็บ article ทำเป็น ajax เราก็ดึงเนื้อหากันไม่ได้แล้วสิครับ
เริ่มหัวข้อโดย: Dr.K ที่ 23 ตุลาคม 2007, 14:22:45
 :P
จริงๆไม่ยากขนาดนั้นเลยมั้ง
ส่ง submit sitemap ตัวเต็ม
ส่วนตัวเว็บจริงที่คนเข้า ให้เอา cookie ดักไว้ ให้สมัครสมาชิกก่อน
เอาแบบเบาะๆ จ่าย paypal มาก่อนสักสี่ห้าพัน ค่อยเข้ามาได้
อืม
(โดนข้อหา spoofเหมือนกันนะ อย่าทำตาม)


หัวข้อ: Re: ถ้าต่อไปเว็บ article ทำเป็น ajax เราก็ดึงเนื้อหากันไม่ได้แล้วสิครับ
เริ่มหัวข้อโดย: minute1 ที่ 23 ตุลาคม 2007, 14:51:18
ข้อแสดงความคิดเห็นหน่อย...

ฐานะที่ผมเป็นผู้ใช้งาน internet ตั้งแต่สมัยใช้ Gopher ตามห้องสมุดและใช้โมเดมตั้งสมัยหมุนเข้าศูนย์ BBS
ผมเห็นการเปลี่ยนของ internet มากพอสมควรกับวงศ์การ internet

ผมว่า ajax มันมีจุดอ่อนที่จะทำให้รอบชีวิตมันอาจไม่ยืนยาวสักเท่าไหรนัก เป็นต้นว่า

 - Cross site scripting อย่างพวก widget ที่เรานิยมกันมันขาด security
   เอาง่ายๆ ถ้า google จะดักจับ password จาก script Adsense ทำได้ไม
   ดังนั้น Script นอก site ทุกตัวเสี่ยงแน่นอน

 - Compatible ของ JavaScript ถูกออกแบบมาให้มัน Cross Plateform และ Browser ก็จริง
   แต่ความเป็นจริง ผมจะเจอ Script ของจาวา error ประจำ site อันดับหนึ่งอย่าง google และ microsoft เคยเจอ
   และแต่ละระบบใช้ component ที่ดึง XML คนละตัว คนเขียน script ต้อง detect เอง เหนื่อยลำบาก

 - Browser จัดการกับ Ajax ไม่ได้เต็มที่ ขาดการจัดการเรื่อง Queue และ Memory ดังนั้นเว็บไหน
   เขียน Ajax ไม่ดีและมีมากเกิน จะไม่รอด

ณ ปัจจุบัน Ajax ยังเป็นแนวทางที่จะ Web Interactive ที่ดีที่สุด แต่ผมเชื่อว่าจะมีเทคโนโลยีที่จะออกมาแทนเร็วๆ นี่

ถ้าให้ผมเดาน่าจะเป็น

  - Http Protocal เวอร์ชั่นใหม่สนับสนุน Multi-Facet Query
  - Html เวอร์ชั่นใหม่ที่สนับสนุน Multi-Facet Format
  - Web Server ที่สนับสนุน Multi-Facet Process
  - Web Browser ที่สนับสนุน Http Protocal แบบ  Multi-Facet

ถึงตอนนั้น Search Engine คงจะไม่มาอ่าน Text จาก Html อีกแล้ว Web Server คงมี Protocal ที่สนับสนุน Data Portable ได้เลย
ทั้งนี่ตัว Html เวอร์ชั่นใหม่ต้องสนับสนุน Sementic Web เพื่อให้สามารถ port ข้อมูลไปบน Media ต่างๆได้เลยจาก Webpage เพียงชุดเดียว


ทั้งหมดเป็นการคาดเดาของผมล้วนๆ ไม่ได้อ้างอิงวิชาการใดทั้งสิ้น แค่คิดเล่นๆเท่านั้น ;D ;D

ขอโทษทีนะครับ อาจนอกประเด็นไปหน่อย


หัวข้อ: Re: ถ้าต่อไปเว็บ article ทำเป็น ajax เราก็ดึงเนื้อหากันไม่ได้แล้วสิครับ
เริ่มหัวข้อโดย: Tee++; ที่ 23 ตุลาคม 2007, 15:31:37
^
^
^
ประเด็นน่าสนใจมากครับ  ::)


หัวข้อ: Re: ถ้าต่อไปเว็บ article ทำเป็น ajax เราก็ดึงเนื้อหากันไม่ได้แล้วสิครับ
เริ่มหัวข้อโดย: Clicker ที่ 23 ตุลาคม 2007, 15:59:42
ไม่รู้เรื่องครับ แต่ตามอ่านเพื่อเก็บไว้เป็นความรู้  :)


หัวข้อ: Re: ถ้าต่อไปเว็บ article ทำเป็น ajax เราก็ดึงเนื้อหากันไม่ได้แล้วสิครับ
เริ่มหัวข้อโดย: Dr.K ที่ 23 ตุลาคม 2007, 16:26:20
^
^
^
^
เจ๋งครับ
ขอคารวะ
ข้าน้อยเจอ error ประจำจนเข็ด
ขอบคุณที่ point out


หัวข้อ: Re: ถ้าต่อไปเว็บ article ทำเป็น ajax เราก็ดึงเนื้อหากันไม่ได้แล้วสิครับ
เริ่มหัวข้อโดย: myong1 ที่ 23 ตุลาคม 2007, 17:58:09
ตัว ajax ผมใช้ .net ก็ดึงข้อมูลได้นะครับ

อย่าง keword tool ของ google ก็ถึงข้อมูลมาได้หมดครับ

ความเชื่อส่วนตัวนะครับ ถ้าอะไรที่แสดงบน browser ได้ ก็ดึงได้หมดแหละครับ

 :)


หัวข้อ: Re: ถ้าต่อไปเว็บ article ทำเป็น ajax เราก็ดึงเนื้อหากันไม่ได้แล้วสิครับ
เริ่มหัวข้อโดย: EThaiZone ที่ 23 ตุลาคม 2007, 19:43:41
Multi-Facet ผมยังไม่เข้าใจความหมายมันเลยแฮะ (เดียวพึ่ง GG 8hogvk)

แต่ให้เดา คือหมายถึงการที่เว็บในอนาคตอาจสามารถแสดงได้มากกว่าการเป็นเอกสารแผ่นหนึ่งใช่ปะครับ ?

กับเรื่องการพอร์ทกับระหว่างเว็บเซิร์ฟกับ SE แทน

เป็นอะไรที่น่าสนใจนะครับ ผมเคยได้ยินว่าทรูมีการต่อตรงไปหา GG
เพื่อให้ทำงานเร็วขึ้น สงสัยอาจจะเป็นจุดเริ่มต้นของยุคใหม่ก็ได้


หัวข้อ: Re: ถ้าต่อไปเว็บ article ทำเป็น ajax เราก็ดึงเนื้อหากันไม่ได้แล้วสิครับ
เริ่มหัวข้อโดย: bankkungz ที่ 23 ตุลาคม 2007, 20:02:03
เอ่อ คุยไรกันอ่ะ

ไม่เหนรุ้เรื่องเลย

แต่ก้ออ่านจนจบ

เหอๆ

แหล่มดีครับ แนวคิด


หัวข้อ: Re: ถ้าต่อไปเว็บ article ทำเป็น ajax เราก็ดึงเนื้อหากันไม่ได้แล้วสิครับ
เริ่มหัวข้อโดย: minute1 ที่ 23 ตุลาคม 2007, 21:28:13
อย่าไปซีเรียสมากครับ แค่คิดอะไรเล่นๆบนพื้นฐานของการแก้ปัญหาแค่นั้นเอง
ผมบอกแล้วงัย ว่าไม่ได้อ้างอิงข้อมูลจากแหล่งใดๆเลย บางทีผมอาจคิดผิดก็เป็นได้ ;D ;D

Multi-Facet ผมยังไม่เข้าใจความหมายมันเลยแฮะ (เดียวพึ่ง GG 8hogvk)

แต่ให้เดา คือหมายถึงการที่เว็บในอนาคตอาจสามารถแสดงได้มากกว่าการเป็นเอกสารแผ่นหนึ่งใช่ปะครับ ?

กับเรื่องการพอร์ทกับระหว่างเว็บเซิร์ฟกับ SE แทน

เป็นอะไรที่น่าสนใจนะครับ ผมเคยได้ยินว่าทรูมีการต่อตรงไปหา GG
เพื่อให้ทำงานเร็วขึ้น สงสัยอาจจะเป็นจุดเริ่มต้นของยุคใหม่ก็ได้

Multi-Facet  ศัพท์นี่ผมกำหนดขึ้นเองไป Search Google ได้อะไรมาอย่ามาโทษผมนะ  :-[

หลักการผมง่ายๆนี่ละเหมือนที่ Ajax ทำงานอยู่ทุกวันนี้ละ แต่โยนเรื่องการดึงข้อมูล xml ให้ brower ไปซะ
แทนการใช้ Javascript ให้ brower ส่ง request และ render response ให้เสร็จสรรพไปเลย

Multi-Facet คือการแบ่ง webpage ออกเป็นส่วนย่อยๆ browser จะ request และ render แต่ละ facet แยกกัน
ไม่ต้องโหลด page นั้นใหม่หมด โหลดเพียงแต่ละ facet บางส่วนเหมือนที่ Ajax ทำอยู่ทุกวันนี่เลย

ทั้งนี่เพื่อให้มันง่ายเขาไปอีก ผมเคยจัดการคิดให้ Server เป็น Muti-Facet ด้วยเสียเลย พร้อมออกแบบ protocal
ให้มันเสียใหม่มันจะได้ไปด้วยกัน ....

เอาละคิดมากไปปวดหัวพอหอมปากหอมคอแน่นี่ละกัน... รอให้ประเทศแนวหน้าเขาคิดไป ผมแค่ตามให้ทันก็แย่แล้ว
จะว่าไปก็อยากเห็นคนไทยมีบทบาทในแนวหน้าเหมือนกันนะ 8)




หัวข้อ: Re: ถ้าต่อไปเว็บ article ทำเป็น ajax เราก็ดึงเนื้อหากันไม่ได้แล้วสิครับ
เริ่มหัวข้อโดย: amaudy ที่ 24 ตุลาคม 2007, 01:25:23

ผมว่าตราบใด ที่ยังส่งเป็น plain text ยังไง ๆ ก็มีวิธีอยู่ดี

เรียกให้ถูกจุด ก็ได้ข้อมูล แถมเป็นข้อมูลเนื้อ ๆ ไม่ต้องไป Regex เอาพวกคำสั่ง HTML ออกอีก


หัวข้อ: Re: ถ้าต่อไปเว็บ article ทำเป็น ajax เราก็ดึงเนื้อหากันไม่ได้แล้วสิครับ
เริ่มหัวข้อโดย: tony ที่ 24 ตุลาคม 2007, 02:06:16
user-agent ปลอมได้ แต่ บุคลิก ของ browser และ bot แต่ละตัว มันมีอยู่

ถ้าจะปลอม แต่ปลอมไม่ครบ ก็เจอดักแหละ มันเป็นสิ่งที่ผมใช้ดัก สแปมอยู่ในปัจจุบัน ช่วยได้เยอะทีเดียว :-\


หัวข้อ: Re: ถ้าต่อไปเว็บ article ทำเป็น ajax เราก็ดึงเนื้อหากันไม่ได้แล้วสิครับ
เริ่มหัวข้อโดย: Tee++; ที่ 24 ตุลาคม 2007, 02:16:18
user-agent ปลอมได้ แต่ บุคลิก ของ browser และ bot แต่ละตัว มันมีอยู่

ถ้าจะปลอม แต่ปลอมไม่ครบ ก็เจอดักแหละ มันเป็นสิ่งที่ผมใช้ดัก สแปมอยู่ในปัจจุบัน ช่วยได้เยอะทีเดียว :-\

เอ้ย หายไปนาน นี่เพิ่งเห็นในรอบหลายเดือนเลยอ่ะ ไปไหนมา  :o


หัวข้อ: Re: ถ้าต่อไปเว็บ article ทำเป็น ajax เราก็ดึงเนื้อหากันไม่ได้แล้วสิครับ
เริ่มหัวข้อโดย: ล่า ที่ 24 ตุลาคม 2007, 07:48:34
โปกามเม่อคุยกันอ่ะเนาะ

มะรู้เรื่อง

แต่ที่รู้แน่ๆ คือ

โปกามเม่อของบอดเรานี่

ไม่เรียกว่าเทพก็ไม่รู้จะเรียกว่าอะไรแล้ว