robots.txt คือ ไฟล์ที่บอกให้โปรแกรมค้นหาข้อมูลหรือ Search Engine เช่น Google, Bing, Yahoo มาเก็บข้อมูลในหน้าเว็บไซต์ของเรา ซึ่งในทางปฏิบัติแล้ว Search Engine จะเก็บทุกส่วน ทุกหน้าเว็บของเว็บไซต์ หากไม่ต้องการให้เรียกเก็บข้อมูลในส่วนไหน เราก็สามารถป้องกันได้ ด้วยไฟล์ robots.txt นี้เอง มาติดตาม ที่ SEOTrending.com ได้เลย

robots.txt คือ ทุกคนสามารถเข้ามาดูได้ ว่าในเว็บไซต์กำหนดอะไรไว้ บางครั้งก็เหมือนดาบสองคม เพราะเข้าถึงละรู้ directory ที่ไม่การต้องใครรู้ได้เหมือนกัน

โรบอต (Robot) เป็นโปรแกรมเก็บข้อมูลในอินเตอร์เน็ต บางครั้งอาจจะเรียกว่าสไปเดอร์ (Spider) หรือ ครอว์เลอร์(Crawler) จะทําหน้าที่รวบรวมไฟล์ HTML เพื่อมาเป็นข้อมูล สําหรับสร้างดัชนีค้นหา และโรบอต (Robot) จะกลับมาที่เว็บไซต์ที่อ่านไปแล้วอีกครั้ง เพื่อตรวจสอบ การเปลี่ยนแปลง ตามระยะเวลาที่กําหนด

robots.txt คือ

เหตุผลที่เราควรสร้างไฟล์ robots.txt

สำหรับนักพัฒนาเว็บไซต์โดยทั่วไป เมื่อเราพัฒนาเว็บไซต์ในขั้นตอนของการพัฒนา ( development ) ก่อนที่จะนำขึ้นใช้งานจริง ( production ) อาจจะต้องรักษาข้อมูลทั้งหมดในเว็บไซต์ให้เป็นความลับ เราอาจจะคิดว่าสร้างเว็บไซต์และเก็บไว้ใน sub directory คงไม่ใครรู้ ถ้าไม่ได้ส่งให้ใคร แต่ในความเป็นจริง Web Robots ได้เก็บข้อมูลเว็บไซต์ของเราไปแล้ว และถ้าเราลองพิมพ์คำสั่ง site:www.your-domain.com ใน address bar ของเว็บเบราว์เซอร์ จะเห็นว่ามีรายการเว็บไซต์ที่เป็นความลับอยู่ในลิสต์รายการด้วย

รายละเอียดการเก็บข้อมูลของบอทกำหนด

ข้อมูลบางอย่างบนเว็บไซต์เราบางอย่างอาจเป็นความลับหรือไม่ต้องการให้บอทเก็บข้อมูลไป เราก็สามารถกำหนดรายละเอียดบอกบอทได้ครับ โดยการกำหนดไว้อยู่ในไฟล์ robots.txt ซึ่งไฟล์นี้บอทจะเข้ามาตรวจสอบก่อนเป็นอันดับแรกว่าเรากำหนดรายละเอียดเอียดอะไรไว้บ้าง

robots.txt คือ

User-Agent: *
Allow: /
Sitemap: http://yourdomain.com/sitemap.xml

จากรายละเอียดด้านบนอธิบายได้ว่า

User-Agent: * — คือการกำหนดว่า Bot ของ Search Engine ทุกตัวไม่ว่าจะเป็น Google, Yahoo, Bing สามารถเก็บข้อมูลของเว็บไซต์เราได้

Allow: / — คือการกำหนดให้ Bot สามารถเก็บข้อมูลได้ทุกหน้าเว็บเพจ

Sitemap: url — กำหนดที่อยู่ของ sitemap ให้ robots รู้