Bài viết này được dịch dựa trên bài How Google Works của Matt Cutts, một nhân viên kĩ thuật nổi tiếng của Google.

Index và Spider ?

Trước tiên, bạn nên biết rằng, tất cả kết quả tìm kiếm mà bạn tìm được thực ra chỉ là những trang mà google đã index (đánh chỉ mục). Nói nôm na, đó là những trang đã được các spider của google ghé qua, đóng dấu và lưu vào một thư viện khổng lồ. Các spider hoạt động như những con nhện (theo nghĩa đen), từ trang web này, bạn trỏ qua các trang webs khác, spider đi theo liên kết và ghé qua các trang mà bạn trỏ đến, cứ thế và spider ghé qua từng trang trên mạng lưới liên kết, đánh dấu chúng và ta gọi là index. Các kết quả trong trang kết quả tìm kiếm SERP là những trang được lấy tự thư viện các trang mà spider đã index, dựa trên thẻ title, meta tags, nội dung trên trang, các kết quả này được liệt kê theo độ tin cậy và mức độ liên quan giữa nội dung trang và keyword tìm kiếm.

Caffeine, hệ đánh chỉ mục mới của Google

Mới đây, theo Google webmaster central, google đã hoàn thành hệ thống đánh chỉ mục mới có tên là Caffeine.

Vào thời điểm viết bài này, chúng ta không đếm được số trang mới đang và được hình thành, số video và ảnh mới xuất hiện trên internet, lưu lượng này khiến chúng ta chóng mặt, như sử dụng chất kích thích caffeine. Các trang trên internet ngày càng mở rộng, nội dung của chúng ngày càng phức tạp và nhu cầu thông tin của con người đòi hỏi google phải cập nhật những thông tin nhanh nhất, những webmaster thì luôn mong thông tin của họ được đăng tải trên các bộ máy tìm kiếm nhanh nhất, bằng việc index từng trang vào thư viện và xuất ra như đã nói ở trên quả là quá ngơp đối với các spider, quá chậm đối với người sử dụng. Vì lẽ đó, caffeine của google ra đời.

Caffeine, công cụ đánh chỉ mục mới của Google

Caffeine, công cụ đánh chỉ mục mới của Google

Với hệ thống cũ, trang web sau khi được spider ghé qua sẽ mất ít nhất là vài ngày để index đầy đủ nội dung và lâu hơn chút để có mặt trên SERP, với caffeine thì khác, spider sau khi ghé qua web sẽ đánh dấu liền với các mảng nhỏ nội dung và đưa vào Search index, sau đó được cập nhật liên tục. Điều đó có nghĩa là nội dung trên trang web sẽ được cập nhật ngay tắp lự (với điều kiện spider ghé qua!)

Caffeine cho phép google index lưu lượng trang trên một mang lưới khổng lồ mà trên thực tế, caffeine xử lí song song hàng trăm nghìn trang (vâng, là hundreds of thousands!), nếu xếp các trang này ra giấy và chồng lên thì bạn sẽ được một cột giấy cao đến 3 dặm (khoảng 5km), mỗi giây nhé !. Caffeine có lưu lượng lên đến 100.000.000 gigabytes (8 số 0) với tốc độ cập nhật lên đến hàng trăm ngàn gigabytes mỗi ngày ! Để lưu trữ lượng thông tin này, bạn sẽ cần đến 625 ngàn chiếc IPOD !

Caffeine không chỉ được xây dựng để cập nhật hệ thống index cũ, nó còn là tầm nhìn về việc phát triển và chạy theo sự phát triển mạnh mẽ của internet trong tương lai và vì vậy, hãy đợi và xem sự cải thiện của bộ máy tìm kiếm google trong vài tháng tới !

Bài viết bởi Carrie Grimes, Kĩ sư phần mềm của Google.

Dịch bởi SOIS