Crawl là gì? Hiểu đúng về Google Web Crawler 2021

bởi | 13/08/2021 | SEO, Level B


Chắc hẳn khi tìm hiểu về SEO, bạn đã nghe/đọc về thuật ngữ crawl dữ liệu (crawl data), hạy gọi dân dã là “cào” dữ liệu. Đây là một quá trình quan trọng trong việc làm SEO. Vì thế chúng ta nếu đã làm SEO thì phải nắm rõ khái niệm và cách thức Web Crawler hoạt động, tức cách Bot Google cào nội dung trên website của chúng ta. Bài viết này sẽ giúp bạn nắm vững các kiến thức quan trọng về crawl dataweb crawler.

Crawl là gì?

Crawl là hoạt động thu thập dữ liệu (Crawl Data) của một công cụ nào đó nhắm đến những nguồn dữ liệu nhất định. Cách gọi dân dã là “cào” dữ liệu.

Nhiệm vụ chính của crawl là thu thập dữ liệu từ 1 nguồn bất kỳ nhằm phục vụ quá trình phân tích, đánh giá và lưu trữ dữ liệu về sau.

web crawler là gì

Việc thiết kế cấu trúc website (sitemap) tốt sẽ giúp crawler thu thập dữ liệu tốt hơn. 

Web crawler là gì?

Web crawler là công cụ để cào nội dung của các website trên toàn cõi internet. Web crawler còn gọi là Trình Thu Thập Thông Tin. Tên dân dã thì chúng ta hay gọi là bot (một con robot chuyên cào dữ liệu).

Chúng ta hay ví thế giới internet giống như một mạng nhện khổng lồ. Các đường tơ nhện chính là những liên kết nội bộ và liên kết ngoài của các website. Việc một con bot chạy qua chạy lại trên cái mạng nhện khổng lồ thông qua những liên kết làm chúng ta liên tưởng tới con nhện (spider). Vì thế, các loại web crawler còn có 1 cách gọi  khác là spider.

Xem thêm:

Các loại web crawler chính

Có rất nhiều web crawler, nhưng phổ biến nhất vẫn là những spider của những công cụ tìm kiếm lớn (search engine) như Google, Bing, Yahoo, Baidu, DuckDuckGo. Ngoài ra, những công cụ nghiên cứu thị trường, do thám đối thủ như Ahref, SemRush, Alexa, MOZ, Similarwebs cũng có những con bot hoạt động rất mạnh.

Cách spider cào website

Cách spider đọc nội dung

Không giống như con người chúng ta đọc nội dung trên giao diện. Các spider sẽ đọc nội dung trong bộ mã nguồn – bộ code HTML của web. Nó sẽ đọc bộ code này và lọc ra những nội dung nó cho là có giá trị.

Vì vậy, chúng ta cần làm cho bộ code thật tinh gọn, phù hợp với nguyên tắc của google để bot có thể đọc nội dung dễ dàng nhất.

cách bot đọc nội dung trên website

Đây là nơi bot đọc và thu thập dữ liệu website

Nguyên tắc cào nội dung của bot

Nguyên tắc cào thông tin của các web crawler hay spider là nó sẽ di chuyển theo các liên kết có trong nội dung để phát hiện và cào các loại nội dung mới.

Việc chúng ta chèn các liên kết nội bộ trong bài viết không chỉ giúp người đọc có thể đọc những nội dung liên quan, mà còn để spider chạy theo những liên kết đó mà cào dữ liệu.

Việc chúng ta đi outlink website khác hoặc website đặt backlink về website của chúng ta cũng giúp bot có thêm nguồn cào dữ liệu.

Xem thêm:

cách bot đi theo các link để tìm kiếm dữ liệu

Cách bot đi theo các link để tìm kiếm và cào dữ liệu

Cách để bot không cào một dung nào đó

Khi chúng đặt internal link hoặc đặt backlink ra ngoài website nhưng lại không muốn spider chạy theo những liên kết đó thì chúng ta sẽ cài thẻ nofollow cho link đó. Thẻ Nofollow cho bot biết rằng chúng ta không muốn bot tiếp tục cào những link đó.

Cách cài đặt nofollow cho url

Cách cài đặt thẻ nofollow cho URL trên WordPress

Robots.txt là gì?

Những loại bot của những công cụ uy tín thì phải theo luật bảo mật thông tin quốc tế. Tức là website phải cho phép bot được phép cào và thu thập dữ liệu thì bot mới được phép làm. File robots.txt chính là nơi chúng ta cho phép hoặc không cho phép cào dữ liệu.

Trong file Robots.txt này, chúng ta có thể cài đặt để cho phép bot được quyền cào toàn bộ website, hoặc cào những nhóm nội dung nhất định, hoặc không được cào bất kỳ nội dung nào.

Để xem file robot.txt, bạn lên thanh địa chỉ và gõ theo định dạng: “https://domain/robots.txt”

Ví dụ: https://abcdigi.marketing/robots.txt

file robots.txt của abcdigi

Đây là file robots.txt của ABCDigi.Marketing, file này được WordPress tạo ra tự động theo chuẩn mặc định. Tôi thấy không cần phải chỉnh sửa gì thêm. Nếu sau này tôi muốn chặn bot vào một số nội dung nào đó, tôi sẽ chỉnh sửa lại sau.

Khi bot vào một website, việc đầu tiên nó làm là đọc file Robots.txt này để biết nó được cào và thu thập những nội dung gì trên web.

Xem hướng dẫn cách tạo robots.txt của Google tại:

https://developers.google.com/search/docs/advanced/robots/create-robots-txt?hl=vi

Web crawler tác động như thế nào đến SEO

Crawl là một trong những hoạt động vô cùng quan trong SEO. Vì Google phải cào được dữ liệu thì nó mới phân tích, index (lập chỉ mục) và sếp hạng nội dung trên website của chúng ta. Nếu bot Google không cào được nội dung, thì chúng ta vĩnh viễn không xuất hiện trên Google.

Vì thế, một trong những việc rất quan trọng trước khi triển khai SEO đó là phải kiểm tra xem website của chúng ta có thân thiện với bot Google chưa. Bộ code đã tối ưu theo hướng dẫn của Google chưa, file robots.txt đã cấp quyền cho bot vào crawl dữ liệu chưa.

Bạn xem từ phút 6:40 để hiểu thêm về cách Google thu thập và xếp hạng nội dung.

Các sự thật về cách google crawl nội dung

Google có một bài test kiến thức về crawl data, từ bài test này, chúng ta sẽ hiểu rõ hơn cách bot Google hoạt động. Dưới đây là các câu trả lời của bài test đã được anh Nguyễn Đình Toản tổng hợp và chia sẻ trong Group Nghiện SEO.

Bạn có thể tham gia test tại:

https://developers.google.com/search/docs/advanced/crawling/large-site-managing-crawl-budget

Đây là những kiến thức có phần nâng cao, nặng tính kỹ thuật. Nếu bạn là người mới tìm hiểu về SEO, bạn chỉ nên đọc tham khảo, đừng đặt nặng vấn đề có hiểu hay không. Từ từ, sau khi làm SEO khoảng 1-2 năm, bạn sẽ hiểu được những thứ được nói ở dưới đây.

1. Nén sitemap có giúp tăng tần xuất cào của bot không?

Không. Google bot vẫn sẽ dò khắp server để tìm nạp sitemaps nên việc nén hay không nén cũng không khác nhau.

2. Việc cập nhật web liên tục sẽ giúp Bot cào nội dung nhiều hơn, giúp tăng khả năng lên top?

Sai. Google giải thích như sau: nội dung được xếp hạng dựa trên chất lượng chứ không phải thời gian mới hay cũ. Chỉ nên thay đổi hoặc cập nhật nội dung khi thật sự cần thiết. Việc cập nhật lại ngày đăng bài thì không có ý nghĩa gì với Google Bot.

Nếu bạn cập nhật nội dung bằng cách bổ sung thêm những nội dung giá trị, chứ không phải cập nhật theo kiểu đối phó thì sẽ giúp cải thiện thứ hạng.

3. Google ưu tiên nội dung cũ hơn nội dung mới?

Sai. Google quan tâm đến giá trị của nội dung, không phân biệt ngày tháng cũ mới. Nếu nội dung lâu năm nhưng vẫn có giá trị trong thực tiển thì vẫn có thể on top như thường.

4. Google ưu tiên thu thập các URL không có tham số hơn là các URL có chưa tham số?

URL chứa tham số rất hay gặp cho cùng 1 sản phẩm nhưng có nhiều kích thước, màu sắc.

Sai. Google Bot không thiên vị thằng nào cả. Tuy nhiên Google lưu ý là phải chặn việc thu thập các tham số để khỏi bị trùng lặp nội dung nha.

Xem thêm giải thích của Google tại đây:

https://support.google.com/webmasters/answer/6080548

5. Trang load càng nhanh thì bot cào càng nhanh?

Đúng. Vì Googel Bot cũng phải tải trang xong thì mới cào được, đơn giản là vậy. Tuy nhiên nếu như có nội dung hay, nội dung xịn thì dù cho có load chậm thì Bot vẫn cào nhiệt tình.

6. Web nhỏ không được bot ghé thăm thường xuyên như web lớn?

Sai. Nhỏ hay lớn không quan trọng, quan trọng là nội dung có chất lượng không, có nhiều nội dung được cập nhật thường xuyên hay không.

7. Nội dung càng gần trang chủ thì càng quan trọng?

Đúng một phần. Trang chủ thường là trang quan trọng nhất trên toàn bộ web. Vì thế, những nội dung mà được liên kết/đặt/để trực tiếp ở trang chủ thì sẽ được Google Bot xem là quan trọng và được cào thường xuyên hơn.

Tuy nhiên điều đó không có nghĩa là những thông tin này được xếp hạng cao hơn hoặc các trang khác bị đánh giá thấp hơn.

8. Tạo một phiên bản URL mới là cách tốt để khuyến khích Google Bot vào cào lại nội dung?

Đúng một phần. Việc bạn tạo ra một bản url mới, tức là thay đổi url cũ thành url mới, cũng là tín hiệu để Google Bot vào crawl lại thông tin thường xuyên hơn.

Tuy nhiên, điều này là không thực sự cần thiết. Bạn chỉ nên thay đổi URL khi nội dung của bạn hoàn toàn thay đổi. Còn nếu muốn thông báo về nội dung cập nhật mới cho Google thì hãy sử dụng thẻ <lastmod> trong sitemap.

9. Trang load chậm và có nhiều lỗi thì sẽ ảnh hưởng tới việc cào thông tin của bot?

Đúng. Tương tự như điều số (5). Để kiểm soát các lỗi thì Google khuyên hãy đọc phần Crawl Stats Report trong Search Console.

10. Cào thông tin là một tiêu chí để SEO nhanh lên top?

Sai. Web được bot vào cào thường xuyên hoặc web được bot cào nhanh không có nghĩa là sẽ lên top. Việc cào thông tin không phải là tiêu chí xếp hạng SEO của Google.

Tuy nhiên, nếu Google bot không cào được thông tin từ website của bạn thì bạn mãi mãi không thể lên top. Tuy không phải là tiêu chí xếp hạng, nhưng crawl là bước đầu tiên để Google thu thập dữ liệu và xếp hạng.

11. Google bot thu thập cả các Alternate URL và nội dung được nhúng vào website?

Đúng. Google bot là cỗ máy ăn tạp và nó sẽ cào tất cả mọi thứ trên trang nếu được cho phép. Vì vậy, chúng ta cần xác định đâu là các thông tin muốn Googlebot cào và ngược lại.

12. Có thể kiểm soát Google bot với lệnh “Crawl-delay”?

Sai. Google bot không xử lý/can thiệp vào lệnh non-standard “crawl-delay” trong file robots.txt.

13. Lệnh Nofollow ảnh hưởng đến việc cào thông tin của bot?

Đúng một phần. Nếu Google bot đến web của bạn cào và gặp URL có lệnh “nofollow” thì nó sẽ không cào URL đó. Tuy nhiên nếu bot bắt gặp URL đó ở một trang khác trong web của bạn hoặc ở một website nào đó mà không đánh dấu “nofollow” thì nó vẫn sẽ vô cào như thường.

Lời kết

Chúng ta có thể thấy rằng website crawler, chính xác là Google bot là một nhân tố quan trọng trong quá trình làm SEO. Nếu chúng ta không đáp ứng các yêu cầu về kỹ thuật web để bot có thể cào và thu thập dữ liệu dễ dàng, thì chúng ta có khả năng không bao giờ xuất hiện trên Google. Vì thế, trước khi triển khai SEO, bạn (hoặc yêu cầu bộ phận kỹ thuật) phải kiểm tra kỹ lưỡng phần này.

Xem thêm: 9 Nơi Có Thể Làm SEO Hiệu Quả Ngoài Website

Bài viết này có hữu ích với bạn không? Hãy cho tôi biết đánh giá của bạn nhé!
[Tổng: 5 Trung bình: 5]

Nhận Thông Báo Nội Dung Mới 

ABC Digi xuất bản nội dung mới hàng tuần, chúng tôi sẽ cập nhật cho bạn qua email 1 lần/tuần. Hoàn toàn miễn phí. Hãy điền thông tin để nhận thông báo.

Nếu bạn bất kỳ câu hỏi hay góp ý nào, bạn hãy bình luận bên dưới, hoặc bạn có thể vào Group FB Tự Học Content và Digital Marketing của ABC Digi để thảo luận các vấn đề về Digital Marketing.

0 Lời bình

Gửi Lời bình

Email của bạn sẽ không được hiển thị công khai. Các trường bắt buộc được đánh dấu *