crawling là gì

Nếu chúng ta đang được vướng mắc Google bằng phương pháp này hoàn toàn có thể nắm chắc nội dung bên trên Website của người sử dụng. Hãy nằm trong NAVEE lần hiểu định nghĩa Crawling là gì?

SEO là 1 trong nghành nghề vô cùng to lớn và nhằm hiểu không còn về nó, chúng ta nên biết một vài thuật ngữ cơ phiên bản. Crawling là 1 trong trong mỗi định nghĩa cơ phiên bản nhất tuy nhiên chúng ta nên lần hiểu Khi thực hiện SEO. Vậy Crawling là gì? Bài ghi chép tiếp sau đây tiếp tục mang lại câu vấn đáp cụ thể dành riêng cho chính mình.

Bạn đang xem: crawling là gì

Crawling (thu thập thông tin) là quy trình mày mò vô cơ những khí cụ lần tìm tòi gửi đi ra một group Googlebot (được gọi là trình tích lũy vấn đề hoặc trình tích lũy dữ liệu) nhằm lần nội dung mới mẻ và update. Nội dung hoàn toàn có thể không giống nhau – cơ hoàn toàn có thể là trang web, hình hình họa, đoạn Clip, PDF,… tuy nhiên bất kể định hình này, nội dung đa số được vạc hiện nay bởi vì những links.

Crawling là quy trình tích lũy tài liệu bên trên Website được triển khai bởi vì group Googlebot
Crawling là quy trình tích lũy tài liệu bên trên Website được triển khai bởi vì group Googlebot

Googlebot chính thức bằng phương pháp lần hấp thụ một vài ba trang Web và tiếp sau đó bám theo những links bên trên những trang Web cơ nhằm lần URL mới mẻ. phẳng phiu sử dụng phương pháp này, trình tích lũy vấn đề hoàn toàn có thể nhìn thấy nội dung mới mẻ và tăng nó vô chỉ mục của mình mang tên là Caffeine. Đây được nghe biết là 1 trong hạ tầng tài liệu rộng lớn về những URL được vạc hiện nay trải qua những links và được lần tìm tòi bởi vì người tiêu dùng.

Làm thế này nhằm tối ưu quy trình khí cụ lần tìm tòi Crawling trang Web của bạn?

Để tối ưu quy trình Crawling, trước tiên cần thiết kiểm tra đồ vật thị Crawling của Google đi ra sao.

Nhấn vào trong dòng “Please select a property” nhằm coi được chỉ số Crawling của trang Web.

Chọn Website nhằm tổ chức phân tích
Chọn Website nhằm tổ chức phân tích

Từ phía trên, hoàn toàn có thể đánh giá và nhận định được gia tốc Crawling của Google so với Website của người sử dụng. Qua cơ, canh ty thể hiện những biện pháp tương thích nhằm nâng cấp yếu tố này.

Đồ thị Crawling những trang trong một Website
Đồ thị Crawling những trang trong một Website

Cụ thể, hoàn toàn có thể liệt kê một vài cách thức canh ty Google tăng gia tốc Crawling những trang nội dung vô Website:

  • Cập nhật nội dung mới mẻ, unique thông thường xuyên.
  • Tối ưu vận tốc chuyên chở trang.
  • Đính kèm cặp tăng tệp tin Sitemap.xml.
  • Cải thiện vận tốc phản hồi kể từ Server bên dưới 200ms, bám theo Google.
  • Xóa vứt những nội dung trùng lặp bên trên Website.
  • Chặn Googlebot quét dọn những trang ko quan trọng vô tệp tin Robots.txt.
  • Tối ưu hình hình họa và đoạn Clip (nếu có).
  • Tối ưu cấu hình liên kết nội cỗ, dùng những Backlink unique sụp về.

Cách nhằm ngăn Google Crawling những tài liệu ko cần thiết bên trên Website

Hầu không còn người xem suy nghĩ về sự việc đáp ứng Google hoàn toàn có thể nhìn thấy những trang cần thiết của mình. Nhưng lại quên thất lạc rằng sở hữu những trang chúng ta không thích Googlebot nhìn thấy.

Những trang này hoàn toàn có thể bao hàm những loại như:

  • URL cũ sở hữu nội dung mỏng dính.
  • URL trùng lặp (chẳng hạn như thông số bố trí và cỗ thanh lọc mang lại thương nghiệp năng lượng điện tử).
  • Trang mã lăng xê đặc trưng.
  • Trang dàn dựng hoặc test nghiệm.

Dưới đấy là một vài cơ hội giúp đỡ bạn ngăn Google Crawling tài liệu ko cần thiết Website của người sử dụng.

Sử dụng Robots.txt

Để phía Googlebot thoát khỏi những trang và phần chắc chắn bên trên trang web của người sử dụng, hãy dùng Robots.txt.

Robots.txt là gì?

Các tệp Robots.txt được bịa vô folder gốc của những trang web (ví dụ: yourdomain.com/robots.txt). Tệp này canh ty lời khuyên phần này vô khí cụ lần tìm tòi trang web của người sử dụng nên và tránh việc tích lũy tài liệu, rưa rứa vận tốc bọn chúng tích lũy tài liệu trang web của người sử dụng , trải qua những thông tư ví dụ bên trên tệp tin Robots.txt.

Tệp Robots.txt canh ty điều phối Googlebot
Tệp Robots.txt canh ty điều phối Googlebot

Cách Googlebot xử lý tệp Robots.txt

  • Nếu Googlebot ko thể nhìn thấy tệp Robots.txt cho 1 trang web, nó sẽ bị tổ chức tích lũy tài liệu trang web.
  • Nếu Googlebot nhìn thấy tệp Robots.txt cho 1 trang web, nó thông thường tiếp tục tuân bám theo những lời khuyên và tổ chức tích lũy tài liệu trang web.
  • Nếu Googlebot bắt gặp lỗi trong những lúc nỗ lực truy vấn tệp Robots.txt của trang web và ko thể xác lập coi sở hữu tồn bên trên hay là không, nó sẽ không còn tích lũy tài liệu trang web.

Tối ưu hóa mang lại ngân sách thu thập

Ngân sách tích lũy (Crawl Budget) ở đấy là con số URL tầm Googlebot tiếp tục tích lũy tài liệu bên trên trang web của người sử dụng trước lúc tách ngoài.

Tính năng coi Crawl Budget vô Google Search Console
Tính năng coi Crawl Budget vô Google Search Console

Vì vậy, nhằm tối ưu hóa quy trình Crawling, hãy đáp ứng rằng:

  • Googlebot ko quét dọn những trang ko cần thiết và sở hữu nguy cơ tiềm ẩn bỏ lỡ những trang cần thiết của người sử dụng.
  • Chặn trình tích lũy vấn đề truy vấn nội dung tuy nhiên chúng ta chắc chắn là ko cần thiết.
  • Không ngăn quyền truy vấn của trình tích lũy vấn đề vô những trang chúng ta vẫn tăng những thông tư không giống, ví dụ như thẻ “Canonical” hoặc “Noindex”.

Cần cảnh báo rằng, nếu như Googlebot bị ngăn từ là 1 trang, nó sẽ không còn thể coi chỉ dẫn bên trên trang links không giống.

Tuy nhiên, ko cần toàn bộ những Robot Web đều tuân bám theo thông tư vô tệp tin Robots.txt. Trên thực tiễn, việc bịa địa điểm của những URL cơ vô tệp Robots.txt hoàn toàn có thể công khai minh bạch những nội dung riêng biệt của Website. Điều này cũng Tức là những người dân sở hữu dự định xấu xa hoàn toàn có thể dễ dàng và đơn giản nhìn thấy bọn chúng rộng lớn.

Thế nên, đảm bảo chất lượng rộng lớn không còn là “Noindex” những trang này và đặt nó sau đó 1 biểu khuôn mẫu singin thay cho vô tệp Robots.txt của người sử dụng.

Xác ấn định thông số URL vô Google Search Console

Một số Website (phổ biến đổi nhất với thương nghiệp năng lượng điện tử) cung ứng và một nội dung trên rất nhiều URL không giống nhau bằng phương pháp nối tăng những thông số chắc chắn vô URL. Điển hình là dùng những cỗ thanh lọc.

Ví dụ: bạn cũng có thể lần tìm tòi những giầy thể thao bên trên Shopee, tiếp sau đó tinh ranh chỉnh lần tìm tòi của người sử dụng mẫu mã, điểm cung ứng… Mỗi lượt chúng ta tinh ranh chỉnh, URL tiếp tục thay cho thay đổi một chút:

Thông số về hiệu suát tổng quan tiền vô Google Search Console
Thông số về hiệu suát tổng quan tiền vô Google Search Console

Làm cơ hội này Google biết phiên phiên bản URL này tiếp tục đáp ứng cho tất cả những người lần kiếm?

Google triển khai việc làm tương đối tốt Khi tự động bản thân lần đi ra URL chủ yếu. Nhưng bạn cũng có thể dùng tính năng Thông số URL vô Google Search Console khiến cho Google biết đúng chuẩn cơ hội mình thích chúng ta xử sự với những trang của tớ.

Nếu chúng ta dùng công dụng này nhằm báo mang lại Googlebot, tích lũy tài liệu không tồn tại URL này sở hữu thông số, thì về cơ phiên bản, chúng ta đang yêu thương cầu ẩn nội dung này ngoài Googlebot. Vấn đề này hoàn toàn có thể dẫn theo việc xóa những trang cơ ngoài thành phẩm lần lần. Đó là tất cả những gì mình thích nếu như những thông số cơ tạo nên những trang trùng lặp, tuy nhiên ko hoàn hảo nếu như mình thích những trang này được lập chỉ mục.

Cách nhằm Google Crawling toàn bộ nội dung cần thiết của bạn

Bây giờ chúng ta vẫn biết một vài phương án nhằm đáp ứng trình tích lũy khí cụ lần tìm tòi rời xa nội dung ko cần thiết của người sử dụng. Hãy lần hiểu về phong thái tối ưu hóa hoàn toàn có thể canh ty Googlebot nhìn thấy những trang cần thiết của người sử dụng.

Xem thêm: own up là gì

Đôi Khi một khí cụ lần tìm tòi tiếp tục hoàn toàn có thể nhìn thấy những phần của trang web của người sử dụng bằng phương pháp tích lũy vấn đề. Nhưng những trang hoặc phần không giống hoàn toàn có thể bị thua cuộc vì thế nguyên nhân này hoặc nguyên nhân không giống. Điều cần thiết là đảm nói rằng những khí cụ lần tìm tòi hoàn toàn có thể mày mò toàn bộ nội dung mình thích lập chỉ mục và không chỉ có trang chủ của người sử dụng.

Hãy tự động chất vấn bản thân điều này: Googlebot hoàn toàn có thể Crawl trang Web của người sử dụng không?

Nếu chúng ta đòi hỏi người tiêu dùng singin, điền vô biểu khuôn mẫu hoặc vấn đáp tham khảo trước lúc truy vấn một vài nội dung chắc chắn, những khí cụ lần tìm tòi sẽ không còn thấy những trang được đảm bảo an toàn cơ. Một trình tích lũy vấn đề chắc chắn là sẽ không còn singin.

Bạn sở hữu đang được nhờ vào những kiểu dáng lần kiếm?

Googlebot tiếp tục bắt gặp trở ngại Khi quét dọn tài liệu vì thế những kiểu dáng lần lần. Một số cá thể tin yêu rằng nếu như chúng ta bịa Search Box bên trên trang Web của mình, khí cụ lần tìm tòi tiếp tục hoàn toàn có thể nhìn thấy tất cả tuy nhiên khách hàng truy vấn của mình lần lần. Tuy nhiên điều này hoàn toàn có thể ngăn việc Googlebot tích lũy tài liệu bên trên trang Web. Vì vậy hãy lưu ý đến kỹ lưỡng trọng việc setup Search Box vô Website.

Hidden Text truyền đạt nội dung qua chuyện phi văn bản

Không nên dùng những kiểu dáng nhiều phương tiện đi lại (hình hình họa, đoạn Clip, GIF,…) nhằm hiển thị văn phiên bản tuy nhiên mình thích được lập chỉ mục. Mặc mặc dù những khí cụ lần tìm tòi đang được trở thành đảm bảo chất lượng rộng lớn trong những công việc nhận hình trạng hình họa, tuy nhiên không tồn tại gì đáp ứng chúng ta tiếp tục hoàn toàn có thể phát âm và hiểu nó. Thế nên, cực tốt là tăng văn phiên bản vô phần lưu lại <HTML> của trang Web của người sử dụng.

Công cụ lần tìm tòi hoàn toàn có thể bám theo dõi điều phối trang web của bạn?

Googlebot mày mò trang Web trải qua những Backlink kể từ những trang Web không giống trỏ về hoặc khối hệ thống Internal Link của những trang bên trên tổng thể Website.

Nếu bạn đã sở hữu một trang tuy nhiên mình thích những khí cụ lần tìm kiếm thấy tuy nhiên nó ko được links tới từ ngẫu nhiên trang này không giống, thì nó gần như là vô hình dung. Dường như, một vài Website vướng sai lầm không mong muốn nguy hiểm trong những công việc cấu hình điều phối của mình bám theo những cơ hội ko thể tiếp cận với những khí cụ lần lần. Điều cơ thực hiện cản ngăn kỹ năng được liệt kê vô thành phẩm lần lần.

Các lỗi điều phối phổ cập khiến cho Googlebot ko phát hiện ra trang Web của bạn

Đây là nguyên nhân tại vì sao trang web của người sử dụng sở hữu điều phối nên rõ rệt và cấu hình folder URL hữu ích:

  • Không hệt nhau điều phối bên trên Mobile và điều phối bên trên Desktop.
  • Bất kỳ loại điều phối này vô cơ những mục thực đơn không tồn tại vô HTML, ví dụ như điều phối tương hỗ JavaScript. Google vẫn tích lũy vấn đề đảm bảo chất lượng rộng lớn và hiểu Javascript, tuy nhiên phía trên vẫn chưa hẳn là 1 trong tiến độ hoàn hảo và tuyệt vời nhất. Cách chắc thêm nhằm đáp ứng một chiếc gì này được nhìn thấy, hiểu và lập chỉ mục bởi vì Google là bằng phương pháp trả nó vô HTML.
  • Cá nhân hóa, hoặc hiển thị điều phối có một không hai cho 1 loại khách hàng truy vấn ví dụ đối với những visitor không giống. Việc này đó là đang được lấp giấu quanh trình tích lũy khí cụ lần lần.
  • Không links cho tới một trang chủ yếu bên trên trang web.

Trang Web không tồn tại cấu hình vấn đề rõ rệt ràng

Cấu trúc vấn đề là quản lý và điều hành và dán nhãn nội dung bên trên một trang web nhằm nâng cấp hiệu suất cao và kỹ năng lần tìm tòi cho tất cả những người sử dụng. Thế nên, bản vẽ xây dựng vấn đề rất cần được trực quan tiền, canh ty người tiêu dùng ko mất quá nhiều thời hạn nhằm lần tìm tòi một chiếc gì cơ.

Không dùng tệp tin Sitemap.xml

Sitemap (Sơ đồ vật trang web) tương tự một list những URL bên trên trang web của người sử dụng tuy nhiên trình tích lũy vấn đề hoàn toàn có thể dùng nhằm mày mò và lập chỉ mục nội dung của người sử dụng.

Một trong mỗi cơ hội giản dị nhất nhằm đáp ứng Google nhìn thấy những trang ưu tiên tối đa của người sử dụng là tạo nên một tệp Sitemap.xml thỏa mãn nhu cầu những chi chuẩn chỉnh của Google và gửi nó trải qua Google Search Console. Việc này canh ty trình tích lũy vấn đề bám theo một lối dẫn theo toàn bộ những trang cần thiết của người sử dụng.

Lưu ý Khi dùng tệp tin Sitemap.xml

Khi dùng tệp tin Sitemap.xml, cần thiết đáp ứng rằng:

  • Chỉ bao hàm những URL tuy nhiên mình thích được khí cụ lần tìm tòi lập chỉ mục.
  • Không khai báo URL vô sơ đồ vật trang web nếu như vẫn ngăn URL cơ qua chuyện tệp Robots.txt.
  • Không khai báo những URL trùng lặp.

Ngoài đi ra, nếu như một Website không tồn tại ngẫu nhiên trang web này không giống links, chúng ta vẫn hoàn toàn có thể lập chỉ mục mang lại nó bằng phương pháp gửi tệp tin Sitmap.xml vô Google Search Console.

Các trình tích lũy vấn đề sở hữu bị lỗi Khi chúng ta cố truy vấn URL của người sử dụng không?

Trong quy trình tích lũy tài liệu URL bên trên trang web của người sử dụng, trình tích lũy vấn đề hoàn toàn có thể bắt gặp lỗi. quý khách hàng hoàn toàn có thể truy vấn report “Crawl Errors” của Google Search Console nhằm vạc hiện nay những URL hoàn toàn có thể đang được xẩy ra. Báo cáo này tiếp tục hiển thị cho chính mình những lỗi sever và không kiếm thấy lỗi. Các tệp nhật ký sever cũng hoàn toàn có thể cho chính mình thấy điều này cùng theo với vấn đề khác ví như tần số tích lũy tài liệu, tuy nhiên vì thế việc truy vấn và phẫu thuật những tệp nhật ký sever là 1 trong phương án nâng cao hơn nữa.

Mã 4xx: Khi trình tích lũy khí cụ lần tìm tòi ko thể truy vấn nội dung của người sử dụng tự lỗi máy khách

Lỗi 4xx là lỗi máy khách hàng. Nghĩa là URL được đòi hỏi chứa chấp cú pháp sai hoặc ko thể triển khai được. Một trong mỗi lỗi 4xx phổ cập nhất là lỗi 404. Những điều này hoàn toàn có thể xẩy ra tự lỗi chủ yếu mô tả URL, chuẩn bị xóa hoặc chuyển làn bị lỗi.

Khi những khí cụ lần tìm tòi đạt 404, chúng ta ko thể truy vấn URL. Khi người tiêu dùng đạt 404, chúng ta hoàn toàn có thể tuyệt vọng và tách lên đường.

Mã 5xx: Khi trình thu nhập khí cụ lần tìm tòi ko thể truy vấn nội dung của người sử dụng tự lỗi máy chủ

Lỗi 5xx là lỗi sever, tức thị sever của trang web bị lỗi ko thể thỏa mãn nhu cầu đòi hỏi của những người lần tìm tòi hoặc khí cụ lần tìm tòi nhằm truy vấn trang. Trong report Lỗi tích lũy tài liệu của Google Search Console, sở hữu một tab thích hợp cho những lỗi này. Vấn đề này thông thường xẩy ra vì thế đòi hỏi URL đã không còn thời hạn, chính vì thế Googlebot vẫn kể từ vứt đòi hỏi.

Hướng giải quyết

Có một phương pháp để rằng với toàn bộ cơ thể lần tìm tòi và khí cụ lần tìm tòi rằng trang của người sử dụng vẫn dịch chuyển – chuyển làn 301 (vĩnh viễn).

Giả sử chúng ta trả một trang từ: example.com/young-dogs/ lịch sự example.com/puppies/

Công cụ lần tìm tòi và người tiêu dùng cần thiết một links nhằm trả kể từ URL cũ lịch sự URL mới mẻ. Liên kết cơ là 1 trong chuyển làn 301.

Mã hiện trạng 301 Tức là trang Web vẫn dịch chuyển vĩnh viễn cho tới một địa điểm mới mẻ. Do cơ, rời chuyển làn URL cho tới những trang ko tương quan – URL điểm nội dung của URL cũ ko thực sự tồn bên trên. Nếu một trang đang được xếp thứ hạng cho 1 truy vấn và chúng ta 301 nó cho tới một URL sở hữu nội dung không giống. Nó hoàn toàn có thể rớt vào địa điểm xếp thứ hạng vì thế nội dung khiến cho nó tương quan cho tới truy vấn ví dụ cơ không hề nữa.

Xem thêm: penetration là gì

Ảnh tận hưởng Khi Redirect 301 và ko triển khai Redirect 301


Khi chúng ta triển khai 301Khi chúng ta ko triển khai 301
Link EquityChuyển vốn liếng công ty chiếm hữu links từ vựng trí cũ của trang lịch sự URL mớiNếu không tồn tại 301, quyền hạn kể từ URL trước cơ sẽ không còn được trả lịch sự phiên phiên bản mới mẻ của URL

Indexing (lập chỉ mục) 
Giúp Google lần và lập chỉ mục phiên phiên bản mới mẻ của trang  Chỉ riêng rẽ sự hiện hữu của lỗi 404 bên trên trang web của người sử dụng không khiến kiêng dè mang lại hiệu suất lần lần, tuy nhiên khiến cho xếp hạng/tương tác trang 404 hoàn toàn có thể bị nockout thoát khỏi chỉ mục, với loại hạng và lưu lượt truy vấn lên đường nằm trong cùng theo với loại hạng và lượng tương tác 
Kinh nghiệm người dùngĐảm bảo người tiêu dùng nhìn thấy trang chúng ta đang được lần kiếmCho quy tắc visitor nhấp vô links lỗi, tiếp tục trả chúng ta cho tới những trang lỗi thay cho trang dự tính. Vấn đề này hoàn toàn có thể tạo nên khó khăn chịu

Bạn cũng đều có tùy lựa chọn 302 nhằm chuyển làn một trang. Nhưng điều này nên được thích hợp cho những dịch chuyển trong thời điểm tạm thời và vô tình huống trả kí thác vốn liếng links ko cần là yếu tố xứng đáng băn khoăn quan ngại.

Kết luận

Trên đấy là những vấn đề cụ thể về định nghĩa Crawling là gì và cơ hội tối ưu quy trình Google tích lũy tài liệu bên trên Website. Vốn vô cùng cần thiết với những công ty cung ứng dịch vụ SEO.

Khi chúng ta vẫn đáp ứng trang web của tớ được tối ưu hóa mang lại quy trình Crawling tài liệu, việc tiếp sau của công ty là đáp ứng nó hoàn toàn có thể được lập chỉ mục (Indexing). Hãy bám theo dõi nội dung bài viết tiếp sau của NAVEE nhằm nằm trong tìm hiểu về Indexing nhé!