Google 悄悄更新了他們的 Google 搜索中心文檔,指出他們現在正在為 .csv 文件建立索引。這開辟了一種新的爬網方式,或者如果發布商不希望其 .csv 文件被爬網,則可能意味著需要更新 robots.txt 以排除這些文件。

      CSV

      CSV文件是以表格格式保存數據的文本文件,可以顯示為電子表格。CSV文件包含純文本數據,這意味著 CSV 文件不包含字體等樣式元素,也不包含圖像或鏈接。它們對于執行一些操作非常有用,例如上傳 URL 列表以供爬行到 Screaming Frog 等軟件。但它們對于組織電子表格中的數據也很有用。

      CSV 文件索引是新功能

      Google 索引 CSV 文件的能力是一項新功能,因為在 Google 上搜索 CSV 文件的“文件類型”當前不會返回 CSV 文件。

      目前,如下搜索不會返回 CSV 文件:

      • Filetype:csv site:.gov

      • Filetype:csv site:.edu

      • Filetype:csv site:.com

      Google 已經間接使用了 CSV 文件

      Google 的數據集搜索外觀已經使用了 CSV 文件,但顯然僅在使用結構化數據進行描述時才使用。Google 舊開發人員文檔中的數據集結構化數據文檔(可在 Archive.org 上查看)指出,CSV 文件是出現在數據集搜索功能中的可接受標準。使用表格數據作為搜索外觀可以追溯到 2018 年,當時谷歌宣布,當數據包含結構化數據時,他們將在搜索中顯示此類數據。

      根據原始文檔:

      “Datasets are easier to find when you provide supporting information such as their name, description, creator and distribution formats are provided as structured data…“當您提供支持信息(例如數據集的名稱、描述、創建者和分發格式)作為結構化數據提供時,更容易找到數據集......

      Here are some examples of what can qualify as a dataset:以下是一些符合數據集資格的示例:

      • A table or a CSV file with some data包含一些數據的表格或 CSV 文件

      • An organized collection of tables有組織的表格集合

      • A file in a proprietary format that contains data包含數據的專有格式的文件

      • A collection of files that together constitute some meaningful dataset共同構成一些有意義的數據集的文件集合

      • A structured object with data in some other format that you might want to load into a special tool for processing包含其他格式數據的結構化對象,您可能希望將其加載到特殊工具中進行處理

      • Images capturing data圖像捕獲數據

      • Files relating to machine learning, such as trained parameters or neural network structure definitions與機器學習相關的文件,例如訓練參數或神經網絡結構定義

      • Anything that looks like a dataset to you”?任何對你來說看起來像數據集的東西

      Google 在 2022 年更新了上述文檔,并將其重定向到新的搜索中心文檔。更新后的文檔更清楚地表明,Google 依賴結構化數據在其數據集搜索外觀中使用 CSV 文件。但這一變化是否意味著 Google 最終將抓取 CSV 文件并將其用于搜索外觀(除了結構化數據中標注的表格數據)?

      這就是當前文檔的解釋:

      “Datasets are easier to find when you provide supporting information such as their name, description, creator and distribution formats as structured data.“當您以結構化數據的形式提供支持信息(例如數據集的名稱、描述、創建者和分發格式)時,更容易找到數據集。

      Google’s approach to dataset discovery makes use of schema.org and other metadata standards that can be added to pages that describe datasets…Google 的數據集發現方法利用了 schema.org 和其他元數據標準,這些標準可以添加到描述數據集的頁面中......

      Here are some examples of what can qualify as a dataset:以下是一些符合數據集資格的示例:

      A table or a CSV file with some data…”包含一些數據的表格或 CSV 文件……”

      Google 索引 CSV 與最近更新相關嗎?

      核心算法更新的定義是谷歌對其核心算法進行“重大”和“廣泛的改變”。CSV 文件的索引和核心算法的更新幾乎同時發生,這可能是一個巧合。但值得考慮的是,Google 是否改進了其抓取引擎,使其能夠索引 CSV。


      整理翻譯作品,原作者:Roger Montti



      點贊(1) 打賞

      評論列表 共有 0 條評論

      暫無評論

      服務號

      訂閱號

      備注【拉群】

      商務洽談

      微信聯系站長

      發表
      評論
      立即
      投稿
      返回
      頂部