在百度搜索算法的持續(xù)迭代中,網(wǎng)站內(nèi)容質(zhì)量始終是核心評估維度,旨在通過技術(shù)手段規(guī)范內(nèi)容生產(chǎn)生態(tài),提升用戶搜索體驗。自2016年起,百度陸續(xù)推出多項專項算法,針對不同類型的內(nèi)容質(zhì)量問題進(jìn)行精準(zhǔn)打擊,逐步構(gòu)建起覆蓋全領(lǐng)域、全流程的內(nèi)容質(zhì)量管理體系。
百度于2017年7月首次發(fā)布颶風(fēng)算法,聚焦惡劣采集行為的治理,并于2018年9月升級至2.0版本。算法2.0明確將四類行為列為打擊重點:一是從外部站點或公眾號無序采集、搬運且未整合的內(nèi)容,存在明顯采集痕跡,排版混亂且對用戶無增益價值;二是通過多篇文章拼接而成的邏輯斷裂內(nèi)容,閱讀體驗差;三是站點自身內(nèi)容生產(chǎn)力薄弱,長期依賴采集;四是發(fā)布與站點主題無關(guān)的采集內(nèi)容,領(lǐng)域?qū)W⒍鹊停缈萍季W(wǎng)站發(fā)布娛樂八卦。2019年8月上線的颶風(fēng)算法3.0進(jìn)一步將治理范圍延伸至跨領(lǐng)域采集與站群問題,覆蓋PC端、H5及智能小程序??珙I(lǐng)域采集指站點為獲取流量發(fā)布非所屬領(lǐng)域內(nèi)容,導(dǎo)致領(lǐng)域?qū)W⒍炔蛔?;站群問題則體現(xiàn)為批量構(gòu)造低質(zhì)、高相似度站點,通過模板復(fù)用損害搜索生態(tài)。
2018年6月,百度針對B2B行業(yè)推出細(xì)雨算法,重點治理標(biāo)題作弊與正文違規(guī)受益行為。標(biāo)題作弊包括非官網(wǎng)頁面濫用“官網(wǎng)”標(biāo)識、關(guān)鍵詞堆砌、插入火星文字或特殊符號,以及標(biāo)題中穿插聯(lián)系方式等;正文違規(guī)則表現(xiàn)為內(nèi)容不完整且穿插變形聯(lián)系方式、配圖中嵌入大面積聯(lián)系信息,或商品信息為亂采集拼接內(nèi)容。2019年11月,細(xì)雨算法2.0升級,除延續(xù)對惡劣采集的打擊外,新增對軟文信息、空白頁面、商品信息與功能不符等問題的治理,同時規(guī)范圖片內(nèi)容質(zhì)量(如圖片與文字不符、嵌入聯(lián)系方式)及頁面信息完整性,推動B2B內(nèi)容從“合規(guī)”向“優(yōu)質(zhì)”邁進(jìn)。
2016年11月推出的藍(lán)天算法,聚焦新聞類站點售賣軟文與目錄的違規(guī)行為。此類行為通過商業(yè)利益驅(qū)動內(nèi)容生產(chǎn),破壞新聞公信力,算法通過降低站點在搜索系統(tǒng)中的評價,遏制低質(zhì)商業(yè)內(nèi)容對搜索結(jié)果的干擾,還用戶以純凈的信息獲取環(huán)境。
2018年5月,百度上線極光算法,倡導(dǎo)落地頁時間因子的規(guī)范化。時間因子(包括發(fā)布時間、更新時間、最新回復(fù)時間)作為判斷內(nèi)容時效性的核心依據(jù),算法要求站點通過JSON-LD格式提交時間信息,并根據(jù)首頁、列表頁、詳情頁等不同頁面類型明確時間提交規(guī)范。例如,文章詳情頁需優(yōu)先提供發(fā)布時間,問答頁面需同時提交問題發(fā)布時間、首答時間及最新回復(fù)時間。此舉旨在減少“過期內(nèi)容”對用戶的誤導(dǎo),提升搜索內(nèi)容的時效性與可信度。