當前位置:成語大全網 - 書法字典 - 爬蟲技術應用的合法性存在爭議,亟需規範非法數據抓取行為,保障數據安全。

爬蟲技術應用的合法性存在爭議,亟需規範非法數據抓取行為,保障數據安全。

來源:法治日報-法制網

核心閱讀

在大數據時代背景下,越來越多的市場主體投入巨資收集、整理和挖掘信息。如果允許網絡爬蟲隨意使用他人通過巨額投資獲得的數據資源,將不利於鼓勵商業投資、產業創新和誠信經營,甚至可能直接侵犯數據源用戶的意願和知情權,最終損害良性競爭機制。

隨著社會經濟的快速發展,數據的價值日益凸顯,已成為企業科技創新必不可少的要素。但企業通過技術手段獲取數據時,數據抓取技術的應用行為是否合理合法,是壹個值得深思的問題。

近年來,網絡爬蟲“爬取數據”成為熱詞,相關司法案例不斷湧現。據不完全統計,近年來涉及網絡爬蟲的司法案件有十余起,其中既有民事案件,也有刑事案件。此類案件甚至愈演愈烈。

上海市人民檢察院研究室副主任陳日前在上海舉行的長三角數據合規論壇(第三期)暨數據爬蟲法律規制研討會上透露,檢察機關正在積極推進企業合規改革試點工作,數據合規是重點。“目前,爬蟲抓取數據的案例非常普遍。當網絡平臺或個人通過技術手段抓取其他平臺數據時,這種行為是否合法,平臺數據的主體是誰,使用主體是誰,值得深入探討。”

杭州長三角大數據研究院副院長郭冰認為,數據爬蟲作為壹種中性技術,在互聯網行業得到了廣泛應用。需要註意的是,如果爬蟲技術應用不當,將損害其他競爭對手的合法權益,甚至涉嫌違法或犯罪,這對行業的健康發展也將產生非常負面的影響。

從技術角度來看,爬蟲通過程序模擬人類上網或瀏覽網頁和應用程序的行為,從而可以高效地抓取爬蟲制作者在互聯網上需要的信息。

歐萊雅中國數字化負責人劉表示,大多數網站拒絕爬蟲訪問,原因包括商業利益和自身網站的運營安全。除了爬蟲可能不希望被抓取的數據之外,網站運營商還經常擔心爬蟲會幹擾網站的正常運營。

然而,不規則爬蟲自動、持續、高頻率地訪問被爬取方,服務器負載激增,也會給服務器帶來“難以承受”的重量:處理經驗不足的網站,尤其是中小型網站,可能會面臨網站無法打開、網頁加載極其緩慢的情況,有時甚至會直接癱瘓。

新浪集團訴訟總監張哲表示,爬蟲和實現其他目的的技術本身都是中性的,但爬蟲技術的應用不是中性的,技術應用有用戶的目的。這時候我們不應該評價技術的原理,而需要評價技術是用來做什麽的,這種行為手段是否正當。

說到網絡爬蟲,robots協議是壹個不可回避的話題。robots協議(也稱為爬蟲協議)的全稱是“網絡爬蟲排除標準”。通過robots協議,網站明確警告搜索引擎哪些頁面可以被抓取,哪些頁面不能被抓取。該協議也被業內稱為搜索領域的“君子協議”。

劉說,當壹個網絡爬蟲訪問壹個網站時,robots協議就像壹個立在他房間門口的標誌,告訴外人誰能來誰不能來。然而,這只是壹個君子協定,只能作為通知,而不能作為技術預防措施。

在實踐中,惡意爬蟲在爬取時不遵守網站的robots協議,可能會爬取不應該爬取的數據,這種情況並非孤例。小紅書法律總監曾翔表示,惡意爬蟲案件經常發生在內容平臺和電子商務平臺上。在內容、視頻、圖片、文本、網絡名人互動數據、用戶行為等方面。都是抓取的,而在電子商務領域,大多是商業信息和商品信息。

“內容平臺壹般會規定相關內容的知識產權歸發布者或發布者與平臺* * *,這些爬蟲在未簽訂協議的情況下獲得用戶授權,涉嫌侵犯知識產權人的權利。”曾翔說。

或者應該明確定義網站權限。

這涉及到數據的所有權和是否可以開放。

上海市浦東區人民法院知識產權法庭法官徐紅濤認為,數據是內容產業的核心競爭資源,內容平臺處理的數據往往具有極高的經濟價值。

“如果要求內容平臺運營商無限期地向競爭對手開放其核心競爭資源,不僅有違‘互聯互通’精神的本質,也不利於優質內容的持續變革和互聯網行業的可持續發展。”許宏宇說。

惡意爬蟲爬取數據案件頻發的背後,是數據價值的提升,以數據為核心的市場競爭日趨激烈。

華東政法大學教授高福平表示,在大數據時代,數據的價值再次凸顯,現在的爬蟲技術已經從最初的網絡爬蟲轉移到底層數據的抓取。數據爬蟲的問題將變得越來越嚴重。

在大數據時代背景下,越來越多的市場主體投入巨資收集、整理和挖掘信息。業內人士對此感到擔憂:如果允許網絡爬蟲使用或利用他人通過巨額投資獲得的數據資源,將不利於鼓勵商業投資、產業創新和誠信經營,甚至可能直接侵犯數據源用戶的意願和知情權,最終損害良性競爭機制。

高福平認為,如果網站合法地積累了數據資源,那麽這些數據資源應該屬於網站的資產。“允許數據生產者和控制者出於商業目的開放數據是有益的。通過許可和交換交易,更多的人可以享受數據服務。我期待在未來確認所有合法數據生產者的控制權和使用權。”

有序流通同樣重要。

目前,盡管網站可以指定相應的策略或技術手段來阻止爬蟲抓取數據,但爬蟲也有更多的技術手段來對抗這種反爬行策略。

劉陳余表示,反爬和爬取技術壹直在叠代。在技術領域,沒有爬不動的網站和app,只有妳願不願意爬和爬的難度有多大的問題。

據了解,在現實中,當惡意網絡爬蟲制作者進行防禦時,他們通常會將robots協議與數據流聯系起來。徐紅濤認為,在“互聯互通”的背景下,“秩序”和“流通”同等重要、缺壹不可,要杜絕打著“互聯互通”幌子妨礙公平競爭、危害用戶數據安全的行為。

“對於非搜索引擎爬蟲的合法性判斷,需要考慮是否足以保證用戶數據的安全。用戶數據,包括身份數據和行為數據,不僅在屬性上是運營商的競爭資源,而且具有用戶的個人隱私屬性,收集此類數據更與社會利益相關。”許宏宇說。

據了解,近年來,與數據安全相關的法律規範正在不斷完善。數據安全法作為數據安全的基本法,承擔著解決我國數據安全核心制度框架的重任。此外還有2019通過的密碼法,工信部擬發布《工業和信息化領域數據安全管理辦法(試行)》等。深圳、上海等壹些地方也在探索制定相關數據管理規範。