警惕！你的数据快被AI爬虫爬完了！

2024-07-31 15:52:05 来源：看点时报

小大

最近一两年，全世界科技圈最火的话题就是AI大模型了。各种文生文、文生图乃至文生视频大模型横空出世，顷刻间满足了人类对未来世界的畅想，诞生了无数商机与可能性。各家人工智能公司都摩拳擦掌，倾尽全力打造自己的大模型，希望能在这场全新的科技拉力赛中占据领先位置。

但，繁荣和进步的背后，也隐藏着巨大的数据安全危机。

众所周知，海量的数据是训练大模型的必备材料。就像想发动一辆车需要汽油一样，想把大模型训练好，就需要大量优质的数据来做“汽油”。比如，OpenAI在训练GPT-4时使用了大约13万亿个token，按照Epoch的研究员Pablo Villalobos预测，GPT-5大约需要60到100万亿个token才能实现预期中的效果增长。而这些token，正来自于海量的数据。

而规模如此庞大的数据又从何而来呢？当然是来自于互联网啦。

在过去一两年的时间内，网络上的爬虫数量成倍增长、数不胜数，疯狂地在互联网上“搜刮”各种数据。

与此同时，随之而来的数据侵权和泄漏等等问题也引起了各内容厂商的强烈反感。

去年秋天，BBC 国家总监戴维斯说：“我们认为，这种未经允许就‘搜刮’BBC数据以训练大模型的做法不符合公众利益”，随后，他宣布BBC将封锁OpenAI的爬虫。

今年年初，路透社研究所发布了一项名为《有多少新闻网站会屏蔽人工智能爬虫》的研究。研究结果显示，截至 2023 年底，在全球 10 个国家的热门新闻网站中，近一半网站在robot.txt中屏蔽了 OpenAI 的爬虫 (48%) ，近四分之一屏蔽了谷歌的 AI 爬虫 (24%)，这个数据能充分说明内容平台对AI爬虫的“深恶痛绝”。

但传统的用来防止BOT的Robots协议终究是一场“君子之约”，它只能防住表明自己身份的爬虫。在目光所不能及之处，还有许多黑灰产嗅到了数据变卖的利益，制造出更多爬虫在互联网的各个角落里阴暗爬行。他们用伪造UA、更换IP等等手段，就能够轻而易举地伪装自己，继续对数据“为所欲为”。

更有甚者，已经开始用AI和大模型来“加持”爬虫技术，让爬虫进化地更加灵活与智能。比如，传统的爬虫内容解析通常采用BS4等库，在面对复杂的页面结构时，编写XPath选择器就变得更加繁琐且容易出错；当页面结构变化时，也可能要重新编写选择器，让爬虫的使用变得非常复杂。但在大模型技术加持下，内容解析变得异常简单，大模型可以直接从网页源码中自动抽取标题和正文等信息，大大提升了内容解析的效率和准确性。

这样的爬虫，相当于从蜥蜴进化成了“哥斯拉”，从汽车变身成了变形金刚，让传统的BOT防御手段面临着更大的挑战。过去的一些策略已经不能抵挡来势汹汹的新生代爬虫大军，BOT防御措施急需一场有针对性的升级。

那么，到底有什么方法能够抵抗这些“变异升级”后的AI时代爬虫呢？

天空一声巨响

腾讯云WAF闪亮登场！

腾讯云WAF团队推出的BOT流量管理功能，集成了客户端风险识别（前端对抗）、防护规则集与领先的BOT-AI智能识别引擎这三重拦截能力，能够准确应对恶意机器人程序爬取带来的资源消耗、信息泄露及无效营销问题，同时也保障友好机器人程序的正常运行。

更牛的是：BOT流量管理深度融合了顶尖AI技术，将流量风控特征和黑灰产对抗经验转化为AI策略模型，打造出新一代智能化BOT流量管理体系，以AI之矛，攻BOT之盾（AI Anti BOT）！

责任编辑：kj005

文章投诉热线:157 3889 8464 投诉邮箱:7983347 16@qq.com

关键词：

洗碗机爆发在即国产品牌逐渐成为市场主流

存起火隐患松下召回4175台笔记本电脑

爱上海信H55E72A就是这么简单

人工智能遥控器就能轻轻松松帮你找到你想看的剧

中华网家电

警惕！你的数据快被AI爬虫爬完了！

见证从环保到零碳！莫干山家居“零碳引领未来”绿色盛会即将开启！

到田野，到小城，探索更大的风土世界首届三联人文风土季“此时此地”系列活动于河南中牟圆满举办

立升智矿净水器H7：以智能科技引领健康送礼潮流

@全国未来材料领域创新者！第十三届中国创新创业大赛颠覆性技术创新大赛火热报名中

全球瞩目智领未来 | 正中科技新生产基地引领拼装存储设备新飞跃

“把世界带到中心”国贸中心全球品牌发布会圆满落幕

相关新闻

世界知识产权组织总干事邓鸿森做客清华海外名师讲堂，摩知轮创始人张锐出席并发言交流

团立项主题活动|七十五载铸辉煌，青春奋进共担当

摩知轮《近似商标抢注监控报告》你定制了吗？

龙卡信用卡，驰行向远方！中国建设银行龙卡信用卡与你相约2024广州车展

国知局培训 | 知识产权数据库培训开班仪式即将隆重举办，摩知轮为您解读商标大数据AI应用新趋势

中航重机：定增获上交所审核通过，加快推进高质量发展新征程

摩知轮创始人兼CEO张锐出席北京商标协会与北京市市场监督管理局“北京知名商标品牌建设与保护”座谈会

摩知轮创始人兼CEO张锐应邀出席阿里巴巴“AI法律智见未来—AI时代的法务管理论坛”

品质为先，2024“双十一”黄天鹅荣登多项榜首

摩知轮成功举办朝阳区“企业商标品牌管理与保护实务暨北京知名商标品牌与重点商标保护名录申报培训”

家电推荐

家电图片

加大在华投资，仙妮蕾德与广东省商务厅共商未来机遇

豆神AI以3A标准重塑语文教育生态

智邦国际与艺术家刘欢智慧碰撞，一体化ERP让企业管理更动听

智邦国际一体化ERP助力企业数字化转型实纪，如何让企业全链条脱胎换骨

新闻排行

从“小树苗”到“大森林” 成都...

探索新赛道哪个领域能成为家电...

2021年全球TV出货下降6.2% 面板...

巨头争相布局全屋智能市场向AI...

Mini LED市场不及预期产业陷...

海南省市场监管局抽查10批次快热...

智能化开辟产品创新边界智能坐...

中国制造主导高端冰箱进入新一...

苹果或正开发Apple Music新功能...

欧洲智能手机2021年“现状”：三...