【fraud detection】点击量作弊——互联网广告业的附骨之蛆!

网络搜索引擎所带来的广告商机近年来一直呈急剧的上升趋势,但对于搜索服务商和广告投放者们来说,这一情况其实也是喜中带忧——寄生于互联网广告的点击量作弊行为不仅与日俱增,而且愈演愈烈。

形形色色的“点击量作弊”
“点击量作弊”是伴随着互联网的普及发展起来的,早期主要表现在通过一些自动运行的程序来“提高”网站的访问量(在“眼球经济”刚刚提出的年代,压倒性的“访问量”优势往往意味着动辄以千万美元计的融资;几年前备受关注的国内门户网站排名,就因为“访问量”引发了不少的闹剧)。后来则是针对一些提供点击付费的广告网站,成为“网络赚钱”的手段。现在的“点击量作弊”将矛头主要指向了网络搜索服务商所经营的竞价广告业务以及搜索排名服务,业内人士估计,目前搜索引擎广告的总点击量中超过两成是子虚乌有的。

美国加利福尼亚州法庭在上个月曾裁判了这样一个胆大妄为的网络犯罪分子:他自称开发了一套可以配合垃圾邮件软件使用,“制造”点击量,给Google带来数百万美元损失的程序,以此向Google勒索15万美元,然后还亲身前往Google的办公室演示软件的功用。此君最后在交付5万美元保释金后被释放,但在保释期间他既不能接触计算机,也不许以任何形式访问Google。为Google代理此案的律师称,类似的点击量作弊程序确实存在,Google还将提出更多的起诉。

点击量作弊的方法分“自动”和“手工”两类。前者往往是通过“机器人”(能够自动执行一系列循环点击、页面刷新操作的脚本程序)来不断点击出现在网站和搜索结果页面上的广告Banner。后者则是采取“人海战术”,以较低的成本雇用印度等国的廉价劳动力来人工点击各类广告链接——这种难以通过技术手段侦测的作弊方式如今正呈上升趋势,而一些闹得沸沸扬扬的网络评选作弊事件其实也都与这种方式有关。以作弊手段制造虚假点击量的目的如今也是五花八门,除了靠“刷”点击量来提高网站在关键字搜索中的排名,现在还有公司专门雇人来点击竞争对手的网络广告,以达到混淆对方视听,破坏其广告效果(一些网络广告是计点击次数来收费的,或者达到约定的点击量后就会被广告网站撤下),干扰其市场计划执行的效果。

搜索竞价排名的“软肋”
点击量作弊的泛滥从侧面暴露了互联网搜索市场的一个致命弱点。一家网站分析机构Goremetrics的发言人John Squire说:“伴随着网络搜索市场的广告商机日趋红火,点击量作弊的情况也逐渐浮出水面。具体的情况还很难估量,已知的现状好比若隐若现露出海面的背鳍,你无法依此就能判断出水中的是一条顽皮的海豚还是狰狞的大白鲨。”

和户外、印刷品等传统的广告承载方式不同,如今按点击量来计费的网络广告大多采用搜索竞价排名的方式(调查显示,排在搜索结果前30名的网页被访问的机会占全部网页的80%以上)。与传统的网络广告、群发邮件等互联网广告营销方式不同,搜索竞价排名属于“许可式营销”,而前两者属“打扰式营销”。也就是说,访问者将通过搜索引擎主动找到有关企业,企业由此可获得更有针对性的访问对象和潜在客户。与此同时,由于企业是根据实际点击次数付费,不仅投入客观,还能通过点击量来及时获知自己的产品和服务的市场反响。

市场调研机构eMarketer预测,今年美国付费搜索广告的销售额将由2003年的25亿美元上升到32亿美元;与2002年相比, 2003年的增长幅度高达175%。广告客户也在将更多的网络广告预算投到付费搜索中。eMarketer 称,2002年广告客户将网络广告预算的 4.2%投放到了付费搜索广告中,2003年时的这一比例达到了35%,2004年这一比例更将达到38%——其中搜索竞价排名占了大头。

由于排名的先后直接决定了访问量的多寡,各行各业的广告投放者为争关键字搜索中的座次往往不惜血本,这使得摊到单次点击的成本大约是45美分(2003年的平均价格是40美分,2002年第二季度大约是30美分),旅游、法律服务等热门行业的单次点击成本甚至高达一美元以上。

但在Google、FindWhat.com等主推搜索竞价排名的网络搜索引擎上,点击量作弊的现象泛滥成灾。

道高一尺
这样的情况显然也是搜索引擎厂商所不愿看到的,正处在“禁声期”(quiet period,美国联邦有价证券法律禁止企业在初次股票上市的审查阶段发表任何可能诱使投资者购买股票的言论,这段时间称为“禁声期”)的Google没有正面回应Alchemist Media的“诤言”,但其发言人之前曾在公开场合说过,“我们一直在不遗余力地查处点击量作弊的问题,我们成立了专门的专家团队来研发分析网络点击的核心技术。”

与其竞争对手一样,Google的大部分收入来自于在线搜索结果捆绑的广告业务。证券交易委员会公示的一份材料显示,由于其接近95%的收入来自于网络广告业务,点击量作弊问题已经开始严重威胁Google的营收。为了维护客户关系,Google和其他一些搜索引擎服务商都开始向广告客户承诺,一旦发现点击量作弊则返还广告费。

为清剿点击量作弊现象,Google和Overture都投入了专门的技术力量,Overture目前采取技术手段和人工分析相结合的方式构造了一套反作弊系统,可以清查出大多数的异常点击量。
Google和Overture的努力恰恰说明一点:搜索平台的质量是吸引网民和客户的关键。

IEEE-CIS Fraud Detection is a Kaggle competition that challenges participants to detect fraudulent transactions using machine learning techniques. KNN (k-Nearest Neighbors) is one of the machine learning algorithms that can be used to solve this problem. KNN is a non-parametric algorithm that classifies new data points based on the majority class of their k-nearest neighbors in the training data. In the context of fraud detection, KNN can be used to classify transactions as either fraudulent or not based on the similarity of their features to those in the training data. To implement KNN for fraud detection, one can follow the following steps: 1. Preprocess the data: This involves cleaning and transforming the data into a format that the algorithm can work with. 2. Split the data: Split the data into training and testing sets. The training data is used to train the KNN model, and the testing data is used to evaluate its performance. 3. Choose the value of k: This is the number of neighbors to consider when classifying a new data point. The optimal value of k can be determined using cross-validation. 4. Train the model: Train the KNN model on the training data. 5. Test the model: Test the performance of the model on the testing data. 6. Tune the model: Fine-tune the model by changing the hyperparameters such as the distance metric used or the weighting function. Overall, KNN can be a useful algorithm for fraud detection, but its performance depends heavily on the quality of the data and the choice of hyperparameters.
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值