IBM 2013技术峰会访谈:大数据不仅仅是未来业务

IBM在2013年技术峰会上深入探讨了MobileFirst、大数据与DevOps等技术趋势。专家强调了NoSQL数据库在处理非结构化数据时的优势,并讨论了大数据对企业带来的商业机会与价值。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

IBM于7月11日-12日在北京举行了IBM 2013技术峰会,会上IBM的技术专家解析了其MobileFirst (移动先行)、大数据、DevOps等技术趋势与现状,在11日下午的媒体采访中,IBM杰出工程师及InfoSphere Streams高级开发经理James R Giles、IBM杰出工程师、副总裁兼Guardium首席技术官Ron Ben Natan、IBM软件集团大中华区信息管理软件DSCO销售总监甘佳凌等针对大数据方面的提问进行了详细的回复。

\

InfoQ:NoSQL更多用在互联网行业,传统行业用NoSQL数据库应用到关键系统并不太多,那么IBM在大数据平台当中添加NoSQL的功能是为了添加这个功能而添加,还是我们客户真的有这样的需求?

\
\

Ron Ben Natan:传统的应用程序不需要NoSQL,但是NoSQL是跟其他的传统应用相比有好的地方。比如你是一家电子商务的公司,有很多供应商要交换很多数据。如果使用NoSQL,数据的来源就是文档,那么就可以直接使用它,能够灵活方便的处理前端操作的改变。

\
\

InfoQ:你们认为大数据对于企业到底帮助会有哪些?有什么本质性的帮助?目前在大家提出大数据的时候,这背后本质上反映了企业目前是出于什么状态,可能意味着像企业往哪方面发展或者趋势是什么?

\
\

James R Giles:我能看到很多点,特别提两点:

\
  1. \

    大数据是不仅仅是数据,还是一种渠道。这给我们带来很多的商业上的机会和价值,能够使用户能够更好更快的、更深入的了解我们的客户,这是很重要的方向,也是大数据应用的方向!

    \ \
  2. \

    关联到Ron Ben Natan提到的另外一点,其实有很多技术都有自己的长处和短处,在大数据时代,有这么多不同的种类、如此大量级的数据时,通过技术的组合可以帮我们带来很多更高效率上的问题。

    \ \

Ron Ben Natan:给大家两个答案,一个是现实的,一个是理论上的。理论上假如说我们有无穷无尽的计算力和存储空间,我们可以把现实当中所有的事情都计入里面,这能给我们带来什么?我们对很多事情都进行精准的预测,这些会帮助我们。现实当中我们不可能有无穷无尽的计算力和存储力,我们现在有什么?可以在商业化的模式下有商业化的计算力和商业化的存储和商业化一切的情景下它帮助我们预测和做一些判断。

\
\

InfoQ:今天的开场演讲嘉宾讲到大数据时代跟小数据时代的对比,小数据时代大家都在追求干净、高质量的数据,大数据时代大家对于数据的精确性要求并不是很高,大家注重是趋势上的一些洞察,我想问一下两位专家怎么在大数据时代,大数据的语境下的精确性如何来理解,是不是一些比较粗放的或者只是一些趋势上的洞察就可以?

\
\

James R Giles:是的,精确度确实在大数据来说是很重要的,在大数据时代,我们会有很多的案例,像早上举的例子,大数据是非常散乱的数据,我们需要利用大数据的分析功能去处理这种散乱的数据。其实我们也知道大数据当中有4V,最后一个V是准确性,也有相当多的场合对于精确性是非常重要的,我们必须要有这样的技术能够提高它的精确性,同时会有很多的案例,这些数据是需要可信的、准确的。

\

Ron Ben Natan:这个问题很难一句话说清楚。我们首先不知道这个数据本身是不是有这样的变化,即便几点数据的加合,或者为这些数据来打分,最后得出这些数据,这些都是不清楚的。但是可以肯定的是扔进去的是垃圾,出来的也是垃圾。

\
\

InfoQ:刚才Ron回答关于无线计算和无线数据的情况,我从里面得到一个结论:大数据是个未来业务,现在在中国和美国依然还没有太大的市场。所以在整个重要的四个方向里,Mobile、社交网络、大数据、云计算,从重量方面来说是放在最后一位,您怎么看?现在在技术角度肯定是并重的,但是在市场角度肯定是放在次之的位置。

\
\

Ron Ben Natan:移动、云计算、大数据在技术领域是非常重要的三个大的变革,并不是说一个比另外一个更重要,他们都在同时发生,但是它们是在解决或者是在针对不同的事情,比如说移动,实际上是针对于我们的消费者。比如我家里有太太和三个孩子还有我自己,我们一共有18个手机,一会儿手机找不着,一会儿手机又找到了,但是这么多设备在随时随地产生信号和数据。又比如说在互联的网络后台有很多的数据,这样的数据就是我们说的大数据的一种,这只是其中一部分,当我们谈到互联网的时候,移动只是互联网当中的一部分,一个子集,会有更多的包括机器、设备联系在一起,这会产生大量的数据,所以实际上后台是需要一个大数据的平台去支撑。

\

再举一个例子,现在的飞机上会有12万的传感器,随时随地在产生数据,我们是需要大数据处理能力的。而云非常简单易用,能够降低部署、开发和应用的成本。所以这三件事情并没有说孰重孰轻,都非常重要,在里面扮演不同的角色。

\

甘佳凌:我是代表市场行销,我的观察是大数据是一个现在的业务!当然大家也在找一个比较好的模式。基本上我们前面谈了很多都是相关技术,从IBM的角度来说,我们也希望可以协助我们的客户在现在多数据源、非结构化数据中获得价值。以前都是传统的数据,现在有这么多的数据源,每一个客户都在谈大数据,但是我跟客户说到底你们想做什么,很多客户都回答不出来。

\

但是我知道客户在想什么,客户在想怎么利用不同的数据来源和非结构化的来源找到可以让企业获利的模式。前面也有提到IBM所提供的大数据平台也可以协助客户去找到在这么多海量的数据或者非结构化的数据,去预测出来所要锁定的这一群客户。

\

假设有一个客户跟我提的是想要知道这么多的银行的业务,把目前免费让客户上网来查询一些交易记录或者是在银行的一些户头里面的状况,在未来变成是生意的模式?如果查询是要付费的,可能会是通过付费的机制根据你跟银行的交易的等级来设定一些会员的机制,对不同的等级来收费,这可能会变成一种盈利的模式。

\

在现在这个时代,大家都在谈所谓的大数据,大数据代表了海量、非结构化数据的来源,还要关心怎么去利用海量的大数据来源,挖掘出来可以提供给客户的服务和盈利的模式。您可能会问我们国内有没有客户在做?我的回答是有的。大家在谈大数据的时候,有不同的客户需求。针对于我们跟Hadoop平台区分的话,从整个数据的生命周期来看,这些数据源是怎么产生的?我们会从它的生成时就来管理,同时可以先定义哪些数据是可用的,哪些数据是可以从中找到所需要的一些智能,哪些数据是属于敏感的数据需要保护的,是不可以泄露的。从这些数据里找出可能有的盈利模式出来。

\

James R Giles:运营分析方面,比如说我们在能源和电力行业的客户丹麦的Vestas公司利用风力发电的设备和服务,对于他们而言选择风力发电的选址是非常重要的,因为这些设备都非常昂贵,一个设备可能购买都是一百万美金,他们有一个非常好的计算方法。现在是跑在我们BigInsights产品上,通过BigInsights高性能计算可以帮助客户降低成本,而且能快速的计算出在哪里投放这样的风力发电的设备是最好最优的。联动优势是我们本地的客户,他们实际上是在用移动银行,使用我们PureData for Analytics能够很好的提高他们的计算性。

\
资源下载链接为: https://pan.quark.cn/s/140386800631 通用大模型文本分类实践的基本原理是,借助大模型自身较强的理解和推理能力,在使用时需在prompt中明确分类任务目标,并详细解释每个类目概念,尤其要突出类目间的差别。 结合in-context learning思想,有效的prompt应包含分类任务介绍及细节、类目概念解释、每个类目对应的例子和待分类文本。但实际应用中,类目和样本较多易导致prompt过长,影响大模型推理效果,因此可先通过向量检索缩小范围,再由大模型做最终决策。 具体方案为:离线时提前配置好每个类目的概念及对应样本;在线时先对给定query进行向量召回,再将召回结果交给大模型决策。 该方法不更新任何模型参数,直接使用开源模型参数。其架构参考GPT-RE并结合相关实践改写,加入上下文学习以提高准确度,还使用BGE作为向量模型,K-BERT提取文本关键词,拼接召回的相似例子作为上下文输入大模型。 代码实现上,大模型用Qwen2-7B-Instruct,Embedding采用bge-base-zh-v1.5,向量库选择milvus。分类主函数的作用是在向量库中召回相似案例,拼接prompt后输入大模型。 结果方面,使用ICL时accuracy达0.94,比bert文本分类的0.98低0.04,错误类别6个,处理时添加“家居”类别,影响不大;不使用ICL时accuracy为0.88,错误58项,可能与未修改prompt有关。 优点是无需训练即可有较好结果,例子优质、类目界限清晰时效果更佳,适合围绕通用大模型api打造工具;缺点是上限不高,仅针对一个分类任务部署大模型不划算,推理速度慢,icl的token使用多,用收费api会有额外开销。 后续可优化的点是利用key-bert提取的关键词,因为核心词语有时比语意更重要。 参考资料包括
内容概要:本文详细介绍了哈希表及其相关概念和技术细节,包括哈希表的引入、哈希函数的设计、冲突处理机制、字符串哈希的基础、哈希错误率分析以及哈希的改进与应用。哈希表作为一种高效的数据结构,通过键值对存储数据,能够快速定位和检索。文中讨论了整数键值和字符串键值的哈希方法,特别是字符串哈希中的多项式哈希及其优化方法,如双哈希和子串哈希的快速计算。此外,还探讨了常见的冲突处理方法——拉链法和闭散列法,并提供了C++实现示例。最后,文章列举了哈希在字符串匹配、最长回文子串、最长公共子字符串等问题中的具体应用。 适合人群:计算机科学专业的学生、算法竞赛选手以及有一定编程基础并对数据结构和算法感兴趣的开发者。 使用场景及目标:①理解哈希表的工作原理及其在各种编程任务中的应用;②掌握哈希函数的设计原则,包括如何选择合适的模数和基数;③学会处理哈希冲突的方法,如拉链法和闭散列法;④了解并能运用字符串哈希解决实际问题,如字符串匹配、回文检测等。 阅读建议:由于哈希涉及较多数学知识和编程技巧,建议读者先熟悉基本的数据结构和算法理论,再结合代码实例进行深入理解。同时,在实践中不断尝试不同的哈希策略,对比性能差异,从而更好地掌握哈希技术
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值