nutch0.9中的摘要提取机制源码分析

本文介绍了一个低级API,用于从文档中获取最相关的格式化部分。该方法允许访问TextFragment对象中的评分信息,以便更好地理解文档的相关片段。通过分析TokenStream并使用FragmentQueue来维护最高得分的文档片段,此API能够有效地突出显示文档中最重要的部分。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >


/**
     * Low level api to get the most relevant (formatted) sections of the document.
     * This method has been made public to allow visibility of score information held in TextFragment objects.
     * Thanks to Jason Calabrese for help in redefining the interface.
     * 
@param tokenStream
     * 
@param text
     * 
@param maxNumFragments
     * 
@param mergeContiguousFragments
     * 
@throws IOException
     
*/

    
public final TextFragment[] getBestTextFragments(
        TokenStream tokenStream,
        String text,
        
boolean mergeContiguousFragments,
        
int maxNumFragments)
        
throws IOException
    
{
        ArrayList docFrags 
= new ArrayList();
        StringBuffer newText
=new StringBuffer();

        TextFragment currentFrag 
=    new TextFragment(newText,newText.length(), docFrags.size());
        fragmentScorer.startFragment(currentFrag);
        docFrags.add(currentFrag);

        FragmentQueue fragQueue 
= new FragmentQueue(maxNumFragments);

        
try
        
{
            org.apache.lucene.analysis.Token token;
            String tokenText;
            
int startOffset;
            
int endOffset;
            
int lastEndOffset = 0;
            textFragmenter.start(text);

            TokenGroup tokenGroup
=new TokenGroup();
            token 
= tokenStream.next();
            
while ((token!= null)&&(token.startOffset()<maxDocBytesToAnalyze))
            
{
                
if((tokenGroup.numTokens>0)&&(tokenGroup.isDistinct(token)))
                
{
                    
//the current token is distinct from previous tokens -
                    
// markup the cached token group info
                    startOffset = tokenGroup.matchStartOffset;
                    endOffset 
= tokenGroup.matchEndOffset;
                    tokenText 
= text.substring(startOffset, endOffset);
                    String markedUpText
=formatter.highlightTerm(encoder.encodeText(tokenText), tokenGroup);
                    
//store any whitespace etc from between this and last group
                    if (startOffset > lastEndOffset)
                        newText.append(encoder.encodeText(text.substring(lastEndOffset, startOffset)));
                    newText.append(markedUpText);
                    lastEndOffset
=Math.max(endOffset, lastEndOffset);
                    tokenGroup.clear();

                    
//check if current token marks the start of a new fragment
                    if(textFragmenter.isNewFragment(token))
                    
{
                        currentFrag.setScore(fragmentScorer.getFragmentScore());
                        
//record stats for a new fragment
                        currentFrag.textEndPos = newText.length();
                        currentFrag 
=new TextFragment(newText, newText.length(), docFrags.size());
                        fragmentScorer.startFragment(currentFrag);
                        docFrags.add(currentFrag);
                    }

                }


                tokenGroup.addToken(token,fragmentScorer.getTokenScore(token));

//                if(lastEndOffset>maxDocBytesToAnalyze)
//                {
//                    break;
//                }
                token = tokenStream.next();
            }

            currentFrag.setScore(fragmentScorer.getFragmentScore());

            
if(tokenGroup.numTokens>0)
            
{
                
//flush the accumulated text (same code as in above loop)
                startOffset = tokenGroup.matchStartOffset;
                endOffset 
= tokenGroup.matchEndOffset;
                tokenText 
= text.substring(startOffset, endOffset);
                String markedUpText
=formatter.highlightTerm(encoder.encodeText(tokenText), tokenGroup);
                
//store any whitespace etc from between this and last group
                if (startOffset > lastEndOffset)
                    newText.append(encoder.encodeText(text.substring(lastEndOffset, startOffset)));
                newText.append(markedUpText);
                lastEndOffset
=Math.max(lastEndOffset,endOffset);
            }


            
//Test what remains of the original text beyond the point where we stopped analyzing 
            if (
//                    if there is text beyond the last token considered..
                    (lastEndOffset < text.length()) 
                    
&&
//                    and that text is not too large...
                    (text.length()<maxDocBytesToAnalyze)
                )                
            
{
                
//append it to the last fragment
                newText.append(encoder.encodeText(text.substring(lastEndOffset)));
            }


            currentFrag.textEndPos 
= newText.length();

            
//sort the most relevant sections of the text
            for (Iterator i = docFrags.iterator(); i.hasNext();)
            
{
                currentFrag 
= (TextFragment) i.next();

                
//If you are running with a version of Lucene before 11th Sept 03
                
// you do not have PriorityQueue.insert() - so uncomment the code below
                /*
                                    if (currentFrag.getScore() >= minScore)
                                    {
                                        fragQueue.put(currentFrag);
                                        if (fragQueue.size() > maxNumFragments)
                                        { // if hit queue overfull
                                            fragQueue.pop(); // remove lowest in hit queue
                                            minScore = ((TextFragment) fragQueue.top()).getScore(); // reset minScore
                                        }


                                    }
                
*/

                
//The above code caused a problem as a result of Christoph Goller's 11th Sept 03
                
//fix to PriorityQueue. The correct method to use here is the new "insert" method
                
// USE ABOVE CODE IF THIS DOES NOT COMPILE!
                fragQueue.insert(currentFrag);
            }


            
//return the most relevant fragments
            TextFragment frag[] = new TextFragment[fragQueue.size()];
            
for (int i = frag.length - 1; i >= 0; i--)
            
{
                frag[i] 
= (TextFragment) fragQueue.pop();
            }


            
//merge any contiguous fragments to improve readability
            if(mergeContiguousFragments)
            
{
                mergeContiguousFragments(frag);
                ArrayList fragTexts 
= new ArrayList();
                
for (int i = 0; i < frag.length; i++)
                
{
                    
if ((frag[i] != null&& (frag[i].getScore() > 0))
                    
{
                        fragTexts.add(frag[i]);
                    }

                }

                frag
= (TextFragment[]) fragTexts.toArray(new TextFragment[0]);
            }


            
return frag;

        }

        
finally
        
{
            
if (tokenStream != null)
            
{
                
try
                
{
                    tokenStream.close();
                }

                
catch (Exception e)
                
{
                }

            }

        }

    }

   
内容概要:本文针对火电厂参与直购交易挤占风电上网空间的问题,提出了一种风火打捆参与大用户直购交易的新模式。通过分析可再生能源配额机制下的双边博弈关系,建立了基于动态非合作博弈理论的博弈模型,以直购电价和直购电量为决策变量,实现双方收益均衡最大化。论文论证了纳什均衡的存在性,并提出了基于纳什谈判法的风-火利益分配方法。算例结果表明,该模式能够增加各方收益、促进风电消纳并提高电网灵活性。文中详细介绍了模型构建、成本计算和博弈均衡的实现过程,并通过Python代码复现了模型,包括参数定义、收益函数、纳什均衡求解、利益分配及可视化分析等功能。 适合人群:电力系统研究人员、能源政策制定者、从事电力市场交易的工程师和分析师。 使用场景及目标:①帮助理解风火打捆参与大用户直购交易的博弈机制;②为电力市场设计提供理论依据和技术支持;③评估不同政策(如可再生能源配额)对电力市场的影响;④通过代码实现和可视化工具辅助教学和研究。 其他说明:该研究不仅提供了理论分析,还通过详细的代码实现和算例验证了模型的有效性,为实际应用提供了参考。此外,论文还探讨了不同场景下的敏感性分析,如证书价格、风电比例等对市场结果的影响,进一步丰富了研究内容。
资源下载链接为: https://pan.quark.cn/s/d37d4dbee12c A:计算机视觉,作为人工智能领域的关键分支,致力于赋予计算机系统 “看懂” 世界的能力,从图像、视频等视觉数据中提取有用信息并据此决策。 其发展历程颇为漫长。早期图像处理技术为其奠基,后续逐步探索三维信息提取,与人工智能结合,又经历数学理论深化、机器学习兴起,直至当下深度学习引领浪潮。如今,图像生成和合成技术不断发展,让计算机视觉更深入人们的日常生活。 计算机视觉综合了图像处理、机器学习、模式识别和深度学习等技术。深度学习兴起后,卷积神经网络成为核心工具,能自动提炼复杂图像特征。它的工作流程,首先是图像获取,用相机等设备捕获视觉信息并数字化;接着进行预处理,通过滤波、去噪等操作提升图像质量;然后进入关键的特征提取和描述环节,提炼图像关键信息;之后利用这些信息训练模型,学习视觉模式和规律;最终用于模式识别、分类、对象检测等实际应用。 在实际应用中,计算机视觉用途极为广泛。在安防领域,能进行人脸识别、目标跟踪,保障公共安全;在自动驾驶领域,帮助车辆识别道路、行人、交通标志,实现安全行驶;在医疗领域,辅助医生分析医学影像,进行疾病诊断;在工业领域,用于产品质量检测、机器人操作引导等。 不过,计算机视觉发展也面临挑战。比如图像生成技术带来深度伪造风险,虚假图像和视频可能误导大众、扰乱秩序。为此,各界积极研究检测技术,以应对这一问题。随着技术持续进步,计算机视觉有望在更多领域发挥更大作用,进一步改变人们的生活和工作方式 。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值