leveldb之Compaction操作下之具体实现

最新推荐文章于 2024-01-23 21:35:25 发布

转载最新推荐文章于 2024-01-23 21:35:25 发布 · 596 阅读

leveldb 专栏收录该内容

26 篇文章

订阅专栏

本文详细介绍了LevelDB中Compaction操作的具体实现过程，包括Memtable的合并、trivialCompaction和一般Compaction的过程，以及如何通过LogAndApply()来创建新版本。

leveldb之Compaction操作下之具体实现

2015-05-17 19:40 438人阅读评论(0) 收藏举报

分类：

leveldb（13）

目录(?)[+]

由上文可知，合并主要分为三种：

1）对Memtable进行合并

2）trivial Compaction，直接将文件移动到下一层

3）一般的合并，调用DoCompactionWork()实现

下面将具体介绍其实现。

1、Memtable的合并

对Memtable的合并，调用DBImpl::CompactMemTable()完成

[cpp]view plaincopy 
    
 void DBImpl::CompactMemTable() {  
   mutex_.AssertHeld();  
   assert(imm_ != NULL);//imm_不能为空  
   
   VersionEdit edit;  
   Version* base = versions_->current();  
   base->Ref();  
   Status s = WriteLevel0Table(imm_, &edit, base);//将Memtable转化为.sst文件，并写入到edit中  
   base->Unref();  
   
   if (s.ok()) {  
     edit.SetPrevLogNumber(0);  
     edit.SetLogNumber(logfile_number_);  // Earlier logs no longer needed  
     s = versions_->LogAndApply(&edit, &mutex_);//应用edit中记录的变化，来生成新的版本  
   }  
   
   if (s.ok()) {  
     imm_->Unref();  
     imm_ = NULL;  
     has_imm_.Release_Store(NULL);  
     DeleteObsoleteFiles();    
   } else {  
     RecordBackgroundError(s);  
   }  
 }  

其中主要调用了两个函数：WriteLevel0Table()和versions_->LogAndApply()

1）首先调用WriteLevel0Table()，在WriteLevel0Table()中：

1. 首先调用BuildTable()将Immutable Memtable中所有的数据写入到一个.sst文件中，并将.sst文件的信息（文件编号，Key值范围，文件大小）记录到变量meta中。由于Memtable是基于Skiplist的，是一个有序表，因此在写入.sst文件时，Key值也是从小到大来排列的。可以发现，将Memtable中的数据转换为SSTable时，是将所有记录都写入SSTable的，要删除的记录也一样。删除操作会在更高level的Compaction中完成。因此level 0中可能会存在Key值相同的记录。

2. 然后调用PickLevelForMemTableOutput()为Memtable合并的输出文件选择合适的level，并调用edit->AddFile()将生成的.sst文件加入到该level中

[cpp]view plaincopy 
    
 Status DBImpl::WriteLevel0Table(MemTable* mem, VersionEdit* edit,  
                                 Version* base) {  
   mutex_.AssertHeld();  
   FileMetaData meta;  
   meta.number = versions_->NewFileNumber();//获取新生成的.sst文件的编号  
   pending_outputs_.insert(meta.number);  
   Iterator* iter = mem->NewIterator();//用于遍历Memtable中的数据  
   
   Status s;  
   {  
     mutex_.Unlock();  
     s = BuildTable(dbname_, env_, options_, table_cache_, iter, &meta);//创建.sst文件，并将其相关信息记录在meta中  
     mutex_.Lock();  
   }  
   
   delete iter;  //iter用完之后一定要删除  
   pending_outputs_.erase(meta.number);  
   
   int level = 0;  
   if (s.ok() && meta.file_size > 0) {  
     const Slice min_user_key = meta.smallest.user_key();  
     const Slice max_user_key = meta.largest.user_key();  
     if (base != NULL) {  
       level = base->PickLevelForMemTableOutput(min_user_key, max_user_key);//为合并的输出文件选择合适的level  
     }  
     edit->AddFile(level, meta.number, meta.file_size,meta.smallest, meta.largest);//将生成的.sst文件加入到该level  
   }  
   return s;  
 }  

2）然后调用versions_->LogAndApply()基于当前版本和更改edit来得到一个新版本

2、trivial Compaction

由之前的分析可知，is_manual默认为false，会调用PickCompaction()来选出要进行合并的level和相应的输入文件。

当c->IsTrivialMove()满足时，则直接将文件移动到下一level

[cpp]view plaincopy 
    
 c = versions_->PickCompaction();  
   
 Status status;  
 if (c == NULL) {  
   // Nothing to do  
 } else if (!is_manual && c->IsTrivialMove()) {  
   // Move file to next level  
   assert(c->num_input_files(0) == 1);  
   FileMetaData* f = c->input(0, 0);  
   c->edit()->DeleteFile(c->level(), f->number);  //将文件从该层删除  
   c->edit()->AddFile(c->level() + 1, f->number, f->file_size,   //将该文件加入到下一level  
                      f->smallest, f->largest);  
   status = versions_->LogAndApply(c->edit(), &mutex_);  //应用更改，创建新的Version  
 }   

1）首先调用PickCompaction()为接下来的Compaction操作准备输入数据

由之前对Compaction的数据结构分析可知，Compaction操作有两种触发方式：

某一level的文件数太多
某一文件的查找次数超过允许值

在进行合并时，将优先考虑文件数过多的情况

[cpp]view plaincopy 
    
 Compaction* VersionSet::PickCompaction() {  
   Compaction* c;  
   int level;  
   
   const bool size_compaction = (current_->compaction_score_ >= 1);//文件数过多  
   const bool seek_compaction = (current_->file_to_compact_ != NULL);//某一文件的查找次数太多  
   if (size_compaction) {//文件数太多优先考虑  
     level = current_->compaction_level_;  //要进行Compaction的level  
     c = new Compaction(level);  
   
     for (size_t i = 0; i < current_->files_[level].size(); i++) { //从待合并的level中选择合适的文件完成合并操作  
       FileMetaData* f = current_->files_[level][i];  //level层中的第i个文件  
       if (compact_pointer_[level].empty() || //compact_pointer_中记录的是下次合并的起始Key值，为空时都可以进行合并  
           icmp_.Compare(f->largest.Encode(), compact_pointer_[level]) > 0) { //或者f的最大Key值大于起始值  
         c->inputs_[0].push_back(f);//则该文件可以参与合并，将其加入到level输入文件中  
         break;  
       }  
     }  
     if (c->inputs_[0].empty()) { //若level输入为空，则将level的第一个文件加入到输入中  
       c->inputs_[0].push_back(current_->files_[level][0]);  
     }  
   } else if (seek_compaction) {//然后考虑查找次数过多的情况  
     level = current_->file_to_compact_level_;  
     c = new Compaction(level);  
     c->inputs_[0].push_back(current_->file_to_compact_);//将待合并的文件作为level层的输入  
   } else {  
     return NULL;  
   }  
   
   c->input_version_ = current_;  
   c->input_version_->Ref();  
   
   //level 0中的Key值是可以重复的，因此Key值范围可能相互覆盖  
   if (level == 0) {  
     InternalKey smallest, largest;  
     GetRange(c->inputs_[0], &smallest, &largest);//待合并的level层的文件的Key值范围  
     current_->GetOverlappingInputs(0, &smallest, &largest, &c->inputs_[0]);  
     assert(!c->inputs_[0].empty());  
   }  
   SetupOtherInputs(c);//获取待合并的level+1层的输入  
   return c;  
 }  

2）判断是否为trivial Compaction

[cpp]view plaincopy 
    
 bool Compaction::IsTrivialMove() const {  
   return (num_input_files(0) == 1 &&   //level层只有1个文件  
           num_input_files(1) == 0 &&   //level+1层没有文件  
           TotalFileSize(grandparents_) <= kMaxGrandParentOverlapBytes);//level+2层文件总大小不超过最大覆盖范围，否则会导致后面的merge需要很大的开销（why？？）  
 }  

当为trivial Compaction时，只需要简单的将level层的文件移动到level +1 层即可
3）然后完成Compaction操作

[cpp]view plaincopy 
    
 c->edit()->DeleteFile(c->level(), f->number);  
 c->edit()->AddFile(c->level() + 1, f->number, f->file_size,f->smallest, f->largest);  
 status = versions_->LogAndApply(c->edit(), &mutex_);    

将文件从level层删除，并将其加入到level +1 层中，再调用LogAndApply()得到新的Version

3、一般的合并

调用DBImpl::DoCompactionWork()完成，compact是调用VersionSet::PickCompacttion()得到的，与之前的trivial Compaction相同。

不同level之间，可能存在Key值相同的记录，但是记录的seq不同。由之前的分析可知，最新的数据存放在较低的level中，其对应的seq也一定level+1中的记录的seq要大，因此当出现相同Key值的记录时，只需要记录第一条记录，后面的都可以丢弃。

level 0中也可能存在Key值相同的数据，其后面的seq也不同。数据越新，其对应的seq越大，且记录在level 0中的记录是按照user_key递增，seq递减的方式存储的，则相同user_key对应的记录是聚集在一起的，且按照seq递减的方式存放的。在更高层的Compaction时，只需要处理第一条出现的user_key相同的记录即可，后面的相同user_key的记录都可以丢弃。

因此合并后的level +1层的文件中不会存在Key值相同的记录。

删除记录的操作也会在此时完成，删除数据的记录会被丢弃，而不会被写入到更高level的文件中。

[cpp]view plaincopy 
    
 Status DBImpl::DoCompactionWork(CompactionState* compact) {  
   if (snapshots_.empty()) {  
     compact->smallest_snapshot = versions_->LastSequence();  
   } else {  
     compact->smallest_snapshot = snapshots_.oldest()->number_;  
   }  
   mutex_.Unlock();  
   
   Iterator* input = versions_->MakeInputIterator(compact->compaction);//用于遍历待合并的每一个文件  
   input->SeekToFirst();  
   Status status;  
   ParsedInternalKey ikey;  
   std::string current_user_key;  
   bool has_current_user_key = false;  
   SequenceNumber last_sequence_for_key = kMaxSequenceNumber;  
   for (; input->Valid() && !shutting_down_.Acquire_Load(); ) {  
     if (has_imm_.NoBarrier_Load() != NULL) {  //immutable memtable的优先级最高  
       mutex_.Lock();  
       if (imm_ != NULL) {   //当imm_非空时，合并Memtable  
         CompactMemTable();  
         bg_cv_.SignalAll();  // Wakeup MakeRoomForWrite() if necessary  
       }  
       mutex_.Unlock();  
     }  
   
     Slice key = input->key();  
     if (compact->compaction->ShouldStopBefore(key) &&   //是否需要停止Compaction  
         compact->builder != NULL) {  
       status = FinishCompactionOutputFile(compact, input);  
     }  
   
     bool drop = false;  
     if (!ParseInternalKey(key, &ikey)) {  
       current_user_key.clear();  
       has_current_user_key = false;  
       last_sequence_for_key = kMaxSequenceNumber;  
     } else {  
       if (!has_current_user_key ||    //获取当前的user_key和sequence  
           user_comparator()->Compare(ikey.user_key,  
           Slice(current_user_key)) != 0) { //可能存在Key值相同但seq不同的记录  
         // 此时是这个Key第一次出现  
         current_user_key.assign(ikey.user_key.data(), ikey.user_key.size());  
         has_current_user_key = true;  
         last_sequence_for_key = kMaxSequenceNumber;//则将其seq设为最大值，表示第一次出现  
       }  
   
       if (last_sequence_for_key <= compact->smallest_snapshot) {//表示key已经出现过，否则seq应为KMaxSequenceNumber  
         drop = true;    // (A)   //之前已经存在Key值相同的记录，丢弃  
       } else if (ikey.type == kTypeDeletion &&   //要删除该记录  
               ikey.sequence <= compact->smallest_snapshot &&  //记录的序号比数据库之前的最小序号还小  
               compact->compaction->IsBaseLevelForKey(ikey.user_key)) { //高的level中没有数据  
         drop = true;   //此时要丢弃该记录  
       }  
       last_sequence_for_key = ikey.sequence;//上次出现的记录对应的sequence，用于判断后面出现相同Key值的情况  
     }  
   
     if (!drop) {   //如果不需要丢弃该记录  
       if (compact->builder == NULL) {  
         status = OpenCompactionOutputFile(compact);//若需要，则创建一个.sst文件，用于存放合并后的数据  
       }  
       if (compact->builder->NumEntries() == 0) {  
         compact->current_output()->smallest.DecodeFrom(key);  
       }  
       compact->current_output()->largest.DecodeFrom(key);  
       compact->builder->Add(key, input->value());//将记录写入.sst文件  
   
       if (compact->builder->FileSize() >=  
           compact->compaction->MaxOutputFileSize()) {   //当.sst文件超过最大值时  
         status = FinishCompactionOutputFile(compact, input);//完成Compaction输出文件  
       }  
     }  
     input->Next();  //处理下一个文件  
   }  
   
   if (status.ok() && compact->builder != NULL) {  
     status = FinishCompactionOutputFile(compact, input);  
   }  
   if (status.ok()) {  
     status = input->status();  
   }  
   delete input;  
   input = NULL;  
   
   mutex_.Lock();  
   if (status.ok()) {  
     status = InstallCompactionResults(compact);//完成合并  
   }  
   return status;  
 }  

首先将可以留下的记录写入到.sst文件中，并将相关信息保存在变量compact中，然后调用InstallCompactionResults()将所做的改动加入到VersionEdit中，再调用LogAndApply()来得到新的版本。

[cpp]view plaincopy 
    
 Status DBImpl::InstallCompactionResults(CompactionState* compact) {  
   mutex_.AssertHeld();  
   // Add compaction outputs  
   compact->compaction->AddInputDeletions(compact->compaction->edit());//将此次Compaction的输入文件全部删除  
   const int level = compact->compaction->level();  
   for (size_t i = 0; i < compact->outputs.size(); i++) {  
     const CompactionState::Output& out = compact->outputs[i];  
     compact->compaction->edit()->AddFile(level + 1,  
         out.number, out.file_size, out.smallest, out.largest);  //将新生成的每一个.sst文件依次加入到level+1层  
   }  
   return versions_->LogAndApply(compact->compaction->edit(), &mutex_);//应用更改，得到新的Version  
 }  

4、LogAndApply()

在上面三种不同的Compaction操作中，最终当对当前版本的更改VersionEdit全部完成后，都会调用LogAndApply()来应用更改，创建新版本的。

edit中保存了level和level+1层要删除和增加的文件

[cpp]view plaincopy 
    
 Status VersionSet::LogAndApply(VersionEdit* edit, port::Mutex* mu) {  
   
   Version* v = new Version(this);  //创建一个新Version  
   {  
     Builder builder(this, current_);//基于当前Version创建一个builder变量  
     builder.Apply(edit);//将edit中记录的要增加、删除的文件加入到builder类中  
     builder.SaveTo(v);//然后将edit中的记录保存到新创建的Version中，这样就得到了一个新的版本  
   }  
   Finalize(v);//根据各层文件数来判断是否还需要进行Compaction  
   
   std::string new_manifest_file;  
   Status s;  
   if (descriptor_log_ == NULL) {   //只会在第一次调用时进入  
     assert(descriptor_file_ == NULL);  
     new_manifest_file = DescriptorFileName(dbname_, manifest_file_number_);//创建一个新的Manifest文件  
     edit->SetNextFile(next_file_number_);  
     s = env_->NewWritableFile(new_manifest_file, &descriptor_file_);  
     if (s.ok()) {  
       descriptor_log_ = new log::Writer(descriptor_file_);  
       s = WriteSnapshot(descriptor_log_);//快照，系统开始时完整记录数据库的所有信息  
     }  
   }  
   {  
     mu->Unlock();  
     if (s.ok()) {  
       std::string record;  
       edit->EncodeTo(&record);  
       s = descriptor_log_->AddRecord(record);//将数据库的变化记录到Manifest文件中  
       if (s.ok()) {  
         s = descriptor_file_->Sync();  
       }  
     }  
     if (s.ok() && !new_manifest_file.empty()) {  
       s = SetCurrentFile(env_, dbname_, manifest_file_number_);  
     }  
     mu->Lock();  
   }  
   
   if (s.ok()) {  
     AppendVersion(v);  //将新得到的Version插入到所有Version形成的双向链表的尾部  
     log_number_ = edit->log_number_;  
     prev_log_number_ = edit->prev_log_number_;  
   }  
   }  
   return s;  
 }  

为了重启之后能恢复数据库之前的状态，就需要将数据库的历史变化信息记录下来，这些信息都是记录在Manifest文件中的。为了节省空间和时间，leveldb采用的是在系统开始完整的所有数据库的信息（WriteSnapShot()），以后则只记录数据库的变化，即VersionEdit中的信息（descriptor_log_->AddRecord()）。恢复时，只需要根据Manifest中的信息就可以一步步的恢复到上次的状态。

1）首先创建一个新的Version，然后调用builder.Apply(edit)将edit中所有要删除、增加的文件编号记录下来，其实现如下：

[cpp]view plaincopy 
    
 // Apply all of the edits in *edit to the current state.  
 void Apply(VersionEdit* edit) {  
   // 更新每一层下次合并的起始Key值  
   for (size_t i = 0; i < edit->compact_pointers_.size(); i++) {  
     const int level = edit->compact_pointers_[i].first;  
     vset_->compact_pointer_[level] =  
         edit->compact_pointers_[i].second.Encode().ToString();  
   }  
   //将所有要删除的文件加入到levels_[level].deleted_files变量中  
   const VersionEdit::DeletedFileSet& del = edit->deleted_files_;  
   for (VersionEdit::DeletedFileSet::const_iterator iter = del.begin();  
        iter != del.end();++iter) {  
     const int level = iter->first;  
     const uint64_t number = iter->second;  
     levels_[level].deleted_files.insert(number);  
   }  
   // 将所有新增加的文件加入到levels_[level].added_files中  
   for (size_t i = 0; i < edit->new_files_.size(); i++) {  
     const int level = edit->new_files_[i].first;  
     FileMetaData* f = new FileMetaData(edit->new_files_[i].second);  
     f->refs = 1;  
     f->allowed_seeks = (f->file_size / 16384);  
     if (f->allowed_seeks < 100) f->allowed_seeks = 100;  
     levels_[level].deleted_files.erase(f->number);  
     levels_[level].added_files->insert(f);  
   }  
 }  

2）然后再调用builder.SaveTo(v)将更改保存到新的Version中，其实现如下

[cpp]view plaincopy 
    
 void SaveTo(Version* v) {  
   BySmallestKey cmp;  
   cmp.internal_comparator = &vset_->icmp_;  
   for (int level = 0; level < config::kNumLevels; level++) {  
     const std::vector<FileMetaData*>& base_files = base_->files_[level];//当前Version中原有的各个level的.sst文件  
     std::vector<FileMetaData*>::const_iterator base_iter = base_files.begin();  
     std::vector<FileMetaData*>::const_iterator base_end = base_files.end();  
     const FileSet* added = levels_[level].added_files;//对应level新增加的文件  
     v->files_[level].reserve(base_files.size() + added->size());  
     for (FileSet::const_iterator added_iter = added->begin();  
          added_iter != added->end();++added_iter) {  
       // 将原有文件中编号比added小的加入到新的Version  
       for (std::vector<FileMetaData*>::const_iterator bpos  
                = std::upper_bound(base_iter, base_end, *added_iter, cmp);  
            base_iter != bpos;++base_iter) {  
         MaybeAddFile(v, level, *base_iter);  
       }  
       MaybeAddFile(v, level, *added_iter);//再将新增的文件依次加入到新的Version  
     }  
     for (; base_iter != base_end; ++base_iter) {  
       MaybeAddFile(v, level, *base_iter);//再将原有文件中剩余的部分加入到新的Version  
     }  
   }  
 }  

bpos = std::upper_bound(base_iter,base_end,*added_iter,cmp); // 返回base_iter到base_end之间，第一个大于*added_iter的iter。
假设原有文件的编号为1、3、4、6、8，新增文件的编号为2、5、7，则第一次循环时，bpos为3对应的迭代器，因此base_iter只遍历一个元素，即将编号1加入到新的Version中。

总体对新增文件来说，就是首先加入base中编号比它小的，然后再将其加入，然后再继续比那里下一个新增文件，因此最终得到的文件编号顺序是 1、2、3、4、5、6、7、8，即每一层的.sst文件都是按照编号从小到大排列的。

这样就得到了新的Version的每一层的所有文件。