最近研究一個翻譯系統,對老師上傳的一段文本自動拆分成句,乍一聽好像很簡單哦,split分隔下句號不就完事了嘛!。。。mdzz還是太年輕,一不小心上當了,還有嘆號問好雙引號呢~!當然這個也不算什么,找個正則表達式就好啦^_^!太天真了!!!勞資突然發現英文簡直了,竟然還有縮略詞!!!這尼瑪怎么分析哦,一頓翻山越嶺,發現國內的相關文章有限,對於縮略詞都不能有很好的支持,於是在這個時間段,國內嚴禁翻牆的時間。。。我偷偷翻牆去問問歪果仁了,警察叔叔不要抓我,我只是愛學習的騷年Σ( ° △ °|||)︴ 然而實際情況是,歪果仁自己也煩躁他們自己的語言太事逼。。。為什么就不能像中文一樣有明顯的句子邊界呢。。。好吧,我特么也是醉了,正當我一籌莫展之際,一個白胡子老頭從天而降,說,騷年,需要幫助嗎。別誤會,不是援助交際ヽ(=^・ω・^=)丿。。。好吧言歸正傳,我看到了NLP,並找到了lingpipe,引用起來相當簡單,一個下午從接觸到實現徹底搞定,說了一堆廢話,開始正文!
import java.util.ArrayList;
import java.util.List;
import com.aliasi.sentences.IndoEuropeanSentenceModel;
import com.aliasi.sentences.SentenceModel;
import com.aliasi.tokenizer.IndoEuropeanTokenizerFactory;
import com.aliasi.tokenizer.Tokenizer;
import com.aliasi.tokenizer.TokenizerFactory;
public class SpliteTextInSentence {
static final TokenizerFactory TOKENIZER_FACTORY = IndoEuropeanTokenizerFactory.INSTANCE;
stati

本文介绍了使用Java和lingpipe库来处理英文段落,将其准确地拆分成句子。在处理过程中,作者遇到了缩略词、日期、单位等问题,通过lingpipe的SentenceModel解决了这些问题。提供了示例代码展示如何处理包含中文标点的文本,并提醒注意JDK版本和句子的标点完整性。
最低0.47元/天 解锁文章
9900

被折叠的 条评论
为什么被折叠?



