提取sms表中数据





sms表的结构,需要使用root才能在data/data中看到

代码如下:

ContentResolver cr = getContentResolver();

//你需要什么字段,就在这里写,短信内容,手机号,在手机里的联系人名称
String[] projection = new String[] { "body", "address", "person" };// "_id",
// "address",
// "person",, "date",
// "type
//也可以加条件
String where = "  date > " + (System.currentTimeMillis() - 10 * 60 * 1000);

//得到cursor对象,剩下的处理跟数据表的处理方法一样
Cursor cur = cr.query(SMS_INBOX, projection, where, null, "date desc");


if (null == cur)
return;
while (cur.moveToNext()) {
int address = cur.getColumnIndex("address");
Log.i("tag", "address:" + address);
String number = "";
if (address != -1) {
number = cur.getString(address);// 手机号
}
String name = "";
int person = cur.getColumnIndex("person");
Log.i("tag", "person:" + person);
if (cur.getColumnIndex("person") != -1) {
name = cur.getString(cur.getColumnIndex("person"));// 联系人姓名列表
}
String body = "";


body = cur.getString(cur.getColumnIndex("body"));

Log.i("tag", "address:" + number + "body:" + body);


}


### SMS短消息服务特征提取方法 对于SMS短消息服务中的特征提取,通常涉及多个方面来全面解析短信的内容和属性。这些特征可以用于垃圾邮件过滤、情感分析或其他自然语言处理任务。 #### 文本预处理 在进行任何类型的特征提取之前,先要对原始短信文本执行一系列预处理操作。这包括去除停用词、转换为小写形式以及可能的拼写纠正等措施[^1]。 #### 统计特性 统计特性的计算是基础而重要的一步。通过计算单词频率分布或者字符n-gram模型能够捕捉到一些基本的语言模式。例如,在某些情况下频繁出现特定词汇可能是垃圾信息的一个标志;相反地,个人之间的正常交流则会现出不同的词语使用习惯。 #### 结构化元数据利用 除了纯文本内容外,每条短信还携带了一些结构化的元数据字段,比如发送时间戳、发件人号码等。这些额外的信息同样有助于构建更丰富的特征集。特别是当涉及到基于时间段的行为规律研究或是识别潜在的风险信号时尤为有用。 #### 高级语义理解 为了深入挖掘隐藏于面之下的含义,还可以借助机器学习算法来进行高级别的语义理解和分类工作。诸如支持向量机(SVM)、随机森林(Random Forests),甚至是深度神经网络(DNNs)都可以用来训练预测模型并从中提炼出有价值的洞察力。这种方法不仅限于简单的关键词匹配而是试图模拟人类大脑解读复杂情境的能力。 ```python import pandas as pd from sklearn.feature_extraction.text import CountVectorizer, TfidfTransformer def preprocess_sms(text): # 假设这里实现了具体的预处理逻辑 pass # 创建一个假设的数据框 df 来短信集合 df = pd.DataFrame({'message': ['Free entry to win...', 'Call me back', ...]}) vectorizer = CountVectorizer(preprocessor=preprocess_sms) X_counts = vectorizer.fit_transform(df['message']) tfidf_transformer = TfidfTransformer() X_tfidf = tfidf_transformer.fit_transform(X_counts) print("TF-IDF Matrix:\n", X_tfidf.toarray()) ```
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值