任务
实现个性化推荐功能。经过之前的开发,已经实现了根据关键词查询网页的Selenium脚本、Selenium的Flask化形成一个接口服务、Frp将本地服务映射到远程也能访问。但是Selenium的反应过慢,大约需要5分钟才能爬取完毕,这显然不可能作为一个用户功能。
本次开发的任务是根据爬取的标题,调用AI提取出关键词、存入数据库,调用推荐功能时可以根据关键词进行推荐,也可以随机推荐一些内容、增加推荐内容的多样性。
后续再实现根据用户点击内容分析用户的兴趣、提取关键词、推荐热点等功能。
取得爬虫结果
JSONArray urls = null;
if (keyword == null) return;
try {
// debug了好久 应该是汉字出现的错误,先转成UTF8再搞
String encodedString = URLEncoder.encode(keyword, StandardCharsets.UTF_8.toString());
// 目标URL
String urlString = "http://ip:5000/search?keyword=" + encodedString;
// 用真的会等很久 开发使用mock出来的接口
//String urlString = "http://ip:5000/mock";
// 创建URL对象
URL getUrl = new URL(urlString);
// 打开连接
HttpURLConnection connection = (HttpURLConnection) getUrl.openConnection();
// 设置请求方法为GET
connection.setRequestMethod("GET");
// 获取响应码,200表示成功
int responseCode = connection.getResponseCode();
if (responseCode == HttpURLConnection.HTTP_OK) {
// 读取响应内容
BufferedReader in = new BufferedReader(new InputStreamReader(connection.getInputStream()));
StringBuilder content = new StringBuilder();
String inputLine;
while ((inputLine = in.readLine()) != null) {
content.append(inputLine);
}
in.close();
// 解析JSON字符串为JSONArray
urls = new JSONArray(content.toString());
// test
// System.out.println(urls);
} else {
System.out.println("GET request not worked, response code: " + responseCode);
}
connection.disconnect(); // 关闭连接
} catch (Exception e) {
e.printStackTrace();
}
-
String encodedString = URLEncoder.encode(keyword, StandardCharsets.UTF_8.toString());测试时一直出现问题,但是通过GET接口访问的Java后端,参数正常传递,但是传入后端失败,可能是汉字的编码导致的。改成UTF8编码,运行正确。
-
urls = new JSONArray(content.toString());调用Maven Repository: org.json » json (mvnrepository.com)包,将String的返回结果转换为JSON数组串,便于后续的处理。
处理JSON数组
// 拿到了urls 开始处理
if (urls == null) return;
int step = 4;
int times = urls.length() / step + 1;
for (int j = 0; j < times; j++) {
String message = "";
for (int i = 0; i < step; i++) {
int index = j * step + i;
if (index >= urls.length() - 1) break;
JSONArray url = new JSONArray(urls.get(index).toString());
if (url.get(0).toString().startsWith("http") && !recommendService.isExists(url.get(0).toString()))
message += "{title:" + url.get(1) + ",url:" + url.get(0) + "}\n";
}
-
首先检查
urls是否为 null,然后将每step个 URL 分成一组进行处理。 -
数据清洗:确保每个连接可以访问且不重复。对于每个 URL,如果它以 "http" 开头且不在
recommendService中存在,才进行处理这个URL。 -
满足条件的标题和 URL,以
{title:{title},url:{url}}的格式加入message字符串中,留着后续处理。
AI处理关键词
Prompt提示词
你是一个归纳概括的专家,接下来我将按照固定格式给你一个关键词和若干标题和网址:
关键词:{关键词}
{title:{标题},url:{网址}}
...
{title:{标题},url:{网址}}
请根据以上的标题和关键词分析,提取关键词,关键词尽可能多,按照JSON数组格式输出(此外一定不要输出任何多余的开头、结尾、注释!!)
[
{
"title":{原来的标题},
"keywords"::[{提取的关键词1},...,{提取的关键词2}],
"url":{原来的网址}
},
...
{
"title":{原来的标题},
"keywords"::[{提取的关键词1},...,{提取的关键词2}],
"url":{原来的网址}
}
]
(每一条产生一行,若标题信息不足,该行可删去)
代码
String role = {prompt提示词};
message = "关键词:" + keyword + "\n" + message;
String answer = callWithMessageAndRole(message, role);
callWithMessageAndRole是调用之前的AI接口,同时设置角色和消息。拼接message,得到JSON字符串。
存入数据库
处理如下的数据:
```json
[
{
"title":{原来的标题},
"keywords"::[{提取的关键词1},...,{提取的关键词2}],
"url":{原来的网址}
},
...
{
"title":{原来的标题},
"keywords"::[{提取的关键词1},...,{提取的关键词2}],
"url":{原来的网址}
}
]
```
首先将前后的代码注释标记符去掉,可以直接使用String的replace即可。继续使用JSONArray类解析。
反复地改变Step的值,发现当Step大于4时,返回的结果发生格式错误,无法作为JSON解析。
尽管Step等于4,处理速度比较慢,但是都是存入数据库,这里慢一些没有太多影响。
answer = answer.replace("```json", "");
answer = answer.replace("```", "");
JSONArray jsonObjs;
try {
jsonObjs = new JSONArray(answer);
} catch (Exception e) {
continue;
}
for (int i = 0; i < jsonObjs.length(); i++) {
JSONObject jsonObject = jsonObjs.getJSONObject(i);
Recommend recommend = new Recommend();
recommend.setTitle(jsonObject.getString("title"));
recommend.setKeywords(jsonObject.getJSONArray("keywords").toString());
recommend.setUrl(jsonObject.getString("url"));
recommendService.add(recommend);
}
最后使用jsonObject的get方法,取到了JSON结果,再存如数据库。
体会和后续
经过本次的开发,实现了AI的数据清洗并存入数据库。实现了功能,但效率有提升的空间。本次开发的实现代码都写入了AiController这个类,后续准备将一些功能提取成方法,写入Service中并在ServiceImpl中实现,比较符合开发规范。调用通义千问API对本地机器负荷不大,这一块循环调用在后续考虑改成多线程请求,或许可以提高开发效率。此外,在本次关键词提取时,AI是根据关键词和标题进行关键词分析,我们在传参时也传入了URL,返回了原本的URL,这造成了一些Token的浪费,但是AI有可能对链接进行删除,如果简单的对应,可能会造成URL和标题错位,后续可能需要更改传参方式和Prompt提示词增加Token的利用率。
2305

被折叠的 条评论
为什么被折叠?



