文章詳情頁

java獲取文件編碼,jsoup獲取html純文本操作

瀏覽：3日期：2022-08-26 17:12:55

maven引入獲取編碼的jar

獲取文件編碼

package com.lovnx.note.util;import com.ibm.icu.text.CharsetDetector;import com.ibm.icu.text.CharsetMatch;import org.jsoup.Jsoup;import org.jsoup.nodes.Document;import org.jsoup.select.Elements; import java.io.IOException;import java.net.URL;import java.nio.file.Files;import java.nio.file.Path;import java.nio.file.Paths; /** * @author @256g的胃 * @ClassName HtmlParse * @Description * @Date 15:32 2020/7/9 **/public class HtmlParse { public static String getEncode(String filePath) throws IOException { Path path = Paths.get(filePath); byte[] data = Files.readAllBytes(path); CharsetDetector detector = new CharsetDetector(); detector.setText(data); CharsetMatch match = detector.detect(); String encoding = match.getName(); System.out.println('The Content in ' + match.getName()); return encoding; } public static void main(String[] args) throws Exception { System.out.println(HtmlParse.getEncode('/Users/cxt/Downloads/test.html')); }}

上面獲取文件編碼是為了在服務器根據文件流下載文件時防止文件亂碼直接指定編碼格式，然后再根據下載下來的文件識別純文本

Document doc = Jsoup.parse('讀取的文本字符串，此處應該是帶html標簽的');

String text = doc.text();

jsoup也支持直接指定文件的形式去獲取純文本

參考 https://jsoup.org/

補充知識：java 解析html/讀取html內容

jsoup

String 轉化

1、Document doc = Jsoup.parse(html);

例如：

String html = '<html><head><title>First parse</title></head>' + '<body><p>Parsed HTML into a doc.</p></body></html>'; Document doc = Jsoup.parse(html); System.out.println(doc.text()); ;

常用api

2、獲取節點文本：Document.text();

以上這篇java獲取文件編碼,jsoup獲取html純文本操作就是小編分享給大家的全部內容了，希望能給大家一個參考，也希望大家多多支持好吧啦網。

Java

上一條：java讀取html文件,并獲取body中所有的標簽及內容的案例下一條：java 實現Comparable接口排序,升序、降序、倒敘

排行榜

					
					Spring Cloud Feign統一設置驗證token實現方法解析
idea設置自動導入依賴的方法步驟
10 個最終編譯成 JavaScript 的腳本語言
PHP擴展之Web服務（二）——SOAP
Django與AJAX實現網頁動態數據顯示的示例代碼
淺析JAVA Lock鎖原理
Python實現求解斐波那契第n項的解法(包括矩陣乘法＋快速冪)
PHP循環與分支知識點梳理
ASP刪除img標簽的style屬性只保留src的正則函數
得到XML文檔大小的方法
XML入門的常見問題(二)